資料の英語版に戻る

randomtrees プロパティー

最終更新: 2025年2月11日

randomtrees プロパティー

Random Trees ノードのアイコン Random Trees ノードは C & RT Tree ノードと似ていますが、Random Trees ノードはビッグデータを処理して単一のツリーを作成するように設計されています。 Random Trees ノードは、将来の観測値を予測または分類するために使用するディシジョンツリーを生成します。この方法では、再帰的なデータ分岐を使用して、各ステップで不純性を最小限に抑えることで、学習レコードがセグメントに分割されます。ツリー内のノードは、ノード内のケースの 100% が対象フィールドの特定のカテゴリーに分類される場合に、純粋と見なされます。対象フィールドおよび入力フィールドは、数値範囲またはカテゴリー (名義型、順序型、フラグ) が使用できます。すべての分岐は 2 分割です (2 つのサブグループのみ)。

表 1. randomtrees プロパティー
`randomtrees`プロパティー	値	プロパティーの説明
`target`	フィールド	Random Trees ノードでは、モデルには単一の対象フィールドおよび 1 つ以上の入力フィールドが必要になります。度数フィールドも指定できます。詳しくは、モデル作成ノードの共通プロパティーを参照してください。
`number_of_models`	整数	アンサンブル・モデル構築の一環として構築されるモデルの数を決定します。
`use_number_of_predictors`	フラグ	`number_of_predictors`を使用するかどうかを決定します。
`number_of_predictors`	整数	分割モデルの構築時に使用する予測値の個数を指定します。
`use_stop_rule_for_accuracy`	フラグ	精度を改善できない場合にモデル作成を停止するかどうかを決定します。
`sample_size`	数値	極めて大規模なデータ・セットを処理する際にパフォーマンスを向上させるには、この値を小さくします。
`handle_imbalanced_data`	フラグ	モデルの対象が特定のフラグ型結果であり、望ましい結果と望ましくない結果の比率が非常に小さい場合、データは不均衡になり、モデルによって実行されるブートストラップ・サンプリングがモデルの正確度に影響する可能性があります。不均衡なデータの処理を有効にすると、モデルが収集する望ましい結果の比率が高まり、より強固なモデルが生成されます。
`use_weighted_sampling`	フラグ	False の場合、各ノードの変数は、同じ確率で無作為に選択されます。 True の場合、変数には重みが付けられ、それに応じて選択されます。
`max_node_number`	整数	個々のツリーで許容されるノードの最大数。次の分割でこの数を超えることが予想される場合、ツリーの成長は停止します。
`max_depth`	整数	ツリーの最大の深さ。これに達すると成長は停止します。
`min_child_node_size`	整数	親ノードの分割後に子ノードで許容されるレコードの最小数を決定します。子ノードに含まれるレコードの数がここで指定した数より少ない場合、親ノードは分割されません。
`use_costs`	フラグ
`costs`	構造化	構造化プロパティー。形式は、実際の値、予測された値、およびコスト (予測が正しくない場合) の 3 つの値のリストです。例 : `tree.setPropertyValue("costs", [["drugA", "drugB", 3.0], ["drugX", "drugY", 4.0]])`
`default_cost_increase`	`none` `linear` `square` `custom`	これは、順序型対象に対してのみ有効になることに注意してください。コスト行列にデフォルト値を設定します。
`max_pct_missing`	整数	いずれかの入力の欠損値の割合がここで指定した値より大きい場合、その入力は除外されます。最小値は 0、最大値は 100 です。
`exclude_single_cat_pct`	整数	いずれかのカテゴリー値がここで指定したレコードの割合より高い場合、そのフィールド全体がモデル構築から除外されます。最小値は 1、最大値は 99 です。
`max_category_number`	整数	フィールド内のカテゴリー数がこの値を超える場合、そのフィールドはモデル構築から除外されます。最大値は 2 です。
`min_field_variation`	数値	連続型フィールドの変動係数がこの値より小さい場合、そのフィールドはモデル構築から除外されます。
`num_bins`	整数	データが連続型入力で構成される場合にのみ使用されます。入力に対して使用する等しいフリクエンシビンの数を設定します。オプションは 2、4、5、10、20、25、50、または 100 です。
`topN`	整数	報告するルールの数を指定します。デフォルト値は 50 で、最小値は 1、最大値は 1000 です。

トピックは役に立ちましたか?

0/1000