資料の 英語版 に戻る

randomtrees プロパティー

最終更新: 2025年2月11日
randomtrees プロパティー

Random Trees ノードのアイコンRandom Trees ノードは C & RT Tree ノードと似ていますが、Random Trees ノードはビッグデータを処理して単一のツリーを作成するように設計されています。 Random Trees ノードは、将来の観測値を予測または分類するために使用するディシジョン ツリーを生成します。 この方法では、再帰的なデータ分岐を使用して、各ステップで不純性を最小限に抑えることで、学習レコードがセグメントに分割されます。ツリー内のノードは、ノード内のケースの 100% が対象フィールドの特定のカテゴリーに分類される場合に、純粋 と見なされます。 対象フィールドおよび入力フィールドは、数値範囲またはカテゴリー (名義型、順序型、フラグ) が使用できます。すべての分岐は 2 分割です (2 つのサブグループのみ)。

表 1. randomtrees プロパティー
randomtreesプロパティー プロパティーの説明
target フィールド Random Trees ノードでは、モデルには単一の対象フィールドおよび 1 つ以上の入力フィールドが必要になります。 度数フィールドも指定できます。 詳しくは、 モデル作成ノードの共通プロパティー を参照してください。
number_of_models 整数 アンサンブル・モデル構築の一環として構築されるモデルの数を決定します。
use_number_of_predictors フラグ number_of_predictorsを使用するかどうかを決定します。
number_of_predictors 整数 分割モデルの構築時に使用する予測値の個数を指定します。
use_stop_rule_for_accuracy フラグ 精度を改善できない場合にモデル作成を停止するかどうかを決定します。
sample_size 数値 極めて大規模なデータ・セットを処理する際にパフォーマンスを向上させるには、この値を小さくします。
handle_imbalanced_data フラグ モデルの対象が特定のフラグ型結果であり、望ましい結果と望ましくない結果の比率が非常に小さい場合、データは不均衡になり、モデルによって実行されるブートストラップ・サンプリングがモデルの正確度に影響する可能性があります。 不均衡なデータの処理を有効にすると、モデルが収集する望ましい結果の比率が高まり、より強固なモデルが生成されます。
use_weighted_sampling フラグ False の場合、各ノードの変数は、同じ確率で無作為に選択されます。 True の場合、変数には重みが付けられ、それに応じて選択されます。
max_node_number 整数 個々のツリーで許容されるノードの最大数。 次の分割でこの数を超えることが予想される場合、ツリーの成長は停止します。
max_depth 整数 ツリーの最大の深さ。これに達すると成長は停止します。
min_child_node_size 整数 親ノードの分割後に子ノードで許容されるレコードの最小数を決定します。 子ノードに含まれるレコードの数がここで指定した数より少ない場合、親ノードは分割されません。
use_costs フラグ  
costs 構造化 構造化プロパティー。 形式は、実際の値、予測された値、およびコスト (予測が正しくない場合) の 3 つの値のリストです。 例 : tree.setPropertyValue("costs", [["drugA", "drugB", 3.0], ["drugX", "drugY", 4.0]])
default_cost_increase none linear square custom これは、順序型対象に対してのみ有効になることに注意してください。 コスト行列にデフォルト値を設定します。
max_pct_missing 整数 いずれかの入力の欠損値の割合がここで指定した値より大きい場合、その入力は除外されます。 最小値は 0、最大値は 100 です。
exclude_single_cat_pct 整数 いずれかのカテゴリー値がここで指定したレコードの割合より高い場合、そのフィールド全体がモデル構築から除外されます。 最小値は 1、最大値は 99 です。
max_category_number 整数 フィールド内のカテゴリー数がこの値を超える場合、そのフィールドはモデル構築から除外されます。 最大値は 2 です。
min_field_variation 数値 連続型フィールドの変動係数がこの値より小さい場合、そのフィールドはモデル構築から除外されます。
num_bins 整数 データが連続型入力で構成される場合にのみ使用されます。 入力に対して使用する等しいフリクエンシ ビンの数を設定します。オプションは 2、4、5、10、20、25、50、または 100 です。
topN 整数 報告するルールの数を指定します。 デフォルト値は 50 で、最小値は 1、最大値は 1000 です。