Tree-AS ノードは、分散環境内のデータと共に使用できます。 このノードで CHAID モデルまたは Exhaustive CHAID モデルを使用して、ディシジョン・ツリーを作成することができます。
CHAID (Chi-squared Automatic Interaction Detection) は、最適な分割を識別するために、カイ 2 乗統計を使用してディシジョン・ツリーを構築する分類方法です。
CHAID は、最初に、個々の入力フィールドと結果の間のクロス集計を検査し、カイ 2 乗独立性検定を使用して有意確率を検定します。 これらの関係の 1 つ以上が統計的に有意である場合、CHAID は、最も有意な入力フィールドを選択します (最小の p
値)。 入力フィールドが 3 つ以上のカテゴリーを持っている場合、それらは比較され、結果中で違いが見あたらないカテゴリーは、一緒に折りたたまれます。 これは、最も有意差が小さいように見えるカテゴリーのペアを連続的に結合することで行われます。 指定された検定レベルで、すべての残りのカテゴリーが異なるとき、カテゴリーのマージ プロセスは停止します。 名義型入力フィールドでは、すべてのカテゴリーはマージできます。順序セットでは、隣接するカテゴリーだけがマージできます。
Exhaustive CHAID は、CHAID の修正版で、各予測フィールドですべての可能性のある分割を調べることで、よりよい結果を得られますが、計算時間も長くなります。
要件。 入力フィールドは、連続型またはカテゴリー型です。ノードは、各レベルで 2 個以上のサブグループに分割できます。 このモデルで使用される順序フィールドは、数値ストレージを持っていなければなりません (文字列不可)。 必要な場合、データ分類ノードを使用して変換します。
利点 CHAID は、非 2 分岐ツリーを生成できます。これは、ある分岐が 3 個以上のブランチを持つことを意味します。 そのため、2 分成長法よりも、幅の広いツリーを生成する傾向があります。 CHAID は、入力フィールドのすべてのタイプで動作し、ケースの重み付け変数と度数変数の両方を受け付けます。