CHAID (Chi-squared Automatic Interaction Detection) は、最適な分割を識別するために、カイ 2 乗統計を使用してディシジョン・ツリーを構築する分類方法です。
CHAID はまず、各入力フィールドと結果の間のクロス集計表を調べ、カイ 2 乗独立性検定を使用して有意性を検定します。 これらの関係の複数が統計的に有意である場合、CHAID は最も有意である (最小の p
値) 入力フィールドを選択します。 入力に 3 つ以上のカテゴリーがある場合、それらのカテゴリーが比較されます。 結果に差がないカテゴリーは、まとめて省略されます。 カテゴリーの結合は、最小有意差を示すカテゴリーのペアを連続して結合することによって行われます。 指定された検定レベルで、すべての残りのカテゴリーが異なるとき、カテゴリーのマージ プロセスは停止します。 名義型入力フィールドでは、すべてのカテゴリーはマージできます。順序セットでは、隣接するカテゴリーだけがマージできます。
Exhaustive CHAID は、CHAID の修正版で、各予測フィールドですべての可能性のある分割を調べることで、よりよい結果を得られますが、計算時間も長くなります。
要件
対象フィールドと入力フィールドは、連続型またはカテゴリー型にすることができます。 ノードは、各レベルで 2 つ以上のサブグループに分割できます。 モデルで使用されるすべての順序型フィールドには、(文字列ではなく) 数値ストレージが必要です。 必要に応じて、 「データ分類」 ノードを使用して変換することができます。
強み
C & R Tree および QUEST ノードとは異なり、CHAID は非 2 分岐ツリーを生成できます。これは、ある分岐が 3 つ以上のブランチを持つことを意味します。 このため、CHAID は、二項成長法よりも広いツリーを作成する傾向があります。 CHAID は、入力フィールドのすべてのタイプで動作し、ケースの重み付け変数と度数変数の両方を受け付けます。
カスタマイズされたレイヤー
CHAID ノードのプロパティーをカスタマイズして、CHAID アルゴリズムがデシジョン・ツリーを分割する場所を決定するときに使用する必要があるフィールドを指定できます。 SPSS Modeler フローが実行されると、意思決定ツリーは、分割時にその層に指定されたフィールドを使用します。 複数のレイヤーのフィールドを指定して、デシジョン・ツリーの各分割を制御することができます。
カスタム・レイヤーを使用して、デシジョン・ツリーの成長を制御できます。 このコントロールは、データ・セットを十分に理解している場合や、事前定義された決定ルールがある場合に特に役立ちます。
- CHAID ノードのプロパティーで、 「Modeler オプション」を展開します。
- 「レイヤーのカスタマイズ」 チェック・ボックスをクリックし、 「値の追加」をクリックします。
- 行をクリックし、リストからフィールドの名前を選択します。
- 「値の追加」 をクリックして、 「カスタマイズされたレイヤー」 テーブルにさらに行を追加します。