CHAID 或卡方自动交互检测是一种通过使用卡方统计量识别最优分割来构建决策树的分类方法。
CHAID 首先检查每个输入字段与结果之间的交叉制表,并使用卡方独立性检验来检验显着性。 如果其中多个关系具有统计意义,那么 CHAID 将选择最重要 (最小 p
值) 的输入字段。 如果输入具有两个以上的类别,那么将进行比较。 结果中未显示差异的类别将合并在一起。 通过依次连接显示最小显着性差异的类别对来完成类别合并。 当所有剩余类别在指定的检验级别上存在差异时,此类别合并过程将终止。 对于名义输入字段,可以合并任何类别;对于有序集合,只能合并相邻的类别。
Exhaustive CHAID 是 CHAID 的修正版,它可对每个预测变量的所有可能分割进行更彻底的检查,但计算时间比较长。
要求
目标字段和输入字段可以是连续字段,也可以是分类字段。 可以在每个级别将节点拆分为两个或多个子组。 模型中使用的任何有序字段都必须具有数字存储器 (而不是字符串)。 如果需要,可以使用 重新分类 节点来转换这些节点。
优势
Unlike the C&R Tree and QUEST nodes, CHAID can generate nonbinary trees, which means that some splits have more than two branches. 因此, CHAID 倾向于创建比二元生长方法更宽的树。 CHAID 适用于所有类型的输入,并且接受观测值权重和频率变量。
定制的层
您可以定制 CHAID 节点的属性,以指定 CHAID 算法在确定在何处拆分决策树时必须使用的字段。 当 SPSS Modeler 流运行时,决策树在拆分时使用为该层指定的字段。 您可以为多层指定字段以控制决策树的每个分割。
您可以使用定制层来控制决策树的增长。 当您熟知数据集或具有一些预定义的决策规则时,此控件尤其有用。
- 在 CHAID 节点的属性中,展开 Modeler 选项。
- 单击 定制层 复选框,然后单击 添加值。
- 单击该行,然后从列表中选择字段的名称。
- 单击 添加值 以向 定制层 表添加更多行。