CHAID, o detección automática de interacciones mediante chi-cuadrado (del inglés Chi-squared Automatic Interaction Detection), es un método de clasificación para generar árboles de decisión mediante estadísticas de chi-cuadrado para identificar divisiones óptimas.
CHAID primero examina las tabulaciones cruzadas entre cada uno de los campos de entrada y el resultado, y contrasta la significación utilizando una prueba de independencia de chi-cuadrado. Si más de una de estas relaciones son estadísticamente significativas, CHAID selecciona el campo de entrada que es el más significativo (valor p
más pequeño). Si una entrada tiene más de dos categorías, se comparan. Las categorías que no muestran diferencias en el resultado se contraen juntas. La fusión de categorías se realiza uniendo sucesivamente el par de categorías que muestran la diferencia menos significativa. Este proceso de fusión de categorías se detiene cuando todas las categorías restantes difieren entre sí en el nivel de comprobación especificado. En el caso de campos de entrada nominales, se pueden fusionar todas las categorías. Sin embargo, en los conjuntos ordinales, únicamente se podrán fusionar las categorías contiguas.
CHAID exhaustivo es una modificación de CHAID que examina con mayor precisión todas las divisiones posibles para cada predictor, aunque necesita más tiempo pare realizar los cálculos.
Requisitos
Los campos objetivo y de entrada pueden ser continuos o categóricos. Los nodos se pueden dividir en dos o más subgrupos en cada nivel. Los campos ordinales que se utilizan en el modelo deben tener almacenamiento numérico (no serie). Si es necesario, se puede utilizar el nodo Reclasificar para convertirlos.
puntos fuertes
A diferencia de los nodos Árbol C & R y QUEST, CHAID puede generar árboles no binarios, lo que significa que algunas divisiones tienen más de dos ramas. Por esta razón, CHAID tiende a crear un árbol más amplio que los métodos de crecimiento binario. CHAID admite todos los tipos de entradas y acepta tanto variables de frecuencia como ponderaciones de casos.
Capas personalizadas
Puede personalizar las propiedades del nodo CHAID para especificar campos que el algoritmo CHAID debe utilizar cuando determine dónde dividir el árbol de decisiones. Cuando se ejecuta el flujo SPSS Modeler , el árbol de decisiones utiliza el campo especificado para esa capa cuando se divide. Puede especificar campos para varias capas para controlar cada división del árbol de decisiones.
Puede utilizar capas personalizadas para controlar el crecimiento del árbol de decisiones. Este control es especialmente útil cuando conoce bien el conjunto de datos o tiene algunas reglas de decisión predefinidas.
- En las propiedades del nodo CHAID, expanda Opciones de modelador.
- Pulse el recuadro de selección Personalizar capas y pulse Añadir valor.
- Pulse en la fila y seleccione el nombre de un campo de la lista.
- Pulse Añadir valor para añadir más filas a la tabla Capas personalizadas .