CHAID (Chi-squared Automatic Interaction Detection) est une méthode de classification permettant de créer des arbres de décisions à l'aide de statistiques du khi-deux, afin d'identifier les divisions optimales.
CHAID examine d'abord les tableaux croisés entre chacun des champs d'entrée et le résultat, et teste la signification à l'aide d'un test d'indépendance du khi-carré. Si plusieurs de ces relations sont statistiquement significatives, CHAID sélectionne le champ d'entrée le plus significatif (valeur p
la plus faible). Si une entrée comporte plus de deux catégories, elles sont comparées. Les catégories qui ne présentent aucune différence dans le résultat sont fusionnées. La fusion des catégories est effectuée en joignant successivement la paire de catégories présentant la différence la moins significative. Ce processus de fusion de catégories s'interrompt si toutes les autres catégories s'avèrent différentes au niveau de test indiqué. Pour les champs d'entrée nominaux, les catégories peuvent être fusionnées. Pour un ensemble d'ordinaux, seules les catégories contiguës peuvent l'être.
La méthode Exhaustive CHAID correspond à une modification du CHAID qui examine plus en profondeur toutes les divisions possibles pour chaque prédicteur, mais dont les calculs sont plus longs.
Conditions requises
Les champs cible et d'entrée peuvent être continus ou catégoriels. Les noeuds peuvent être divisés en deux ou plusieurs sous-groupes à chaque niveau. Tous les champs ordinaux utilisés dans le modèle doivent avoir un stockage numérique (et non une chaîne). Si nécessaire, le noeud Recoder peut être utilisé pour les convertir.
strengths
Contrairement aux noeuds C & R Tree et QUEST, CHAID peut générer des arbres non binaires, ce qui signifie que certaines divisions comportent plus de deux branches. Pour cette raison, CHAID a tendance à créer un arbre plus large que les méthodes de croissance binaire. CHAID s'applique à tous les types d'entrées, et accepte les pondérations d'observation et les variables de fréquence.
Couches personnalisées
Vous pouvez personnaliser les propriétés du noeud CHAID pour spécifier les champs que l'algorithme CHAID doit utiliser lorsqu'il détermine l'emplacement de fractionnement de l'arbre de décision. Lorsque le flux SPSS Modeler s'exécute, l'arbre de décisions utilise le champ spécifié pour cette couche lorsqu'il est fractionné. Vous pouvez spécifier des champs pour plusieurs couches afin de contrôler chaque division de l'arbre de décision.
Vous pouvez utiliser des couches personnalisées pour contrôler la croissance de l'arbre de décision. Ce contrôle est particulièrement utile lorsque vous connaissez bien votre jeu de données ou que vous disposez de règles de décision prédéfinies.
- Dans les propriétés du noeud CHAID, développez Options de modélisateur.
- Cochez la case Personnaliser les couches , puis cliquez sur Ajouter une valeur.
- Cliquez sur la ligne et sélectionnez le nom d'une zone dans la liste.
- Cliquez sur Ajouter une valeur pour ajouter d'autres lignes au tableau Couches personnalisées .