Le noeud CHAID génère des arbres décision à l'aide des statistiques du khi-carré pour identifier les divisions optimales. Contrairement aux noeuds Arbre C&RT et QUEST, CHAID peut générer des arbres non binaires, ce qui implique que certaines divisions possèdent plusieurs branches. Les champs cibles et les champs d'entrée peuvent être d'intervalle numérique (continu) ou catégoriques. La méthode Exhaustive CHAID correspond à une modification du CHAID qui examine plus en détail toutes les divisions possibles, mais dont les calculs sont plus longs.
Copy to clipboardCopié dans le presse-papiersShow more
Tableau 1. propriétés de chaidnode
Propriétés chaidnode
Type de données ou valeurs
Description de la propriété
target
Zone
Les modèles CHAID requièrent un seul champ cible et un ou plusieurs champs d'entrée. Vous pouvez également spécifier une fréquence. Pour plus d'informations, voir Propriétés des noeuds de modélisation communes.
continue_training_existing_model
option
objective
Standard
Boosting
Bagging
psm
psm est utilisé pour les jeux de données volumineux et nécessite une connexion serveur.
model_output_type
Single
InteractiveBuilder
use_tree_directives
option
tree_directives
chaîne
method
Chaid
ExhaustiveChaid
use_max_depth
Default
Custom
max_depth
Integer
Profondeur maximale de l'arbre, de 0 à 1000. Utilisé uniquement si use_max_depth =
Custom.
use_percentage
option
min_parent_records_pc
number
min_child_records_pc
number
min_parent_records_abs
number
min_child_records_abs
number
use_costs
option
costs
structuré
Propriétés structurées.
trails
number
Nombre des modèles de composant pour le boosting ou le bagging.
set_ensemble_method
Voting
HighestProbability
HighestMeanProbability
Règle par défaut pour la combinaison de cibles catégorielles.
range_ensemble_method
Mean
Median
Règles de combinaison par défaut pour les cibles continues.
large_boost
option
Applique la promotion pour les jeux de données volumineux.
split_alpha
number
Niveau de signification pour la division.
merge_alpha
number
Niveau de signification pour la fusion.
bonferroni_adjustment
option
Ajustez les valeurs de signification à l'aide de la méthode Bonferroni.
split_merged_categories
option
Autoriser une nouvelle division des catégories fusionnées.
chi_square
Pearson
LR
Méthode utilisée pour calculer la statistique du khi-carré: Pearson ou rapport de vraisemblance
epsilon
number
Modification minimale dans les prévisions de fréquence de cellule..
max_iterations
number
Itérations maximales pour convergence.
set_random_seed
Integer
seed
number
calculate_variable_importance
option
calculate_raw_propensities
option
calculate_adjusted_propensities
option
adjusted_propensity_partition
Test
Validation
maximum_number_of_models
Integer
train_pct
doublon
L'algorithme sépare en interne les enregistrements en un ensemble de génération de modèle et un ensemble de prévention de surajustement. L'ensemble de prévention de surajustement est un ensemble indépendant d'enregistrements de données utilisés pour suivre les erreurs lors de l'apprentissage, ce qui empêche la méthode de modéliser la variation aléatoire dans les données. Spécifier un pourcentage d'enregistrements. La valeur par défaut est 30.
use_customize_layer
Booléen
La valeur par défaut est false. Vous pouvez définir cette propriété sur true si vous souhaitez désigner des champs spécifiques comme points de division de l'arbre de décision.
customize_layer
list
Cette propriété est utilisée uniquement lorsque use_customize_layer est défini sur true.
Cette propriété est une liste d'objets. Chacun des objets possède deux attributs:
Layer est un entier qui indique la n-ième couche spécifique de l'arbre de décision que vous souhaitez personnaliser. Dans SPSS Modeler, les couches commencent à partir de 0 (racine).
Fields est une liste de noms. Chaque nom est l'un des champs sur lesquels vous souhaitez que l'arbre de décision soit potentiellement divisé pour ce Layer. Ces champs sont évalués par SPSS Modeler dans l'ordre dans lequel ils sont répertoriés.
Lorsque le flux SPSS Modeler s'exécute, l'algorithme CHAID évalue et renvoie une liste de champs candidats à fractionner en fonction de la valeur p pour chaque couche. Pour une couche personnalisée, chaque zone que vous avez spécifiée pour la couche est comparée à la liste complète des zones candidates. La première zone correspondant à une zone de la liste de candidats est utilisée pour la division. Les autres zones spécifiées sont ignorées. Si aucune des zones ne correspond, un message d'avertissement s'affiche et l'arborescence se divise normalement.