0 / 0
Retourner à la version anglaise de la documentation
propriétés de chaidnode
Dernière mise à jour : 23 mai 2024
propriétés de chaidnode

Icône de noeud CHAIDLe noeud CHAID génère des arbres décision à l'aide des statistiques du khi-carré pour identifier les divisions optimales. Contrairement aux noeuds Arbre C&RT et QUEST, CHAID peut générer des arbres non binaires, ce qui implique que certaines divisions possèdent plusieurs branches. Les champs cibles et les champs d'entrée peuvent être d'intervalle numérique (continu) ou catégoriques. La méthode Exhaustive CHAID correspond à une modification du CHAID qui examine plus en détail toutes les divisions possibles, mais dont les calculs sont plus longs.

Exemple

stream = modeler.script.stream()
sourcenode = stream.findByID("id46WRP1285C")

node = stream.createAt("chaid", "My node", 200, 100)
stream.link(sourcenode, node)

node.setPropertyValue("custom_fields", True)
node.setPropertyValue("target", "Drug")
node.setPropertyValue("inputs", ["Age", "Na", "K", "Cholesterol", "BP"])
node.setPropertyValue("use_model_name", True)
node.setPropertyValue("model_name", "CHAID")
node.setPropertyValue("method", "Chaid")
node.setPropertyValue("model_output_type", "InteractiveBuilder")
node.setPropertyValue("use_tree_directives", True)
node.setPropertyValue("tree_directives", "Test")
node.setPropertyValue("split_alpha", 0.03)
node.setPropertyValue("merge_alpha", 0.04)
node.setPropertyValue("chi_square", "Pearson")
node.setPropertyValue("use_percentage", False)
node.setPropertyValue("min_parent_records_abs", 40)
node.setPropertyValue("min_child_records_abs", 30)
node.setPropertyValue("epsilon", 0.003)
node.setPropertyValue("max_iterations", 75)
node.setPropertyValue("split_merged_categories", True)
node.setPropertyValue("bonferroni_adjustment", True)
Tableau 1. propriétés de chaidnode
Propriétés chaidnode Type de données ou valeurs Description de la propriété
target Zone Les modèles CHAID requièrent un seul champ cible et un ou plusieurs champs d'entrée. Vous pouvez également spécifier une fréquence. Pour plus d'informations, voir Propriétés des noeuds de modélisation communes.
continue_training_existing_model option  
objective
  • Standard
  • Boosting
  • Bagging
  • psm
psm est utilisé pour les jeux de données volumineux et nécessite une connexion serveur.
model_output_type
  • Single
  • InteractiveBuilder
 
use_tree_directives option  
tree_directives chaîne  
method
  • Chaid
  • ExhaustiveChaid
 
use_max_depth
  • Default
  • Custom
 
max_depth Integer Profondeur maximale de l'arbre, de 0 à 1000. Utilisé uniquement si use_max_depth = Custom.
use_percentage option  
min_parent_records_pc number  
min_child_records_pc number  
min_parent_records_abs number  
min_child_records_abs number  
use_costs option  
costs structuré Propriétés structurées.
trails number Nombre des modèles de composant pour le boosting ou le bagging.
set_ensemble_method
  • Voting
  • HighestProbability
  • HighestMeanProbability
Règle par défaut pour la combinaison de cibles catégorielles.
range_ensemble_method
  • Mean
  • Median
Règles de combinaison par défaut pour les cibles continues.
large_boost option Applique la promotion pour les jeux de données volumineux.
split_alpha number Niveau de signification pour la division.
merge_alpha number Niveau de signification pour la fusion.
bonferroni_adjustment option Ajustez les valeurs de signification à l'aide de la méthode Bonferroni.
split_merged_categories option Autoriser une nouvelle division des catégories fusionnées.
chi_square
  • Pearson
  • LR
Méthode utilisée pour calculer la statistique du khi-carré: Pearson ou rapport de vraisemblance
epsilon number Modification minimale dans les prévisions de fréquence de cellule..
max_iterations number Itérations maximales pour convergence.
set_random_seed Integer  
seed number  
calculate_variable_importance option  
calculate_raw_propensities option  
calculate_adjusted_propensities option  
adjusted_propensity_partition
  • Test
  • Validation
 
maximum_number_of_models Integer  
train_pct doublon L'algorithme sépare en interne les enregistrements en un ensemble de génération de modèle et un ensemble de prévention de surajustement. L'ensemble de prévention de surajustement est un ensemble indépendant d'enregistrements de données utilisés pour suivre les erreurs lors de l'apprentissage, ce qui empêche la méthode de modéliser la variation aléatoire dans les données. Spécifier un pourcentage d'enregistrements. La valeur par défaut est 30.
use_customize_layer Booléen La valeur par défaut est false. Vous pouvez définir cette propriété sur true si vous souhaitez désigner des champs spécifiques comme points de division de l'arbre de décision.
customize_layer list Cette propriété est utilisée uniquement lorsque use_customize_layer est défini sur true.
Cette propriété est une liste d'objets. Chacun des objets possède deux attributs:
  • Layer est un entier qui indique la n-ième couche spécifique de l'arbre de décision que vous souhaitez personnaliser. Dans SPSS Modeler, les couches commencent à partir de 0 (racine).
  • Fields est une liste de noms. Chaque nom est l'un des champs sur lesquels vous souhaitez que l'arbre de décision soit potentiellement divisé pour ce Layer. Ces champs sont évalués par SPSS Modeler dans l'ordre dans lequel ils sont répertoriés.
Lorsque le flux SPSS Modeler s'exécute, l'algorithme CHAID évalue et renvoie une liste de champs candidats à fractionner en fonction de la valeur p pour chaque couche. Pour une couche personnalisée, chaque zone que vous avez spécifiée pour la couche est comparée à la liste complète des zones candidates. La première zone correspondant à une zone de la liste de candidats est utilisée pour la division. Les autres zones spécifiées sont ignorées. Si aucune des zones ne correspond, un message d'avertissement s'affiche et l'arborescence se divise normalement.
Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus