Retourner à la version anglaise de la documentationpropriétés de chaidnode
propriétés de chaidnode
Dernière mise à jour : 23 mai 2024
Le noeud CHAID génère des arbres décision à l'aide des statistiques du khi-carré pour identifier les divisions optimales. Contrairement aux noeuds Arbre C&RT et QUEST, CHAID peut générer des arbres non binaires, ce qui implique que certaines divisions possèdent plusieurs branches. Les champs cibles et les champs d'entrée peuvent être d'intervalle numérique (continu) ou catégoriques. La méthode Exhaustive CHAID correspond à une modification du CHAID qui examine plus en détail toutes les divisions possibles, mais dont les calculs sont plus longs.
Exemple
stream = modeler.script.stream()
sourcenode = stream.findByID("id46WRP1285C")
node = stream.createAt("chaid", "My node", 200, 100)
stream.link(sourcenode, node)
node.setPropertyValue("custom_fields", True)
node.setPropertyValue("target", "Drug")
node.setPropertyValue("inputs", ["Age", "Na", "K", "Cholesterol", "BP"])
node.setPropertyValue("use_model_name", True)
node.setPropertyValue("model_name", "CHAID")
node.setPropertyValue("method", "Chaid")
node.setPropertyValue("model_output_type", "InteractiveBuilder")
node.setPropertyValue("use_tree_directives", True)
node.setPropertyValue("tree_directives", "Test")
node.setPropertyValue("split_alpha", 0.03)
node.setPropertyValue("merge_alpha", 0.04)
node.setPropertyValue("chi_square", "Pearson")
node.setPropertyValue("use_percentage", False)
node.setPropertyValue("min_parent_records_abs", 40)
node.setPropertyValue("min_child_records_abs", 30)
node.setPropertyValue("epsilon", 0.003)
node.setPropertyValue("max_iterations", 75)
node.setPropertyValue("split_merged_categories", True)
node.setPropertyValue("bonferroni_adjustment", True)
Propriétés chaidnode |
Type de données ou valeurs | Description de la propriété |
---|---|---|
target |
Zone | Les modèles CHAID requièrent un seul champ cible et un ou plusieurs champs d'entrée. Vous pouvez également spécifier une fréquence. Pour plus d'informations, voir Propriétés des noeuds de modélisation communes. |
continue_training_existing_model |
option | |
objective |
|
psm est utilisé pour les jeux de données volumineux et nécessite une connexion serveur. |
model_output_type |
|
|
use_tree_directives |
option | |
tree_directives |
chaîne | |
method |
|
|
use_max_depth |
|
|
max_depth |
Integer | Profondeur maximale de l'arbre, de 0 à 1000. Utilisé uniquement si use_max_depth =
Custom . |
use_percentage |
option | |
min_parent_records_pc |
number | |
min_child_records_pc |
number | |
min_parent_records_abs |
number | |
min_child_records_abs |
number | |
use_costs |
option | |
costs |
structuré | Propriétés structurées. |
trails |
number | Nombre des modèles de composant pour le boosting ou le bagging. |
set_ensemble_method |
|
Règle par défaut pour la combinaison de cibles catégorielles. |
range_ensemble_method |
|
Règles de combinaison par défaut pour les cibles continues. |
large_boost |
option | Applique la promotion pour les jeux de données volumineux. |
split_alpha |
number | Niveau de signification pour la division. |
merge_alpha |
number | Niveau de signification pour la fusion. |
bonferroni_adjustment |
option | Ajustez les valeurs de signification à l'aide de la méthode Bonferroni. |
split_merged_categories |
option | Autoriser une nouvelle division des catégories fusionnées. |
chi_square |
|
Méthode utilisée pour calculer la statistique du khi-carré: Pearson ou rapport de vraisemblance |
epsilon |
number | Modification minimale dans les prévisions de fréquence de cellule.. |
max_iterations |
number | Itérations maximales pour convergence. |
set_random_seed |
Integer | |
seed |
number | |
calculate_variable_importance |
option | |
calculate_raw_propensities |
option | |
calculate_adjusted_propensities |
option | |
adjusted_propensity_partition |
|
|
maximum_number_of_models |
Integer | |
train_pct |
doublon | L'algorithme sépare en interne les enregistrements en un ensemble de génération de modèle et un ensemble de prévention de surajustement. L'ensemble de prévention de surajustement est un ensemble indépendant d'enregistrements de données utilisés pour suivre les erreurs lors de l'apprentissage, ce qui empêche la méthode de modéliser la variation aléatoire dans les données. Spécifier un pourcentage d'enregistrements. La valeur par défaut est 30 . |
use_customize_layer |
Booléen | La valeur par défaut est false . Vous pouvez définir cette propriété sur true si vous souhaitez désigner des champs spécifiques comme points de division de l'arbre de décision. |
customize_layer |
list | Cette propriété est utilisée uniquement lorsque use_customize_layer est défini sur true .Cette propriété est une liste d'objets. Chacun des objets possède deux attributs: Lorsque le flux SPSS Modeler s'exécute, l'algorithme CHAID évalue et renvoie une liste de champs candidats à fractionner en fonction de la valeur
p pour chaque couche. Pour une couche personnalisée, chaque zone que vous avez spécifiée pour la couche est comparée à la liste complète des zones candidates. La première zone correspondant à une zone de la liste de candidats est utilisée pour la division. Les autres zones spécifiées sont ignorées. Si aucune des zones ne correspond, un message d'avertissement s'affiche et l'arborescence se divise normalement. |