0 / 0
Torna alla versione inglese della documentazione
proprietà chaidnode
Ultimo aggiornamento: 27 mag 2024
proprietà chaidnode

Icona nodo CHAIDIl nodo CHAID genera strutture ad albero delle decisioni utilizzando le statistiche chi - quadrato per identificare le suddivisioni ottimali. A differenza dei nodi C&R Tree e QUEST, il nodo CHAID può generare strutture ad albero non binarie e pertanto alcune suddivisioni possono avere più di due rami. I campi obiettivo e di input possono essere intervallo numerico (continui) o categoriali. Un CHAID completo è una modificazione di CHAID che esegue operazioni avanzate per l'analisi di tutte le suddivisioni possibili, ma richiede tempi di elaborazione maggiori.

Esempio

stream = modeler.script.stream()
sourcenode = stream.findByID("id46WRP1285C")

node = stream.createAt("chaid", "My node", 200, 100)
stream.link(sourcenode, node)

node.setPropertyValue("custom_fields", True)
node.setPropertyValue("target", "Drug")
node.setPropertyValue("inputs", ["Age", "Na", "K", "Cholesterol", "BP"])
node.setPropertyValue("use_model_name", True)
node.setPropertyValue("model_name", "CHAID")
node.setPropertyValue("method", "Chaid")
node.setPropertyValue("model_output_type", "InteractiveBuilder")
node.setPropertyValue("use_tree_directives", True)
node.setPropertyValue("tree_directives", "Test")
node.setPropertyValue("split_alpha", 0.03)
node.setPropertyValue("merge_alpha", 0.04)
node.setPropertyValue("chi_square", "Pearson")
node.setPropertyValue("use_percentage", False)
node.setPropertyValue("min_parent_records_abs", 40)
node.setPropertyValue("min_child_records_abs", 30)
node.setPropertyValue("epsilon", 0.003)
node.setPropertyValue("max_iterations", 75)
node.setPropertyValue("split_merged_categories", True)
node.setPropertyValue("bonferroni_adjustment", True)
Tabella 1. proprietà chaidnode
Proprietà chaidnode Tipo di dati o valori Descrizione proprietà
target campo I modelli CHAID richiedono un solo campo obiettivo e uno o più campi di input. È anche possibile specificare una frequenza. Per ulteriori informazioni, consultare Proprietà comuni del nodo Modelli.
continue_training_existing_model indicatore  
objective
  • Standard
  • Boosting
  • Bagging
  • psm
psm viene utilizzato per dataset di grandi dimensioni e richiede una connessione server.
model_output_type
  • Single
  • InteractiveBuilder
 
use_tree_directives indicatore  
tree_directives Stringa  
method
  • Chaid
  • ExhaustiveChaid
 
use_max_depth
  • Default
  • Custom
 
max_depth intero Profondità massima della struttura ad albero, da 0 a 1000. Utilizzato solo se use_max_depth = Custom.
use_percentage indicatore  
min_parent_records_pc numero  
min_child_records_pc numero  
min_parent_records_abs numero  
min_child_records_abs numero  
use_costs indicatore  
costs strutturato Proprietà strutturata.
trails numero Numero di modelli di componenti per boosting o bagging.
set_ensemble_method
  • Voting
  • HighestProbability
  • HighestMeanProbability
La regola predefinita per la combinazione di obiettivi categoriali.
range_ensemble_method
  • Mean
  • Median
Regola di combinazione di default per target continui.
large_boost indicatore Applica il boosting per dataset di grandi dimensioni.
split_alpha numero Livello di significatività per suddivisione.
merge_alpha numero Livello di significatività per unione.
bonferroni_adjustment indicatore Adattare i valori di significatività utilizzando il metodo di Bonferroni.
split_merged_categories indicatore Consenti risuddivisione di categorie unite.
chi_square
  • Pearson
  • LR
Il metodo utilizzato per calcolare la statistica chi - quadrato: Pearson o Rapporto di verosimiglianza
epsilon numero Modifica minima nelle frequenze di cella previste.
max_iterations numero Numero massimo di iterazioni per la convergenza.
set_random_seed intero  
seed numero  
calculate_variable_importance indicatore  
calculate_raw_propensities indicatore  
calculate_adjusted_propensities indicatore  
adjusted_propensity_partition
  • Test
  • Validation
 
maximum_number_of_models intero  
train_pct doppio L'algoritmo separa internamente i record in una serie di creazione di modelli e in una serie di prevenzione del sovradattamento. L'insieme di prevenzione del sovradattamento è un insieme indipendente di record di dati utilizzati per tenere traccia degli errori durante l'addestramento, che impedisce al metodo di modellare la variazione casuale nei dati. Specificare una percentuale di record. Il valore predefinito è 30.
use_customize_layer Booleano Il valore predefinito è false. È possibile impostare questa proprietà su true se si desidera designare campi specifici come punti in cui suddividere l'albero decisionale.
customize_layer elenco Questa proprietà viene utilizzata solo quando use_customize_layer è impostata su true.
Questa proprietà è un elenco di oggetti. Ciascuno degli oggetti ha due attributi:
  • Layer è un numero intero che indica l'ennesimo livello specifico nell'albero decisionale che si desidera personalizzare. In SPSS Modeler, i livelli iniziano da 0 (root).
  • Fields è un elenco di nomi. Ogni nome è uno dei campi in cui si desidera che la struttura ad albero delle decisioni sia potenzialmente suddivisa per tale Layer. Questi campi vengono valutati da SPSS Modeler nell'ordine in cui vengono elencati.
Quando viene eseguito il flusso SPSS Modeler , l'algoritmo CHAID valuta e restituisce un elenco di campi candidati da suddividere in base al valore p per ogni livello. Per un livello personalizzato, ogni campo specificato per il livello viene confrontato con l'elenco completo di campi candidati. Il primo campo che corrisponde a un campo dall'elenco di candidati viene utilizzato per la suddivisione. Il resto dei campi specificati viene ignorato. Se nessuno dei campi corrisponde, viene visualizzato un messaggio di avvertenza e la struttura ad albero viene suddivisa normalmente.