Torna alla versione inglese della documentazioneproprietà chaidnode
proprietà chaidnode
Ultimo aggiornamento: 27 mag 2024
Il nodo CHAID genera strutture ad albero delle decisioni utilizzando le statistiche chi - quadrato per identificare le suddivisioni ottimali. A differenza dei nodi C&R Tree e QUEST, il nodo CHAID può generare strutture ad albero non binarie e pertanto alcune suddivisioni possono avere più di due rami. I campi obiettivo e di input possono essere intervallo numerico (continui) o categoriali. Un CHAID completo è una modificazione di CHAID che esegue operazioni avanzate per l'analisi di tutte le suddivisioni possibili, ma richiede tempi di elaborazione maggiori.
Esempio
stream = modeler.script.stream()
sourcenode = stream.findByID("id46WRP1285C")
node = stream.createAt("chaid", "My node", 200, 100)
stream.link(sourcenode, node)
node.setPropertyValue("custom_fields", True)
node.setPropertyValue("target", "Drug")
node.setPropertyValue("inputs", ["Age", "Na", "K", "Cholesterol", "BP"])
node.setPropertyValue("use_model_name", True)
node.setPropertyValue("model_name", "CHAID")
node.setPropertyValue("method", "Chaid")
node.setPropertyValue("model_output_type", "InteractiveBuilder")
node.setPropertyValue("use_tree_directives", True)
node.setPropertyValue("tree_directives", "Test")
node.setPropertyValue("split_alpha", 0.03)
node.setPropertyValue("merge_alpha", 0.04)
node.setPropertyValue("chi_square", "Pearson")
node.setPropertyValue("use_percentage", False)
node.setPropertyValue("min_parent_records_abs", 40)
node.setPropertyValue("min_child_records_abs", 30)
node.setPropertyValue("epsilon", 0.003)
node.setPropertyValue("max_iterations", 75)
node.setPropertyValue("split_merged_categories", True)
node.setPropertyValue("bonferroni_adjustment", True)
Proprietà chaidnode |
Tipo di dati o valori | Descrizione proprietà |
---|---|---|
target |
campo | I modelli CHAID richiedono un solo campo obiettivo e uno o più campi di input. È anche possibile specificare una frequenza. Per ulteriori informazioni, consultare Proprietà comuni del nodo Modelli. |
continue_training_existing_model |
indicatore | |
objective |
|
psm viene utilizzato per dataset di grandi dimensioni e richiede una connessione server. |
model_output_type |
|
|
use_tree_directives |
indicatore | |
tree_directives |
Stringa | |
method |
|
|
use_max_depth |
|
|
max_depth |
intero | Profondità massima della struttura ad albero, da 0 a 1000. Utilizzato solo se use_max_depth =
Custom . |
use_percentage |
indicatore | |
min_parent_records_pc |
numero | |
min_child_records_pc |
numero | |
min_parent_records_abs |
numero | |
min_child_records_abs |
numero | |
use_costs |
indicatore | |
costs |
strutturato | Proprietà strutturata. |
trails |
numero | Numero di modelli di componenti per boosting o bagging. |
set_ensemble_method |
|
La regola predefinita per la combinazione di obiettivi categoriali. |
range_ensemble_method |
|
Regola di combinazione di default per target continui. |
large_boost |
indicatore | Applica il boosting per dataset di grandi dimensioni. |
split_alpha |
numero | Livello di significatività per suddivisione. |
merge_alpha |
numero | Livello di significatività per unione. |
bonferroni_adjustment |
indicatore | Adattare i valori di significatività utilizzando il metodo di Bonferroni. |
split_merged_categories |
indicatore | Consenti risuddivisione di categorie unite. |
chi_square |
|
Il metodo utilizzato per calcolare la statistica chi - quadrato: Pearson o Rapporto di verosimiglianza |
epsilon |
numero | Modifica minima nelle frequenze di cella previste. |
max_iterations |
numero | Numero massimo di iterazioni per la convergenza. |
set_random_seed |
intero | |
seed |
numero | |
calculate_variable_importance |
indicatore | |
calculate_raw_propensities |
indicatore | |
calculate_adjusted_propensities |
indicatore | |
adjusted_propensity_partition |
|
|
maximum_number_of_models |
intero | |
train_pct |
doppio | L'algoritmo separa internamente i record in una serie di creazione di modelli e in una serie di prevenzione del sovradattamento. L'insieme di prevenzione del sovradattamento è un insieme indipendente di record di dati utilizzati per tenere traccia degli errori durante l'addestramento, che impedisce al metodo di modellare la variazione casuale nei dati. Specificare una percentuale di record. Il valore predefinito è 30 . |
use_customize_layer |
Booleano | Il valore predefinito è false . È possibile impostare questa proprietà su true se si desidera designare campi specifici come punti in cui suddividere l'albero decisionale. |
customize_layer |
elenco | Questa proprietà viene utilizzata solo quando use_customize_layer è impostata su true .Questa proprietà è un elenco di oggetti. Ciascuno degli oggetti ha due attributi: Quando viene eseguito il flusso SPSS Modeler , l'algoritmo CHAID valuta e restituisce un elenco di campi candidati da suddividere in base al valore
p per ogni livello. Per un livello personalizzato, ogni campo specificato per il livello viene confrontato con l'elenco completo di campi candidati. Il primo campo che corrisponde a un campo dall'elenco di candidati viene utilizzato per la suddivisione. Il resto dei campi specificati viene ignorato. Se nessuno dei campi corrisponde, viene visualizzato un messaggio di avvertenza e la struttura ad albero viene suddivisa normalmente. |