Volver a la versión inglesa de la documentaciónpropiedades de chaidnode
propiedades de chaidnode
Última actualización: 23 may 2024
El nodo CHAID genera árboles de decisión utilizando estadísticos de chi-cuadrado para identificar las divisiones óptimas. A diferencia de los nodos C&RT y QUEST, CHAID puede generar árboles no binarios, lo que significa que algunas divisiones generarán más de dos ramas. Los campos de entrada y objetivo pueden ser continuos (rango numérico) o categóricos. CHAID exhaustivo es una modificación de CHAID que examina con mayor precisión todas las divisiones posibles, aunque necesita más tiempo para realizar los cálculos.
Ejemplo
stream = modeler.script.stream()
sourcenode = stream.findByID("id46WRP1285C")
node = stream.createAt("chaid", "My node", 200, 100)
stream.link(sourcenode, node)
node.setPropertyValue("custom_fields", True)
node.setPropertyValue("target", "Drug")
node.setPropertyValue("inputs", ["Age", "Na", "K", "Cholesterol", "BP"])
node.setPropertyValue("use_model_name", True)
node.setPropertyValue("model_name", "CHAID")
node.setPropertyValue("method", "Chaid")
node.setPropertyValue("model_output_type", "InteractiveBuilder")
node.setPropertyValue("use_tree_directives", True)
node.setPropertyValue("tree_directives", "Test")
node.setPropertyValue("split_alpha", 0.03)
node.setPropertyValue("merge_alpha", 0.04)
node.setPropertyValue("chi_square", "Pearson")
node.setPropertyValue("use_percentage", False)
node.setPropertyValue("min_parent_records_abs", 40)
node.setPropertyValue("min_child_records_abs", 30)
node.setPropertyValue("epsilon", 0.003)
node.setPropertyValue("max_iterations", 75)
node.setPropertyValue("split_merged_categories", True)
node.setPropertyValue("bonferroni_adjustment", True)
Propiedades de chaidnode |
Tipo o valores de datos | Descripción de la propiedad |
---|---|---|
target |
campo | Los modelos CHAID requieren un único campo objetivo y uno o más campos de entrada. También puede especificar una frecuencia. Para obtener más información, consulte Propiedades de nodo de modelado común. |
continue_training_existing_model |
distintivo | |
objective |
|
psm se utiliza para conjuntos de datos grandes y requiere una conexión de servidor. |
model_output_type |
|
|
use_tree_directives |
distintivo | |
tree_directives |
serie | |
method |
|
|
use_max_depth |
|
|
max_depth |
entero | Profundidad máxima del árbol, de 0 a 1000. Se utiliza sólo si use_max_depth =
Custom . |
use_percentage |
distintivo | |
min_parent_records_pc |
número | |
min_child_records_pc |
número | |
min_parent_records_abs |
número | |
min_child_records_abs |
número | |
use_costs |
distintivo | |
costs |
estructurado | Propiedad estructurada. |
trails |
número | Número de modelos de componente para un aumento o agregación autodocimante. |
set_ensemble_method |
|
La regla predeterminada para combinar objetivos categóricos. |
range_ensemble_method |
|
Regla de combinación predeterminada para objetivos continuos. |
large_boost |
distintivo | Aplica el aumento para conjuntos de datos grandes. |
split_alpha |
número | Nivel de significancia para división. |
merge_alpha |
número | Nivel de significancia para fusión. |
bonferroni_adjustment |
distintivo | Ajuste los valores de significación utilizando el método Bonferroni. |
split_merged_categories |
distintivo | Permitir segunda división de categorías fusionadas. |
chi_square |
|
El método utilizado para calcular el estadístico de chi-cuadrado: Pearson o razón de verosimilitud |
epsilon |
número | Cambio mínimo en frecuencias de casillas esperadas. |
max_iterations |
número | Número máximo de iteraciones para la convergencia. |
set_random_seed |
entero | |
seed |
número | |
calculate_variable_importance |
distintivo | |
calculate_raw_propensities |
distintivo | |
calculate_adjusted_propensities |
distintivo | |
adjusted_propensity_partition |
|
|
maximum_number_of_models |
entero | |
train_pct |
doble | El algoritmo separa internamente los registros en un conjunto de generación de modelos y un conjunto de prevención sobreajustado. El conjunto de prevención sobreajustado es un conjunto independiente de registros de datos utilizados para rastrear errores durante el entrenamiento, lo que impide que el método modele la variación de probabilidad en los datos. Especifique un porcentaje de registros. El valor predeterminado es 30 . |
use_customize_layer |
Booleano | El valor predeterminado es false . Puede establecer esta propiedad en true si desea designar campos específicos como puntos en los que dividir el árbol de decisiones. |
customize_layer |
lista | Esta propiedad sólo se utiliza cuando use_customize_layer se establece en true .Esta propiedad es una lista de objetos. Cada uno de los objetos tiene dos atributos: Cuando se ejecuta el flujo SPSS Modeler , el algoritmo CHAID evalúa y devuelve una lista de candidatos de campos en los que dividir basándose en el valor
p para cada capa. Para una capa personalizada, cada campo que ha especificado para la capa se compara con la lista completa de candidatos de campos. El primer campo que coincide con un campo de la lista de candidatos se utiliza para la división. El resto de los campos especificados se ignoran. Si ninguno de los campos coincide, aparece un mensaje de aviso y el árbol se divide como normal. |