Volver a la versión inglesa de la documentaciónpropiedades de cartnode
propiedades de cartnode
Última actualización: 04 oct 2024
El nodo de árbol de clasificación y regresión (C&R) genera un árbol de decisión que permite predecir o clasificar observaciones futuras. El método utiliza la partición reiterada para dividir los registros de entrenamiento en segmentos minimizando las impurezas en cada paso, donde un nodo se considera "puro" si el 100% de los casos del nodo corresponden a una categoría específica del campo objetivo. Los campos de entrada y objetivo pueden ser continuos (rango numérico) o categóricos (nominal, ordinal o marca). Todas las divisiones son binarias (sólo se crean dos subgrupos).
Ejemplo
node = stream.createAt("cart", "My node", 200, 100)
# "Fields" tab
node.setPropertyValue("custom_fields", True)
node.setPropertyValue("target", "Drug")
node.setPropertyValue("inputs", ["Age", "BP", "Cholesterol"])
# "Build Options" tab, "Objective" panel
node.setPropertyValue("model_output_type", "InteractiveBuilder")
node.setPropertyValue("use_tree_directives", True)
node.setPropertyValue("tree_directives", """Grow Node Index 0 Children 1 2
Grow Node Index 2 Children 3 4""")
# "Build Options" tab, "Basics" panel
node.setPropertyValue("prune_tree", False)
node.setPropertyValue("use_std_err_rule", True)
node.setPropertyValue("std_err_multiplier", 3.0)
node.setPropertyValue("max_surrogates", 7)
# "Build Options" tab, "Stopping Rules" panel
node.setPropertyValue("use_percentage", True)
node.setPropertyValue("min_parent_records_pc", 5)
node.setPropertyValue("min_child_records_pc", 3)
# "Build Options" tab, "Advanced" panel
node.setPropertyValue("min_impurity", 0.0003)
node.setPropertyValue("impurity_measure", "Twoing")
# "Model Options" tab
node.setPropertyValue("use_model_name", True)
node.setPropertyValue("model_name", "Cart_Drug")
Propiedades de cartnode |
Valores | Descripción de la propiedad |
---|---|---|
target |
campo | Los modelos de árbol C&R requieren un único campo objetivo y uno o más campos de entrada. También se puede especificar un campo de frecuencia. Consulte el tema Propiedades de nodo de modelado común para obtener más información. |
continue_training_existing_model |
distintivo | |
objective |
Standard Boosting Bagging psm |
psm se utiliza para conjuntos de datos muy grandes y requiere una conexión de servidor. |
model_output_type |
Single InteractiveBuilder |
|
use_tree_directives |
distintivo | |
tree_directives |
serie | Especifique directivas para desarrollar el árbol. Las directivas se pueden escribir entre comillas triples para evitar comillas o saltos de línea no deseados. Recuerde que las directivas pueden ser muy sensibles a las pequeñas modificaciones de las opciones de modelado o los datos y es posible que no se puedan generalizar para otros conjuntos de datos. |
use_max_depth |
Default Custom |
|
max_depth |
entero | Profundidad máxima del árbol, de 0 a 1000. Se utiliza sólo si use_max_depth
= Custom . |
prune_tree |
distintivo | Poda del árbol para evitar sobreajustes. |
use_std_err |
distintivo | Use la diferencia máxima en riesgos (en errores estándar). |
std_err_multiplier |
número | Diferencia máxima. |
max_surrogates |
número | Número máximo de sustitutos. |
use_percentage |
distintivo | |
min_parent_records_pc |
número | |
min_child_records_pc |
número | |
min_parent_records_abs |
número | |
min_child_records_abs |
número | |
use_costs |
distintivo | |
costs |
estructurado | Propiedad estructurada. |
priors |
Data Equal Custom |
|
custom_priors |
estructurado | Propiedad estructurada. |
adjust_priors |
distintivo | |
trails |
número | Número de modelos de componente para un aumento o agregación autodocimante. |
set_ensemble_method |
Voting HighestProbability HighestMeanProbability |
Regla de combinación predeterminada para objetivos categóricos. |
range_ensemble_method |
Mean Median |
Regla de combinación predeterminada para objetivos continuos. |
large_boost |
distintivo | Aplicar aumento a conjunto de datos muy grandes. |
min_impurity |
número | |
impurity_measure |
Gini Twoing Ordered |
|
train_pct |
número | Conjunto de prevención sobreajustado. |
set_random_seed |
distintivo | Opción replicar resultados. |
seed |
número | |
calculate_variable_importance |
distintivo | |
calculate_raw_propensities |
distintivo | |
calculate_adjusted_propensities |
distintivo | |
adjusted_propensity_partition |
Test Validation |