0 / 0
Volver a la versión inglesa de la documentación
propiedades de randomtrees
Última actualización: 04 oct 2024
propiedades de randomtrees

Icono Nodo Árboles aleatoriosEl nodo Árboles aleatorios es similar al nodo Árbol C & RT; sin embargo, el nodo Árboles aleatorios está diseñado para procesar big data para crear un único árbol. El nodo Árboles aleatorios genera un árbol de decisión que se utiliza para predecir o clasificar observaciones futuras. El método utiliza la partición reiterada para dividir los registros de entrenamiento en segmentos minimizando las impurezas en cada paso, donde un nodo se considera puro si el 100% de los casos del nodo corresponden a una categoría específica del campo objetivo. Los campos de entrada y objetivo pueden ser continuos (rango numérico) o categóricos (nominal, ordinal o marca). Todas las divisiones son binarias (sólo se crean dos subgrupos).

Tabla 1. propiedades de randomtrees
Propiedades de randomtrees Valores Descripción de la propiedad
target campo En el nodo Árboles aleatorios, los modelos requieren un único objetivo y uno o más campos de entrada. También se puede especificar un campo de frecuencia. Consulte Propiedades comunes del nodo de modelado para obtener más información.
number_of_models entero Determina el número de modelos a construir como parte del modelado de conjunto.
use_number_of_predictors distintivo Determina si se utiliza number_of_predictors.
number_of_predictors entero Especifica el número de predictores que se van a utilizar al crear modelos de división.
use_stop_rule_for_accuracy distintivo Determina si la creación de modelos se detiene cuando no se puede mejorar la precisión.
sample_size número Reduzca este valor para mejorar el rendimiento del procesar conjuntos de datos muy grandes.
handle_imbalanced_data distintivo Si el objetivo del modelo es un resultado de distintivo determinado, y la proporción del resultado deseado en un resultado no deseado es muy pequeña, los datos se desequilibran y el muestreo de rutina de carga realizado por el modelo puede afectar la precisión del modelo. Habilite el manejo de datos desequilibrados para que el modelo capture una proporción mayor del resultado deseado y genere un modelo más sólido.
use_weighted_sampling distintivo Si se establece en False, las variables para cada nodo se seleccionan aleatoriamente con la misma probabilidad. Si es True, las variables se ponderan y se seleccionan de acuerdo con ello.
max_node_number entero Número máximo de nodos permitidos en árboles individuales. Si el número va a superarse en la división siguiente, el crecimiento del árbol se detiene.
max_depth entero Máxima profundidad del árbol antes de que se detenga el crecimiento.
min_child_node_size entero Determina el número mínimo de registros permitidos en un nodo hijo después de que se divida el nodo padre. Si un nodo hijo contiene menos registros que los especificados aquí, el nodo padre no se dividirá.
use_costs distintivo  
costs estructurado Propiedad estructurada. El formato es una lista de 3 valores: el valor real, el valor predicho y el coste si dicha predicción es errónea. Por ejemplo: tree.setPropertyValue("costs", [["drugA", "drugB", 3.0], ["drugX", "drugY", 4.0]])
default_cost_increase none linear square custom Tenga en cuenta que esto sólo está habilitado para objetivos ordinales. Establezca valores predeterminados en la matriz de costes.
max_pct_missing entero Si el porcentaje de valores faltantes en cualquier entrada es mayor que el valor especificado aquí, la entrada se excluye. Mínimo 0, máximo 100.
exclude_single_cat_pct entero Si un valor de categoría representa un porcentaje mayor de los registros que el especificado aquí, todo el campo se excluye de la creación de modelos. Mínimo 1, máximo 99.
max_category_number entero Si el número de categorías de un campo supera este valor, el campo se excluye de la creación de modelos. El mínimo es 2.
min_field_variation número Si el coeficiente de variación de un campo continuo es inferior a este valor, el campo se excluye de la creación de modelos.
num_bins entero Sólo se utiliza si los datos están formados por entradas continuas. Establezca el número de intervalos de frecuencia que deben utilizarse para las entradas; las opciones son 2, 4, 5, 10, 20, 25, 50 o 100.
topN entero Especifica el número de reglas para informar. El valor predeterminado es 50, con un mínimo de 1 y un máximo de 1000.
Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información