El nodo Árboles aleatorios es similar al nodo Árbol C & RT; sin embargo, el nodo Árboles aleatorios está diseñado para procesar big data para crear un único árbol. El nodo Árboles aleatorios genera un árbol de decisión que se utiliza para predecir o clasificar observaciones futuras. El método utiliza la partición reiterada para dividir los registros de entrenamiento en segmentos minimizando las impurezas en cada paso, donde un nodo se considera puro si el 100% de los casos del nodo corresponden a una categoría específica del campo objetivo. Los campos de entrada y objetivo pueden ser continuos (rango numérico) o categóricos (nominal, ordinal o marca). Todas las divisiones son binarias (sólo se crean dos subgrupos).
Propiedades de randomtrees |
Valores | Descripción de la propiedad |
---|---|---|
target |
campo | En el nodo Árboles aleatorios, los modelos requieren un único objetivo y uno o más campos de entrada. También se puede especificar un campo de frecuencia. Consulte Propiedades comunes del nodo de modelado para obtener más información. |
number_of_models |
entero | Determina el número de modelos a construir como parte del modelado de conjunto. |
use_number_of_predictors |
distintivo | Determina si se utiliza number_of_predictors . |
number_of_predictors |
entero | Especifica el número de predictores que se van a utilizar al crear modelos de división. |
use_stop_rule_for_accuracy |
distintivo | Determina si la creación de modelos se detiene cuando no se puede mejorar la precisión. |
sample_size |
número | Reduzca este valor para mejorar el rendimiento del procesar conjuntos de datos muy grandes. |
handle_imbalanced_data |
distintivo | Si el objetivo del modelo es un resultado de distintivo determinado, y la proporción del resultado deseado en un resultado no deseado es muy pequeña, los datos se desequilibran y el muestreo de rutina de carga realizado por el modelo puede afectar la precisión del modelo. Habilite el manejo de datos desequilibrados para que el modelo capture una proporción mayor del resultado deseado y genere un modelo más sólido. |
use_weighted_sampling |
distintivo | Si se establece en False, las variables para cada nodo se seleccionan aleatoriamente con la misma probabilidad. Si es True, las variables se ponderan y se seleccionan de acuerdo con ello. |
max_node_number |
entero | Número máximo de nodos permitidos en árboles individuales. Si el número va a superarse en la división siguiente, el crecimiento del árbol se detiene. |
max_depth |
entero | Máxima profundidad del árbol antes de que se detenga el crecimiento. |
min_child_node_size |
entero | Determina el número mínimo de registros permitidos en un nodo hijo después de que se divida el nodo padre. Si un nodo hijo contiene menos registros que los especificados aquí, el nodo padre no se dividirá. |
use_costs |
distintivo | |
costs |
estructurado | Propiedad estructurada. El formato es una lista de 3 valores: el valor real, el valor predicho y el coste si dicha predicción es errónea. Por ejemplo:
tree.setPropertyValue("costs", [["drugA", "drugB", 3.0], ["drugX", "drugY", 4.0]]) |
default_cost_increase |
none linear square custom |
Tenga en cuenta que esto sólo está habilitado para objetivos ordinales. Establezca valores predeterminados en la matriz de costes. |
max_pct_missing |
entero | Si el porcentaje de valores faltantes en cualquier entrada es mayor que el valor especificado aquí, la entrada se excluye. Mínimo 0, máximo 100. |
exclude_single_cat_pct |
entero | Si un valor de categoría representa un porcentaje mayor de los registros que el especificado aquí, todo el campo se excluye de la creación de modelos. Mínimo 1, máximo 99. |
max_category_number |
entero | Si el número de categorías de un campo supera este valor, el campo se excluye de la creación de modelos. El mínimo es 2. |
min_field_variation |
número | Si el coeficiente de variación de un campo continuo es inferior a este valor, el campo se excluye de la creación de modelos. |
num_bins |
entero | Sólo se utiliza si los datos están formados por entradas continuas. Establezca el número de intervalos de frecuencia que deben utilizarse para las entradas; las opciones son 2, 4, 5, 10, 20, 25, 50 o 100. |
topN |
entero | Especifica el número de reglas para informar. El valor predeterminado es 50, con un mínimo de 1 y un máximo de 1000. |