0 / 0
Volver a la versión inglesa de la documentación
Nodo Árboles aleatorios
Última actualización: 22 nov 2024
Nodo Árboles aleatorios (SPSS Modeler)

El nodo Árboles aleatorios se puede utilizar con datos en un entorno distribuido. En este nodo, se genera un modelo de conjunto que está formado por varios árboles de decisiones.

El nodo Árboles aleatorios es un método de predicción y clasificación basado en árbol que se basa en la metodología de Árbol de clasificación y regresión. Al igual que con el Árbol C&R, este método de predicción utiliza la partición reiterada para dividir los registros de entrenamiento en segmentos con valores de campo de salida similares. El nodo empieza examinando los campos de entrada disponibles para el mismo para buscar la mejor división, que se mide a través de la reducción en un índice de impureza resultado de la división. La división define dos subgrupos, cada uno de los cuales se divide después en dos subgrupos más y, así, sucesivamente, hasta que se desencadena uno de los criterios de parada. Todas las divisiones son binarias (solamente se crean dos subgrupos).

El nodo Árboles aleatorios utiliza el muestreo de programa de arranque con sustitución para generar datos de ejemplo. Los datos de ejemplo se utilizan para desarrollar un modelo de árbol. Durante el crecimiento del árbol, Árboles aleatorios no volverán a muestrear los datos. En su lugar, seleccionará de forma aleatoria parte de los predictores y utiliza el mejor para dividir un nodo de árbol. Este proceso se repite al dividir cada nodo de árbol. Esta es la idea básica de hacer crecer un árbol en un bosque aleatorio.

Los Árboles aleatorios utilizan árboles como el Árbol C&R. Dado que estos árboles son binarios, cada campo para dividir resulta en dos ramas. Para un campo categórico con múltiples categorías, las categorías se agrupan en dos grupos basados en el criterio de división interna. Cada árbol crece en la mayor medida posible (no hay poda). En la puntuación, los Árboles aleatorios combinan las puntuaciones individuales de los árboles por mayoría de votos (para la clasificación) o promedio (para la regresión).

Los Árboles aleatorios difieren de los Árboles C&R de la forma siguiente:
  • Los nodos Árboles aleatorios seleccionan aleatoriamente un número específico de predictores y utilizan el mejor de la selección para dividir un nodo. En contrapartida, el Árbol C&R encuentra al mejor de todos predictores.
  • Cada árbol en los Árboles aleatorios crece completamente hasta que cada nodo de hoja contiene típicamente un solo registro. Por eso, la profundidad del árbol podría ser muy grande. Pero el Árbol C&R estándar utiliza distintas reglas de detención para el crecimiento del árbol, que por lo general resulta en un árbol mucho más poco profundo.

Los Árboles aleatorios añaden dos características en comparación con el Árbol C&R:

  • La primera característica es la agregación autodocimante, donde las réplicas del conjunto de datos de entrenamiento se crean mediante el muestreo con la sustitución del conjunto de datos original. Esta acción crea muestras de rutina de carga que tienen un tamaño igual al conjunto de datos original, después de lo cual se crea un modelo de componente en cada réplica. Juntos, estos modelos de componentes forman un modelo de conjunto.
  • La segunda característica es que, en cada división del árbol, solo se tiene en cuenta un muestreo de los campos de entrada para la medida de la impureza.

Requisitos. Para entrenar un modelo de Árboles aleatorios, necesita uno o más campos de Entrada y un campo Objetivo. Los campos de entrada y objetivo pueden ser continuos (rango numérico) o categóricos. Los campos que se establecen en Ambos o Ninguno se ignoran. Los campos que se utilizan en el modelo debe tener sus tipos completamente instanciados, y cualquier campo ordinal (conjunto ordenado) que se utiliza en el modelo debe tener almacenamiento numérico (no cadena). Si lo considera necesario, utilice a continuación el nodo Reclasificar para realizar las conversiones.

Puntos fuertes. Los modelos Árboles aleatorios son sólidos cuando se trata con grandes cantidades de datos y números elevados de campos. Debido al uso de la agregación y al muestreo de campos, son mucho menos propensos al sobreajuste y, lo más probable, es que los resultados que se ven en las pruebas se repitan cuando se utilizan datos nuevos.

Nota: Al crear por primera vez un flujo, seleccione qué tiempo de ejecución utilizar. De forma predeterminada, los flujos utilizan el tiempo de ejecución de IBM SPSS Modeler. Si desea utilizar algoritmos de Spark nativos en lugar de algoritmos de SPSS, seleccione el tiempo de ejecución Spark. Las propiedades de este nodo variarán en función de la opción de tiempo de ejecución que elija.