Nodo Árboles aleatorios

Última actualización: 12 feb 2025
Nodo Árboles aleatorios (SPSS Modeler)

El nodo Árboles aleatorios se puede utilizar con datos en un entorno distribuido. En este nodo, crea un modelo de conjunto que consta de varios árboles de decisiones.

El nodo Árboles aleatorios es un método de clasificación y predicción basado en árbol que se basa en la metodología Árbol de clasificación y regresión. Al igual que con el Árbol C&R, este método de predicción utiliza la partición reiterada para dividir los registros de entrenamiento en segmentos con valores de campo de salida similares. El nodo se inicia examinando los campos de entrada disponibles para encontrar la mejor división, que se mide por la reducción de un índice de impureza que resulta de la división. La división define dos subgrupos, cada uno de los cuales se divide en dos subgrupos más, y así sucesivamente, hasta que se desencadena uno de los criterios de detención. Todas las divisiones son binarias (sólo dos subgrupos).

El nodo Árboles aleatorios utiliza el muestreo de rutina de carga con sustitución para generar datos de ejemplo. Los datos de muestra se utilizan para desarrollar un modelo de árbol. Durante el crecimiento de los árboles, los árboles aleatorios no volverán a muestrear los datos. En su lugar, selecciona aleatoriamente parte de los predictores y utiliza el mejor para dividir un nodo de árbol. Este proceso se repite al dividir cada nodo de árbol. Esta es la idea básica de cultivar un árbol en un bosque al azar.

Los Árboles aleatorios utilizan árboles como el Árbol C&R. Dado que estos árboles son binarios, cada campo para dividir da como resultado dos bifurcaciones. Para un campo categórico con varias categorías, las categorías se agrupan en dos grupos basándose en el criterio de división interna. Cada árbol crece en la mayor medida posible (no hay poda). En la puntuación, los Árboles aleatorios combinan puntuaciones de árboles individuales por votación mayoritaria (para clasificación) o promedio (para la regresión).

Los Árboles aleatorios difieren de los Árboles C&R de la forma siguiente:
  • Los nodos Árboles aleatorios seleccionan aleatoriamente un número especificado de predictores y utilizan el mejor de la selección para dividir un nodo. En contrapartida, el Árbol C&R encuentra al mejor de todos predictores.
  • Cada árbol de Árboles aleatorios crece completamente hasta que cada nodo de hoja normalmente contiene un solo registro. Así que la profundidad del árbol podría ser muy grande. Pero el Árbol C&R estándar utiliza distintas reglas de detención para el crecimiento del árbol, que por lo general genera un árbol mucho menos profundo.

Los Árboles aleatorios añaden dos características en comparación con el Árbol C&R:

  • La primera característica es la agregación autodocimante, donde las réplicas del conjunto de datos de entrenamiento se crean mediante el muestreo con la sustitución del conjunto de datos original. Esta acción crea muestras de rutina de carga que tienen un tamaño igual al conjunto de datos original, después de lo cual se crea un modelo de componente en cada réplica. Juntos, estos modelos de componentes forman un modelo de conjunto.
  • La segunda característica es que, en cada división del árbol, sólo se considera un muestreo de los campos de entrada para la medida de la impureza.

Requisitos. Para entrenar un modelo de Árboles aleatorios, necesita uno o más campos de Entrada y un campo Objetivo. Los campos de objetivo y de entrada pueden ser continuos (rango numérico) o categóricos. Los campos que se establecen en Ambos o Ninguno se ignoran. Los campos que se utilizan en el modelo deben tener sus tipos completamente instanciados, y cualquier campo ordinal (conjunto ordenado) que se utilice en el modelo debe tener almacenamiento numérico (no serie). Si es necesario, se puede utilizar el nodo Reclasificar para convertirlos.

Puntos fuertes. Los modelos de Árboles aleatorios son robustos cuando se trata de grandes conjuntos de datos y números de campos. Debido al uso de la muestra de agregación autodocimante y de campo, son mucho menos propensos al sobreajuste y por lo tanto los resultados que se ven en las pruebas son más propensos a repetirse cuando se utilizan nuevos datos.

Nota: Al crear por primera vez un flujo, seleccione qué tiempo de ejecución utilizar. De forma predeterminada, los flujos utilizan el tiempo de ejecución de IBM SPSS Modeler. Si desea utilizar algoritmos de Spark nativos en lugar de algoritmos de SPSS, seleccione el tiempo de ejecución de Spark. Las propiedades de este nodo variarán en función de la opción de tiempo de ejecución que elija.