El nodo Árbol de clasificación y regresión (C&R) es un método de predicción y clasificación basado en árboles. Similar a C5.0, este método utiliza la partición reiterada para dividir los registros de entrenamiento en segmentos con valores de campo de salida similares. El nodo C&RT comienza por realizar un examen de los campos de entrada para buscar la mejor división, que se ha medido mediante la reducción del índice de impureza resultado de la división. La división define dos subgrupos, que se siguen dividiendo en otros dos subgrupos sucesivamente hasta que se activa un criterio de parada. Todas las divisiones son binarias (solamente se crean dos subgrupos).
Poda del árbol
Los árboles C&RT ofrecen la opción de hacer crecer el árbol en primer lugar y, a continuación, podar según un algoritmo de complejidad de costes que ajusta la estimación de riesgo en función del número de nodos terminales. Este método, que permite al árbol crecer enormemente antes de la poda a partir de criterios más complejos, puede generar árboles más pequeños con mejores propiedades de validación cruzada. Al aumentar el número de nodos terminales, por lo general se reduce el riesgo sobre los datos (de entrenamiento) actuales, pero se puede aumentar el riesgo real si el modelo se generaliza a datos no mostrados. Supongamos un caso extremo en que exista un nodo terminal independiente para cada registro del conjunto de entrenamiento. La estimación de riesgo sería del 0%, ya que cada registro cae en su propio nodo, pero el riesgo de clasificación errónea para los datos no vistos (de prueba) casi seguramente sería mayor que 0. La medida de complejidad de costes intenta compensar esto.
Ejemplo. Una empresa de televisión ha solicitado un estudio de marketing para determinar qué clientes contratarían una suscripción a un servicio de noticias interactivo por cable. A partir de los datos del estudio, puede crear un flujo en el que el campo objetivo sea la intención de suscribirse y los campos predictores incluyan edad, sexo, educación, nivel de ingresos, horas invertidas en ver la televisión cada día y número de hijos. Aplicando un nodo Árbol CR al flujo, podrá predecir y clasificar las respuestas para obtener la tasa de respuesta más alta para su campaña.
Requisitos. Para entrenar un modelo de Árbol C & R, necesita uno o más campos Input
y exactamente un campo Target
. Los campos de entrada y objetivo pueden ser continuos (rango numérico) o categóricos. Los campos establecidos en Both
o None
se ignoran. Los tipos de los campos utilizados en el modelo deben estar completamente instanciados y cualquier campo ordinal (conjunto ordenado) que se utilice en el modelo debe disponer de almacenamiento numérico (no en cadena). Si lo considera necesario, utilice a continuación el nodo Reclasificar para realizar las conversiones.
Puntos fuertes. Los modelos de Árbol C&R son bastante más robustos cuando aparecen problemas como datos perdidos y un número elevado de campos. Por lo general no precisan de largos tiempos de entrenamiento para calcular las estimaciones. Además, los modelos de Árbol C&R suelen ser más fáciles de comprender que algunos tipos de modelos: la interpretación de las reglas derivadas del modelo es muy directa. A diferencia de C5.0, Árbol C&R puede adaptar continuos como campos de salida categóricos.