Este tutorial utiliza el nodo Autoclasificador para crear automáticamente y comparar una serie de modelos diferentes para objetivos marcados (como si es probable que un cliente específico incumpla el pago de un préstamo o responda a una oferta concreta) o nominales (establecidos).
En este ejemplo, se busca un resultado de bandera (sí o no). En un flujo relativamente simple, el nodo genera y clasifica un conjunto de modelos candidatos, elige los que tienen el mejor rendimiento y los combina en un único modelo agregado (de conjunto). Este método combina la facilidad de la automatización con los beneficios de combinar múltiples modelos, que suelen producir predicciones más precisas que cualquier otro modelo.
Este ejemplo se basa en una empresa ficticia que desea obtener resultados más rentables haciendo coincidir la oferta adecuada con cada cliente. Este método refuerza las ventajas de la automatización. Para un ejemplo similar que utiliza un objetivo continuo (rango numérico), consulte los otros tutoriales deSPSS® Modeler.
Pruebe el tutorial
En esta guía de aprendizaje, realizará estas tareas:
Ejemplo de flujo de modelización y conjunto de datos
Este tutorial utiliza el flujo Modelado automatizado para un objetivo de bandera en el proyecto de ejemplo. El archivo de datos utilizado es pm_customer_train1.csv. La siguiente imagen muestra el flujo del modelador de muestra.
Este ejemplo utiliza el archivo de datos pm_customer_train1.csv, que contiene datos históricos que rastrean las ofertas realizadas a clientes específicos en campañas pasadas, como indica el valor del campo " campaign
".
Tarea 1: Abrir el proyecto de ejemplo
El proyecto de muestra contiene varios conjuntos de datos y flujos de modelado de muestra. Si aún no tiene el proyecto de ejemplo, consulte el tema Tutoriales para crear el proyecto de ejemplo. A continuación, siga estos pasos para abrir el proyecto de ejemplo:
- En Cloud Pak for Data, en el menú de navegación ' , seleccione Proyectos > Ver todos los proyectos.
- Haga clic en ProyectoSPSS Modeler.
- Haga clic en la pestaña Activos para ver los conjuntos de datos y los flujos del modelador.
' Comprueba tu progreso
La siguiente imagen muestra la pestaña Activos del proyecto. Ya está preparado para trabajar con el flujo del modelador de ejemplo asociado a este tutorial.
Tarea 2: Examinar el nodo Activos de datos
El modelado automatizado para un objetivo de bandera incluye varios nodos. Siga estos pasos para examinar el nodo Activo de datos.
- En la pestaña Activos, abra el flujo del modelador Modelado automatizado para un objetivo de bandera y espere a que se cargue el lienzo.
- Haga doble clic en el nodo pm_customer_train1.csv. Este nodo es un nodo de Activo de Datos que apunta al archivo pm_customer_train1.csv en el proyecto.
- Revise las propiedades del formato de archivo.
- Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos completo.
El mayor número de registros corresponde a la campaña Cuenta Premium. Los valores del campo "
campaign
" se codifican como números enteros en los datos (por ejemplo, "2 = Premium account
). Más tarde, se definen etiquetas para estos valores que se pueden utilizar para dar una salida más significativa.El fichero también incluye un campo "
response
" que indica si la oferta ha sido aceptada (0 = no
, y "1 = yes
). El campo 'response
' es el campo objetivo, o valor, que desea predecir. También se incluyen varios campos con información demográfica y financiera sobre cada cliente. Estos campos se utilizan para construir o entrenar un modelo que prediga las tasas de respuesta de individuos o grupos en función de características como los ingresos, la edad o el número de transacciones al mes.
' Comprueba tu progreso
La siguiente imagen muestra el nodo de Activos de Datos. Ahora está listo para editar el nodo Tipo.
Tarea 3: Editar el nodo Tipo
Ahora que ha explorado el activo de datos, siga estos pasos para ver y editar las propiedades del nodo Tipo:
- Haga doble clic en el nodo Tipo. Este nodo especifica las propiedades de los campos, como el nivel de medición (el tipo de datos que contiene el campo) y la función de cada campo como objetivo o entrada en el modelado. El nivel de medición es una categoría que indica el tipo de datos del campo. El archivo de datos de origen utiliza tres niveles de medición diferentes:
- Un campo continuo (como el campo "
Age
") contiene valores numéricos continuos. - Un campo Nominal (como el campo "
Education
") tiene dos o más valores distintos; en este caso.College
oHigh school
. - Un campo ordinal (como el campo "
Income level
") describe datos con múltiples valores distintos que tienen un orden inherente; en este caso, "Low
, "Medium
y "High
.
- Un campo continuo (como el campo "
- Verifique que el campo de respuesta # es el campo objetivo (Rol = Objetivo), y la medida para este campo a Bandera.
- Compruebe que el rol a está establecido en Ninguno para los siguientes campos. Estos campos se ignoran cuando se construye el modelo.
- customer_id
- campaña
- fecha_respuesta
- Comprar
- fecha_compra
- product_id
- ROWID
- X_random
- Haga clic en Leer valores en el nodo Tipo para asegurarse de que se instancian los valores.
Como ha visto antes, los datos de origen incluyen información sobre cuatro campañas diferentes, cada una dirigida a un tipo distinto de cuenta de cliente. Estas campañas se codifican como números enteros en los datos, por lo que para ayudar a recordar qué tipo de cuenta representa cada número entero, defina etiquetas para cada una.
- En la fila # campaña y en la columna Modo de valor, seleccione Especificar en la lista.
- Haga clic en el icono Editar ' en la fila del campo # campaña.
- Verifique las etiquetas como se muestra para cada uno de los cuatro valores.
- Pulse Aceptar. Ahora, las etiquetas se muestran en las ventanas de salida en lugar de los enteros.
- Pulse Guardar.
- Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos con las propiedades de Tipo aplicadas.
' Comprueba tu progreso
La siguiente imagen muestra el nodo Tipo. Ahora está listo para seleccionar una campaña para analizar.
Tarea 4: Seleccionar una campaña para analizar
Aunque los datos incluyen información sobre cuatro campañas diferentes, usted centra el análisis en una campaña cada vez. Siga estos pasos para ver el nodo Seleccionar para analizar sólo la campaña de la cuenta Premium:
- Haga doble clic en el nodo Seleccionar para ver sus propiedades.
- Fíjate en la condición. Dado que el mayor número de registros corresponde a la campaña de la cuenta Premium (codificada como "
campaign=2
" en los datos), el nodo Select selecciona sólo estos registros. - Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos con las propiedades de Selección aplicadas.
' Comprueba tu progreso
La siguiente imagen muestra el nodo Seleccionar. Ya está listo para construir el modelo.
Tarea 5: Construir el modelo
Ahora que ha seleccionado una única campaña para analizar, siga estos pasos para construir el modelo que utiliza el nodo Autoclasificador:
- Haga doble clic en el nodo Response (Auto Classifier ) para ver sus propiedades.
- Amplíe la sección Opciones de compilación.
- En el campo Clasificar modelos por, seleccione Precisión global como métrica utilizada para clasificar los modelos.
- Establezca el Número de modelos a utilizar en
3
. Esta opción significa que los tres mejores modelos se construyen cuando se ejecuta el nodo. - Amplíe la sección Experto para ver los distintos algoritmos de modelado.
- Desactive los tipos de modelos Discriminante, SVM y Bosque aleatorio. Estos modelos tardan más en entrenarse con estos datos, por lo que eliminarlos acelera el ejemplo.
Al establecer la propiedad Número de modelos a utilizar en '
3
en Opciones de compilación, el nodo calcula la precisión de los algoritmos restantes y genera un único nugget de modelo que contiene los tres más precisos. - En las opciones de Conjunto, seleccione Votación ponderada por confianza como método de conjunto para Fijar objetivos y Marcar objetivos. Este ajuste determina cómo se produce una única puntuación agregada para cada registro.
Con la votación simple, si dos de cada tres modelos predicen Sí, entonces Sí gana por un voto de 2 a 1. En el caso de la votación ponderada por confianza, los votos se ponderan en función del valor de confianza para cada predicción. Además, si un modelo predice no con mayor confianza que las dos predicciones sí combinadas, ganará no.
- Pulse Guardar.
- Pase el ratón por encima del nodo Respuesta (Autoclasificador) y haga clic en el icono Ejecutar ' .
- En el panel Salidas y modelos, haga clic en el modelo con el nombre respuesta para ver los resultados. Verá los detalles de cada uno de los modelos que se crean durante la ejecución. (En una situación real, en la que podrían crearse cientos de modelos sobre un gran conjunto de datos, la ejecución del flujo podría llevar muchas horas)
- Haga clic en el nombre de un modelo para explorar los resultados de cada uno de ellos.
Por defecto, los modelos se ordenan en función de la precisión global, ya que usted seleccionó esa medida en las propiedades del nodo Autoclasificador. El modelo de árbol XGBoost obtiene la mejor clasificación según esta medida, pero los modelos C5.0 y C&RT son casi tan precisos.
En función de estos resultados, puede decidir utilizar los tres modelos más precisos. Al combinar las predicciones de varios modelos, pueden evitarse las limitaciones de los modelos individuales, lo que se traduce en una mayor precisión global.
- En la columna USO, compruebe que los tres modelos y, a continuación, cierre la ventana del modelo.
' Comprueba tu progreso
La siguiente imagen muestra la tabla comparativa de modelos. Ya está listo para ejecutar el análisis del modelo.
Tarea 6: Realizar un análisis del modelo
Ahora que ha revisado los modelos generados, siga estos pasos para ejecutar un análisis de los modelos:
- Pase el ratón por encima del nodo Análisis y haga clic en el icono Ejecutar ' .
- En el panel Salidas y modelos, haga clic en la salida Análisis para ver los resultados.
La puntuación agregada generada por el modelo ensamblado se muestra en un campo denominado "
$XF-response
. Cuando se compara con los datos de entrenamiento, el valor predicho coincide con la respuesta real (registrada en el campo original "response
") con una precisión global 92.77. Aunque en este caso no es tan preciso como el mejor de los tres modelos individuales (92,82% para C5.0), la diferencia es demasiado pequeña como para ser significativa. En términos generales, es más probable que un modelo de conjunto se ejecute bien cuando se aplique a conjuntos de datos que no sean los datos de entrenamiento.
' Comprueba tu progreso
La siguiente imagen muestra la comparación de modelos que utiliza el nodo Análisis.
Resumen
Con este flujo de ejemplo ' Modelización automatizada de un objetivo bandera, usted utilizó el nodo ' Clasificador automático ' para comparar varios modelos diferentes, utilizó los tres modelos más precisos, y los añadió al flujo dentro de un nugget de modelo Auto Clasificador ensamblado.
- En función de la precisión global, los modelos Árbol XGBoost, C5.0 y Árbol C&RT han tenido un mejor rendimiento en los datos de entrenamiento.
- El modelo ensamblado funcionó casi tan bien como el mejor de los modelos individuales y podría funcionar mejor si se aplicara a otros conjuntos de datos. Si su objetivo es automatizar el proceso en la medida de lo posible, este enfoque ayuda a obtener un modelo sólido en la mayoría de las circunstancias sin tener que profundizar en los detalles específicos de cada modelo.
Próximos pasos
Ahora está preparado para probar otros tutorialesSPSS Modeler.