Automatizar el modelado de un objetivo de bandera

Última actualización: 12 feb 2025

Este tutorial utiliza el nodo Autoclasificador para crear automáticamente y comparar una serie de modelos diferentes para objetivos marcados (como si es probable que un cliente específico incumpla el pago de un préstamo o responda a una oferta concreta) o nominales (establecidos).

En este ejemplo, se busca un resultado de bandera (sí o no). En un flujo relativamente simple, el nodo genera y clasifica un conjunto de modelos candidatos, elige los que tienen el mejor rendimiento y los combina en un único modelo agregado (de conjunto). Este método combina la facilidad de la automatización con los beneficios de combinar múltiples modelos, que suelen producir predicciones más precisas que cualquier otro modelo.

Este ejemplo se basa en una empresa ficticia que desea obtener resultados más rentables haciendo coincidir la oferta adecuada con cada cliente. Este método refuerza las ventajas de la automatización. Para un ejemplo similar que utiliza un objetivo continuo (rango numérico), consulte los otros tutoriales deSPSS® Modeler.

Vista previa de la guía de aprendizaje

Ver vídeo Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber ligeras diferencias en la interfaz de usuario que se muestra en el vídeo. El vídeo pretende ser un complemento del tutorial escrito. Este vídeo ofrece un método visual para aprender los conceptos y tareas de esta documentación.

Pruebe el tutorial

En esta guía de aprendizaje, realizará estas tareas:

Tarea 1: Abrir el proyecto de ejemplo
Tarea 2: Examinar el nodo Activos de datos
Tarea 3: Editar el nodo Tipo
Tarea 4: Seleccionar una campaña para analizar
Tarea 5: Construir el modelo
Tarea 6: Realizar un análisis del modelo

Ejemplo de flujo de modelización y conjunto de datos

Este tutorial utiliza el flujo Modelado automatizado para un objetivo de bandera en el proyecto de ejemplo. El archivo de datos utilizado es pm_customer_train1.csv. La siguiente imagen muestra el flujo del modelador de muestra.

Flujo de ejemplo Clasificador automático — Figura 1. Flujo del modelador de muestras

Este ejemplo utiliza el archivo de datos pm_customer_train1.csv, que contiene datos históricos que rastrean las ofertas realizadas a clientes específicos en campañas pasadas, como indica el valor del campo " campaign ".

La siguiente imagen muestra el conjunto de datos de muestra.

Datos sobre promociones anteriores — Figura 2. Muestra de datos

Tarea 1: Abrir el proyecto de ejemplo

El proyecto de muestra contiene varios conjuntos de datos y flujos de modelado de muestra. Si aún no tiene el proyecto de muestra, consulte el tema Tutoriales para crear el proyecto de muestra. A continuación, siga estos pasos para abrir el proyecto de ejemplo:

En watsonx, en el menú de navegación , elija Proyectos > Ver todos los proyectos.
Haga clic en ProyectoSPSS Modeler.
Haga clic en la pestaña Activos para ver los conjuntos de datos y los flujos del modelador.

Compruebe su progreso

La siguiente imagen muestra la pestaña Activos del proyecto. Ya está preparado para trabajar con el flujo del modelador de ejemplo asociado a este tutorial.

Proyecto de ejemplo

volver a la parte superior

Tarea 2: Examinar el nodo Activos de datos

El modelado automatizado para un objetivo de bandera incluye varios nodos. Siga estos pasos para examinar el nodo Activo de datos.

En la pestaña Activos, abra el flujo del modelador Modelado automatizado para un objetivo de bandera y espere a que se cargue el lienzo.
Haga doble clic en el nodo pm_customer_train1.csv. Este nodo es un nodo de Activo de Datos que apunta al archivo pm_customer_train1.csv en el proyecto.
Revise las propiedades del formato de archivo.
Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos completo.
El mayor número de registros corresponde a la campaña Cuenta Premium. Los valores del campo " campaign " se codifican como números enteros en los datos (por ejemplo, " 2 = Premium account). Más tarde, se definen etiquetas para estos valores que se pueden utilizar para dar una salida más significativa.

El fichero también incluye un campo " response " que indica si la oferta ha sido aceptada (0 = no, y " 1 = yes). El campo ' response ' es el campo objetivo, o valor, que desea predecir. También se incluyen varios campos con información demográfica y financiera sobre cada cliente. Estos campos se utilizan para construir o entrenar un modelo que prediga las tasas de respuesta de individuos o grupos en función de características como los ingresos, la edad o el número de transacciones al mes.

Icono de punto de control Compruebe su progreso

La siguiente imagen muestra el nodo de Activos de Datos. Ahora está listo para editar el nodo Tipo.

volver a la parte superior

Tarea 3: Editar el nodo Tipo

Ahora que ha explorado el activo de datos, siga estos pasos para ver y editar las propiedades del nodo Tipo:

Haga doble clic en el nodo Tipo. Este nodo especifica las propiedades de los campos, como el nivel de medición (el tipo de datos que contiene el campo) y la función de cada campo como objetivo o entrada en el modelado. El nivel de medición es una categoría que indica el tipo de datos del campo. El archivo de datos de origen utiliza tres niveles de medición diferentes:
- Un campo continuo (como el campo " Age ") contiene valores numéricos continuos.
- Un campo Nominal (como el campo " Education ") tiene dos o más valores distintos; en este caso. College o High school.
- Un campo ordinal (como el campo " Income level ") describe datos con múltiples valores distintos que tienen un orden inherente; en este caso, " Low, " Medium y " High.
Verifique que el campo de respuesta # es el campo objetivo (Rol = Objetivo), y la medida para este campo a Bandera.
Figura 3. Establecer el nivel de medición y el rol
Compruebe que el rol a está establecido en Ninguno para los siguientes campos. Estos campos se ignoran cuando se construye el modelo.
- customer_id
- campaña
- fecha_respuesta
- Comprar
- fecha_compra
- product_id
- ROWID
- X_random
Haga clic en Leer valores en el nodo Tipo para asegurarse de que se instancian los valores.
Como ha visto antes, los datos de origen incluyen información sobre cuatro campañas diferentes, cada una dirigida a un tipo distinto de cuenta de cliente. Estas campañas se codifican como números enteros en los datos, por lo que para ayudar a recordar qué tipo de cuenta representa cada número entero, defina etiquetas para cada una.

Figura 4. Elija especificar valores para un campo
En la fila # campaña y en la columna Modo de valor, seleccione Especificar en la lista.
Haga clic en el icono Editar , en la fila del campo #campaña.
1. Verifique las etiquetas como se muestra para cada uno de los cuatro valores.
  Figura 5. Definir etiquetas para los valores de los campos
2. Pulse Aceptar. Ahora, las etiquetas se muestran en las ventanas de salida en lugar de los enteros.
Pulse Guardar.
Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos con las propiedades de Tipo aplicadas.

Icono de punto de control Compruebe su progreso

La siguiente imagen muestra el nodo Tipo. Ahora está listo para seleccionar una campaña para analizar.

volver a la parte superior

Tarea 4: Seleccionar una campaña para analizar

Aunque los datos incluyen información sobre cuatro campañas diferentes, usted centra el análisis en una campaña cada vez. Siga estos pasos para ver el nodo Seleccionar para analizar sólo la campaña de la cuenta Premium:

Haga doble clic en el nodo Seleccionar para ver sus propiedades.
Fíjate en la condición. Dado que el mayor número de registros corresponde a la campaña de la cuenta Premium (codificada como " campaign=2 " en los datos), el nodo Select selecciona sólo estos registros.
Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos con las propiedades de Selección aplicadas.

Icono de punto de control Compruebe su progreso

La siguiente imagen muestra el nodo Seleccionar. Ya está listo para construir el modelo.

volver a la parte superior

Tarea 5: Construir el modelo

Ahora que ha seleccionado una única campaña para analizar, siga estos pasos para construir el modelo que utiliza el nodo Autoclasificador:

Haga doble clic en el nodo Response (Auto Classifier ) para ver sus propiedades.
Amplíe la sección Opciones de compilación.
En el campo Clasificar modelos por, seleccione Precisión global como métrica utilizada para clasificar los modelos.
Establezca el Número de modelos a utilizar en 3. Esta opción significa que los tres mejores modelos se construyen cuando se ejecuta el nodo.
Figura 6. Nodo Clasificador automático, opciones de creación
Amplíe la sección Experto para ver los distintos algoritmos de modelado.
Desactive los tipos de modelos Discriminante, SVM y Bosque aleatorio. Estos modelos tardan más en entrenarse con estos datos, por lo que eliminarlos acelera el ejemplo.
Al establecer la propiedad Número de modelos a utilizar en ' 3 en Opciones de compilación, el nodo calcula la precisión de los algoritmos restantes y genera un único nugget de modelo que contiene los tres más precisos.

Figura 7. Nodo Clasificador automático, opciones de Experto
En las opciones de Conjunto, seleccione Votación ponderada por confianza como método de conjunto para Fijar objetivos y Marcar objetivos. Este ajuste determina cómo se produce una única puntuación agregada para cada registro.
Con la votación simple, si dos de cada tres modelos predicen Sí, entonces Sí gana por un voto de 2 a 1. En el caso de la votación ponderada por confianza, los votos se ponderan en función del valor de confianza para cada predicción. Además, si un modelo predice no con mayor confianza que las dos predicciones sí combinadas, ganará no.

Figura 8. Nodo Clasificador automático, opciones de conjunto
Pulse Guardar.
Pase el cursor sobre el nodo Respuesta (clasificador automático ) y haga clic en el icono Ejecutar .
En el panel Salidas y modelos, haga clic en el modelo con el nombre respuesta para ver los resultados. Verá los detalles de cada uno de los modelos que se crean durante la ejecución. (En una situación real, en la que podrían crearse cientos de modelos sobre un gran conjunto de datos, la ejecución del flujo podría llevar muchas horas)
Haga clic en el nombre de un modelo para explorar los resultados de cada uno de ellos.
Por defecto, los modelos se ordenan en función de la precisión global, ya que usted seleccionó esa medida en las propiedades del nodo Autoclasificador. El modelo de árbol XGBoost obtiene la mejor clasificación según esta medida, pero los modelos C5.0 y C&RT son casi tan precisos.

En función de estos resultados, puede decidir utilizar los tres modelos más precisos. Al combinar las predicciones de varios modelos, pueden evitarse las limitaciones de los modelos individuales, lo que se traduce en una mayor precisión global.
En la columna USO, compruebe que los tres modelos y, a continuación, cierre la ventana del modelo.

Icono de punto de control Compruebe su progreso

La siguiente imagen muestra la tabla comparativa de modelos. Ya está listo para ejecutar el análisis del modelo.

volver a la parte superior

Tarea 6: Realizar un análisis del modelo

Ahora que ha revisado los modelos generados, siga estos pasos para ejecutar un análisis de los modelos:

Pase el cursor sobre el nodo Análisis y haga clic en el icono Ejecutar .
En el panel Salidas y modelos, haga clic en la salida Análisis para ver los resultados.
La puntuación agregada generada por el modelo ensamblado se muestra en un campo denominado " $XF-response. Cuando se compara con los datos de entrenamiento, el valor predicho coincide con la respuesta real (registrada en el campo original " response ") con una precisión global 92.77. Aunque en este caso no es tan preciso como el mejor de los tres modelos individuales (92,82% para C5.0), la diferencia es demasiado pequeña como para ser significativa. En términos generales, es más probable que un modelo de conjunto se ejecute bien cuando se aplique a conjuntos de datos que no sean los datos de entrenamiento.

Icono de punto de control Compruebe su progreso

La siguiente imagen muestra la comparación de modelos que utiliza el nodo Análisis.

volver a la parte superior

Resumen

Con este flujo de ejemplo ' Modelización automatizada de un objetivo bandera, usted utilizó el nodo ' Clasificador automático ' para comparar varios modelos diferentes, utilizó los tres modelos más precisos, y los añadió al flujo dentro de un nugget de modelo Auto Clasificador ensamblado.

En función de la precisión global, los modelos Árbol XGBoost, C5.0 y Árbol C&RT han tenido un mejor rendimiento en los datos de entrenamiento.
El modelo ensamblado funcionó casi tan bien como el mejor de los modelos individuales y podría funcionar mejor si se aplicara a otros conjuntos de datos. Si su objetivo es automatizar el proceso en la medida de lo posible, este enfoque ayuda a obtener un modelo sólido en la mayoría de las circunstancias sin tener que profundizar en los detalles específicos de cada modelo.

Próximos pasos

Ahora ya puede probar otros tutoriales de SPSS Modeler.

¿Fue útil el tema?

0/1000

Vista previa de la guía de aprendizajeCopy link to section

Pruebe el tutorialCopy link to section

Ejemplo de flujo de modelización y conjunto de datosCopy link to section

Tarea 1: Abrir el proyecto de ejemploCopy link to section

Tarea 2: Examinar el nodo Activos de datosCopy link to section

Tarea 3: Editar el nodo TipoCopy link to section

Tarea 4: Seleccionar una campaña para analizarCopy link to section

Tarea 5: Construir el modeloCopy link to section

Tarea 6: Realizar un análisis del modeloCopy link to section

ResumenCopy link to section

Próximos pasosCopy link to section

Vista previa de la guía de aprendizaje

Pruebe el tutorial

Ejemplo de flujo de modelización y conjunto de datos

Tarea 1: Abrir el proyecto de ejemplo

Tarea 2: Examinar el nodo Activos de datos

Tarea 3: Editar el nodo Tipo

Tarea 4: Seleccionar una campaña para analizar

Tarea 5: Construir el modelo

Tarea 6: Realizar un análisis del modelo

Resumen

Próximos pasos