0 / 0
Volver a la versión inglesa de la documentación
Automatizar el modelado de un objetivo de bandera
Última actualización: 12 dic 2024
Automatizar el modelado de un objetivo de bandera

Este tutorial utiliza el nodo Autoclasificador para crear automáticamente y comparar una serie de modelos diferentes para objetivos marcados (como si es probable que un cliente específico incumpla el pago de un préstamo o responda a una oferta concreta) o nominales (establecidos).

En este ejemplo, se busca un resultado de bandera (sí o no). En un flujo relativamente simple, el nodo genera y clasifica un conjunto de modelos candidatos, elige los que tienen el mejor rendimiento y los combina en un único modelo agregado (de conjunto). Este método combina la facilidad de la automatización con los beneficios de combinar múltiples modelos, que suelen producir predicciones más precisas que cualquier otro modelo.

Este ejemplo se basa en una empresa ficticia que desea obtener resultados más rentables haciendo coincidir la oferta adecuada con cada cliente. Este método refuerza las ventajas de la automatización. Para un ejemplo similar que utiliza un objetivo continuo (rango numérico), consulte los otros tutoriales deSPSS® Modeler.

Pruebe el tutorial

En esta guía de aprendizaje, realizará estas tareas:

Ejemplo de flujo de modelización y conjunto de datos

Este tutorial utiliza el flujo Modelado automatizado para un objetivo de bandera en el proyecto de ejemplo. El archivo de datos utilizado es pm_customer_train1.csv. La siguiente imagen muestra el flujo del modelador de muestra.

Figura 1. Flujo del modelador de muestras
Flujo de ejemplo Clasificador automático

Este ejemplo utiliza el archivo de datos pm_customer_train1.csv, que contiene datos históricos que rastrean las ofertas realizadas a clientes específicos en campañas pasadas, como indica el valor del campo " campaign ".

La siguiente imagen muestra el conjunto de datos de muestra.
Figura 2. Muestra de datos
Datos sobre promociones anteriores

Tarea 1: Abrir el proyecto de ejemplo

El proyecto de muestra contiene varios conjuntos de datos y flujos de modelado de muestra. Si aún no tiene el proyecto de ejemplo, consulte el tema Tutoriales para crear el proyecto de ejemplo. A continuación, siga estos pasos para abrir el proyecto de ejemplo:

  1. En ' watsonx, en el menú Navegación ' Menú de navegación, seleccione Proyectos > Ver todos los proyectos.
  2. Haga clic en ProyectoSPSS Modeler.
  3. Haga clic en la pestaña Activos para ver los conjuntos de datos y los flujos del modelador.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra la pestaña Activos del proyecto. Ya está preparado para trabajar con el flujo del modelador de ejemplo asociado a este tutorial.

Proyecto de ejemplo

volver a la parte superior

Tarea 2: Examinar el nodo Activos de datos

El modelado automatizado para un objetivo de bandera incluye varios nodos. Siga estos pasos para examinar el nodo Activo de datos.

  1. En la pestaña Activos, abra el flujo del modelador Modelado automatizado para un objetivo de bandera y espere a que se cargue el lienzo.
  2. Haga doble clic en el nodo pm_customer_train1.csv. Este nodo es un nodo de Activo de Datos que apunta al archivo pm_customer_train1.csv en el proyecto.
  3. Revise las propiedades del formato de archivo.
  4. Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos completo.

    El mayor número de registros corresponde a la campaña Cuenta Premium. Los valores del campo " campaign " se codifican como números enteros en los datos (por ejemplo, " 2 = Premium account). Más tarde, se definen etiquetas para estos valores que se pueden utilizar para dar una salida más significativa.

    El fichero también incluye un campo " response " que indica si la oferta ha sido aceptada (0 = no, y " 1 = yes). El campo ' response ' es el campo objetivo, o valor, que desea predecir. También se incluyen varios campos con información demográfica y financiera sobre cada cliente. Estos campos se utilizan para construir o entrenar un modelo que prediga las tasas de respuesta de individuos o grupos en función de características como los ingresos, la edad o el número de transacciones al mes.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el nodo de Activos de Datos. Ahora está listo para editar el nodo Tipo.

Nodo Activo de datos

volver a la parte superior

Tarea 3: Editar el nodo Tipo

Ahora que ha explorado el activo de datos, siga estos pasos para ver y editar las propiedades del nodo Tipo:

  1. Haga doble clic en el nodo Tipo. Este nodo especifica las propiedades de los campos, como el nivel de medición (el tipo de datos que contiene el campo) y la función de cada campo como objetivo o entrada en el modelado. El nivel de medición es una categoría que indica el tipo de datos del campo. El archivo de datos de origen utiliza tres niveles de medición diferentes:
    • Un campo continuo (como el campo " Age ") contiene valores numéricos continuos.
    • Un campo Nominal (como el campo " Education ") tiene dos o más valores distintos; en este caso. College o High school.
    • Un campo ordinal (como el campo " Income level ") describe datos con múltiples valores distintos que tienen un orden inherente; en este caso, " Low, " Medium y " High.
  2. Verifique que el campo de respuesta # es el campo objetivo (Rol = Objetivo), y la medida para este campo a Bandera.
    Figura 3. Establecer el nivel de medición y el rol
    Establecer el nivel de medición y el rol
  3. Compruebe que el rol a está establecido en Ninguno para los siguientes campos. Estos campos se ignoran cuando se construye el modelo.
    • customer_id
    • campaña
    • fecha_respuesta
    • Comprar
    • fecha_compra
    • product_id
    • ROWID
    • X_random
  4. Haga clic en Leer valores en el nodo Tipo para asegurarse de que se instancian los valores.

    Como ha visto antes, los datos de origen incluyen información sobre cuatro campañas diferentes, cada una dirigida a un tipo distinto de cuenta de cliente. Estas campañas se codifican como números enteros en los datos, por lo que para ayudar a recordar qué tipo de cuenta representa cada número entero, defina etiquetas para cada una.

    Figura 4. Elija especificar valores para un campo
    Elija especificar valores para un campo
  5. En la fila # campaña y en la columna Modo de valor, seleccione Especificar en la lista.
  6. Haga clic en el icono Editar ' Icono Editar en la fila del campo # campaña.
    1. Verifique las etiquetas como se muestra para cada uno de los cuatro valores.
      Figura 5. Definir etiquetas para los valores de los campos
      Definir etiquetas para los valores de los campos
    2. Pulse Aceptar. Ahora, las etiquetas se muestran en las ventanas de salida en lugar de los enteros.
  7. Pulse Guardar.
  8. Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos con las propiedades de Tipo aplicadas.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el nodo Tipo. Ahora está listo para seleccionar una campaña para analizar.

Nodo Tipo

volver a la parte superior

Tarea 4: Seleccionar una campaña para analizar

Aunque los datos incluyen información sobre cuatro campañas diferentes, usted centra el análisis en una campaña cada vez. Siga estos pasos para ver el nodo Seleccionar para analizar sólo la campaña de la cuenta Premium:

  1. Haga doble clic en el nodo Seleccionar para ver sus propiedades.
  2. Fíjate en la condición. Dado que el mayor número de registros corresponde a la campaña de la cuenta Premium (codificada como " campaign=2 " en los datos), el nodo Select selecciona sólo estos registros.
  3. Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos con las propiedades de Selección aplicadas.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el nodo Seleccionar. Ya está listo para construir el modelo.

Nodo Seleccionar

volver a la parte superior

Tarea 5: Construir el modelo

Ahora que ha seleccionado una única campaña para analizar, siga estos pasos para construir el modelo que utiliza el nodo Autoclasificador:

  1. Haga doble clic en el nodo Response (Auto Classifier ) para ver sus propiedades.
  2. Amplíe la sección Opciones de compilación.
  3. En el campo Clasificar modelos por, seleccione Precisión global como métrica utilizada para clasificar los modelos.
  4. Establezca el Número de modelos a utilizar en 3. Esta opción significa que los tres mejores modelos se construyen cuando se ejecuta el nodo.
    Figura 6. Nodo Clasificador automático, opciones de creación
    Nodo Clasificador automático, opciones de creación
  5. Amplíe la sección Experto para ver los distintos algoritmos de modelado.
  6. Desactive los tipos de modelos Discriminante, SVM y Bosque aleatorio. Estos modelos tardan más en entrenarse con estos datos, por lo que eliminarlos acelera el ejemplo.

    Al establecer la propiedad Número de modelos a utilizar en ' 3 en Opciones de compilación, el nodo calcula la precisión de los algoritmos restantes y genera un único nugget de modelo que contiene los tres más precisos.

    Figura 7. Nodo Clasificador automático, opciones de Experto
    Nodo Clasificador automático, opciones de Experto
  7. En las opciones de Conjunto, seleccione Votación ponderada por confianza como método de conjunto para Fijar objetivos y Marcar objetivos. Este ajuste determina cómo se produce una única puntuación agregada para cada registro.

    Con la votación simple, si dos de cada tres modelos predicen , entonces gana por un voto de 2 a 1. En el caso de la votación ponderada por confianza, los votos se ponderan en función del valor de confianza para cada predicción. Además, si un modelo predice no con mayor confianza que las dos predicciones combinadas, ganará no.

    Figura 8. Nodo Clasificador automático, opciones de conjunto
    Nodo Clasificador automático, opciones de conjunto
  8. Pulse Guardar.
  9. Pase el ratón por encima del nodo Respuesta (Autoclasificador) y haga clic en el icono Ejecutar ' Icono de ejecución.
  10. En el panel Salidas y modelos, haga clic en el modelo con el nombre respuesta para ver los resultados. Verá los detalles de cada uno de los modelos que se crean durante la ejecución. (En una situación real, en la que podrían crearse cientos de modelos sobre un gran conjunto de datos, la ejecución del flujo podría llevar muchas horas)
  11. Haga clic en el nombre de un modelo para explorar los resultados de cada uno de ellos.

    Por defecto, los modelos se ordenan en función de la precisión global, ya que usted seleccionó esa medida en las propiedades del nodo Autoclasificador. El modelo de árbol XGBoost obtiene la mejor clasificación según esta medida, pero los modelos C5.0 y C&RT son casi tan precisos.

    En función de estos resultados, puede decidir utilizar los tres modelos más precisos. Al combinar las predicciones de varios modelos, pueden evitarse las limitaciones de los modelos individuales, lo que se traduce en una mayor precisión global.

  12. En la columna USO, compruebe que los tres modelos y, a continuación, cierre la ventana del modelo.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra la tabla comparativa de modelos. Ya está listo para ejecutar el análisis del modelo.

Ver modelo: respuesta

volver a la parte superior

Tarea 6: Realizar un análisis del modelo

Ahora que ha revisado los modelos generados, siga estos pasos para ejecutar un análisis de los modelos:

  1. Pase el ratón por encima del nodo Análisis y haga clic en el icono Ejecutar ' Icono de ejecución.
  2. En el panel Salidas y modelos, haga clic en la salida Análisis para ver los resultados.

    La puntuación agregada generada por el modelo ensamblado se muestra en un campo denominado " $XF-response. Cuando se compara con los datos de entrenamiento, el valor predicho coincide con la respuesta real (registrada en el campo original " response ") con una precisión global 92.77. Aunque en este caso no es tan preciso como el mejor de los tres modelos individuales (92,82% para C5.0), la diferencia es demasiado pequeña como para ser significativa. En términos generales, es más probable que un modelo de conjunto se ejecute bien cuando se aplique a conjuntos de datos que no sean los datos de entrenamiento.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra la comparación de modelos que utiliza el nodo Análisis.

Nodo Análisis

volver a la parte superior

Resumen

Con este flujo de ejemplo ' Modelización automatizada de un objetivo bandera, usted utilizó el nodo ' Clasificador automático ' para comparar varios modelos diferentes, utilizó los tres modelos más precisos, y los añadió al flujo dentro de un nugget de modelo Auto Clasificador ensamblado.

  • En función de la precisión global, los modelos Árbol XGBoost, C5.0 y Árbol C&RT han tenido un mejor rendimiento en los datos de entrenamiento.
  • El modelo ensamblado funcionó casi tan bien como el mejor de los modelos individuales y podría funcionar mejor si se aplicara a otros conjuntos de datos. Si su objetivo es automatizar el proceso en la medida de lo posible, este enfoque ayuda a obtener un modelo sólido en la mayoría de las circunstancias sin tener que profundizar en los detalles específicos de cada modelo.

Próximos pasos

Ahora está preparado para probar otros tutorialesSPSS Modeler.

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información