0 / 0
Volver a la versión inglesa de la documentación
Predictores de pantalla
Última actualización: 12 dic 2024
Predictores de pantalla
' Este tutorial utiliza el nodo Selección de características para ayudarle a identificar los campos que son más importantes para predecir un determinado resultado. A partir de un conjunto de cientos o incluso miles de predictores, el nodo Selección de características criba, clasifica y selecciona los predictores que pueden ser más importantes. En última instancia, es posible que obtenga un modelo más rápido y eficaz, que utilice menos predictores, que se ejecute más rápidamente y que sea más fácil de entender.

Pruebe el tutorial

En esta guía de aprendizaje, realizará estas tareas:

Ejemplo de flujo de modelización y conjunto de datos

Este tutorial utiliza el flujo Screening Predictors en el proyecto de ejemplo. El fichero de datos utilizado es customer_dbase.csv. La siguiente imagen muestra el flujo del modelador de muestra.

Figura 1. Flujo del modelador de muestras
Flujo de trabajo Selección de características
Este ejemplo se centra solamente en una de las ofertas como objetivo. Utiliza el nodo de construcción de árboles CHAID para desarrollar un modelo que describa qué clientes tienen más probabilidades de responder a la promoción. Contrasta dos enfoques:
  • Sin selección de características. Todos los campos predictores del conjunto de datos se utilizan como entradas del árbol CHAID.
  • Con selección de características. El nodo de selección de características se utiliza para seleccionar los 10 mejores predictores. Estos predictores se introducen en el árbol CHAID.

Al comparar los dos modelos de árbol resultantes, se puede ver cómo la selección de características puede producir resultados eficaces.

La siguiente imagen muestra el conjunto de datos de muestra.
Figura 2. Muestra de datos
Muestra de datos

Tarea 1: Abrir el proyecto de ejemplo

El proyecto de muestra contiene varios conjuntos de datos y flujos de modelado de muestra. Si aún no tiene el proyecto de ejemplo, consulte el tema Tutoriales para crear el proyecto de ejemplo. A continuación, siga estos pasos para abrir el proyecto de ejemplo:

  1. En ' watsonx, en el menú Navegación ' Menú de navegación, seleccione Proyectos > Ver todos los proyectos.
  2. Haga clic en ProyectoSPSS Modeler.
  3. Haga clic en la pestaña Activos para ver los conjuntos de datos y los flujos del modelador.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra la pestaña Activos del proyecto. Ya está preparado para trabajar con el flujo del modelador de ejemplo asociado a este tutorial.

Proyecto de ejemplo

volver a la parte superior

Tarea 2: Examinar los nodos Activo de datos y Tipo

Predictores de cribado incluye varios nodos. Siga estos pasos para examinar los nodos Activo de datos y Tipo:

  1. En la pestaña Activos, abra el flujo del modelador Predictores de cribado y espere a que se cargue el lienzo.
  2. Haga doble clic en el nodo customer_dbase.csv. Este nodo es un nodo de Activo de Datos que apunta al archivo customer_dbase.csv en el proyecto.
  3. Revise las propiedades del formato de archivo.
  4. Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos completo.
  5. Haga doble clic en el nodo Tipo. Observe el valor de Función para cada uno de estos campos:
    • response_01 se establece en Target
    • response_02, response_03 y custid tienen el valor None
    • Todos los demás campos están configurados como Entrada
    Figura 3. Niveles de medición del nodo de tipo
    Nodo Tipo
  6. Pulse en Leer valores.
  7. Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos con las propiedades de Tipo aplicadas.
  8. Pulse Guardar.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el nodo Tipo. Ya está listo para construir el modelo.

Nodo Tipo

volver a la parte superior

Tarea 3: Construir el modelo

Sigue estos pasos para construir el modelo:

  1. Haga doble clic en el nodo response_01 (Selección de características) para ver sus propiedades.
  2. Expanda la sección Opciones de construcción para ver las reglas y criterios definidos que se utilizan para filtrar o descalificar campos.
    Figura 4. Selección de características Opciones de construcción
    Opciones de construcción para el nodo de selección de características
  3. Pase el ratón por encima del nodo response_01 (Selección de características) y haga clic en el icono Ejecutar ' Icono de ejecución.
  4. En el panel Salidas y modelos, haga clic en el modelo con el nombre response_01 para ver el modelo. Los resultados muestran los campos que se consideran útiles en la predicción, ordenados por importancia. Al examinar estos campos, puede decidir cuáles se utilizarán en las siguientes sesiones de modelado.

    Para comparar resultados sin selección de características, debe utilizar dos nodos de modelado CHAID en el flujo: uno que utilice la selección de características y otro que no.

  5. Haga doble clic en el nodo Con todos los campos (CHAID) para ver sus propiedades.
    1. En Objetivos, compruebe que están seleccionadas las opciones Crear nuevo modelo y Crear un modelo estándar.
    2. Despliegue la sección Básica y compruebe que la Profundidad máxima del árbol es Personalizada y que el número de niveles es " 5".
  6. Pulse Guardar.
  7. Haga doble clic en el nodo Uso de los 10 campos principales (CHAID) para ver sus propiedades
    1. Verifique las mismas propiedades que en el nodo Con todos los campos (CHAID).
    2. Pulse Guardar.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el nodo Modelado. Ya está listo para ejecutar el flujo y ver los resultados.

Nodo CHAID

volver a la parte superior

Tarea 4: Ejecutar el flujo y ver los resultados

Siga estos pasos para ejecutar el flujo y ver los resultados de los dos modelos con y sin selección de características:

  1. Haga clic en Ejecutar todo 'Icono de ejecución. Mientras se ejecuta, observa cuánto tarda cada modelo en terminar de construirse.
  2. En el panel Salidas y modelos, haga clic en el modelo con el nombre Con todos los campos para ver los resultados.
    1. Haga clic en la página Diagrama de árbol.
    2. Aleja el zoom para ver el alcance del diagrama de árbol.
    3. Cierre la ventana de detalles del modelo.
  3. En el panel Salidas y modelos, haga clic en el modelrun con el nombre Uso de los 10 campos principales para ver los resultados.
    1. Haga clic en la página Diagrama de árbol.
    2. Aleja el zoom para ver el alcance del diagrama de árbol.

    Puede que no sea fácil ver la diferencia, pero el segundo modelo se ha ejecutado más rápido que el primero. Dado que este conjunto de datos es relativamente pequeño, la diferencia en los tiempos de ejecución es probablemente de sólo unos segundos; pero para conjuntos de datos más grandes del mundo real, la diferencia podría ser notable; minutos o incluso horas. Utilizar la selección de características puede acelerar drásticamente los tiempos de procesamiento.

    En su lugar, puede utilizar un algoritmo de construcción de árboles para realizar el trabajo de selección de características, permitiendo que el árbol identifique los predictores más importantes para usted. De hecho, el algoritmo CHAID se utiliza con frecuencia para este fin, e incluso es posible aumentar el árbol nivel a nivel para controlar su profundidad y complejidad. Sin embargo, el nodo Selección de rasgos es más rápido y fácil de usar. Clasifica todos los predictores en un rápido paso, ayudándole a identificar rápidamente los campos más importantes.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el diagrama de árbol del modelo.

Ver modelo Diagrama de árbol

volver a la parte superior

Resumen

El segundo árbol también contiene menos nodos que el primero. Es más fácil de comprender. Utilizar menos predictores resulta más económico. Significa que tiene menos datos que recopilar, procesar y rellenar en los modelos. El tiempo de cálculo se reduce. En este ejemplo, incluso con el paso adicional de selección de características, la generación de modelos era más rápida con el conjunto más pequeño de predictores. Con un conjunto de datos reales más amplio, el ahorro de tiempo podría ser mucho mayor.

Al utilizar menos predictores, la puntuación es más simple. Por ejemplo, es posible que identifique sólo cuatro perfiles de clientes que puedan responder a la promoción. Con un mayor número de predictores, se corre el riesgo de sobreajustar el modelo. El modelo más sencillo podría generalizarse mejor a otros conjuntos de datos (aunque hay que probar este enfoque para estar seguros).

Próximos pasos

Ahora está preparado para probar otros tutorialesSPSS® Modeler.

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información