Pruebe el tutorial
En esta guía de aprendizaje, realizará estas tareas:
Ejemplo de flujo de modelización y conjunto de datos
Este tutorial utiliza el flujo Screening Predictors en el proyecto de ejemplo. El fichero de datos utilizado es customer_dbase.csv. La siguiente imagen muestra el flujo del modelador de muestra.
- Sin selección de características. Todos los campos predictores del conjunto de datos se utilizan como entradas del árbol CHAID.
- Con selección de características. El nodo de selección de características se utiliza para seleccionar los 10 mejores predictores. Estos predictores se introducen en el árbol CHAID.
Al comparar los dos modelos de árbol resultantes, se puede ver cómo la selección de características puede producir resultados eficaces.
Tarea 1: Abrir el proyecto de ejemplo
El proyecto de muestra contiene varios conjuntos de datos y flujos de modelado de muestra. Si aún no tiene el proyecto de ejemplo, consulte el tema Tutoriales para crear el proyecto de ejemplo. A continuación, siga estos pasos para abrir el proyecto de ejemplo:
- En ' watsonx, en el menú Navegación ' , seleccione Proyectos > Ver todos los proyectos.
- Haga clic en ProyectoSPSS Modeler.
- Haga clic en la pestaña Activos para ver los conjuntos de datos y los flujos del modelador.
' Comprueba tu progreso
La siguiente imagen muestra la pestaña Activos del proyecto. Ya está preparado para trabajar con el flujo del modelador de ejemplo asociado a este tutorial.
Tarea 2: Examinar los nodos Activo de datos y Tipo
Predictores de cribado incluye varios nodos. Siga estos pasos para examinar los nodos Activo de datos y Tipo:
- En la pestaña Activos, abra el flujo del modelador Predictores de cribado y espere a que se cargue el lienzo.
- Haga doble clic en el nodo customer_dbase.csv. Este nodo es un nodo de Activo de Datos que apunta al archivo customer_dbase.csv en el proyecto.
- Revise las propiedades del formato de archivo.
- Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos completo.
- Haga doble clic en el nodo Tipo. Observe el valor de Función para cada uno de estos campos:
- response_01 se establece en Target
- response_02, response_03 y custid tienen el valor None
- Todos los demás campos están configurados como Entrada
- Pulse en Leer valores.
- Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos con las propiedades de Tipo aplicadas.
- Pulse Guardar.
' Comprueba tu progreso
La siguiente imagen muestra el nodo Tipo. Ya está listo para construir el modelo.
Tarea 3: Construir el modelo
Sigue estos pasos para construir el modelo:
- Haga doble clic en el nodo response_01 (Selección de características) para ver sus propiedades.
- Expanda la sección Opciones de construcción para ver las reglas y criterios definidos que se utilizan para filtrar o descalificar campos.
- Pase el ratón por encima del nodo response_01 (Selección de características) y haga clic en el icono Ejecutar ' .
- En el panel Salidas y modelos, haga clic en el modelo con el nombre response_01 para ver el modelo. Los resultados muestran los campos que se consideran útiles en la predicción, ordenados por importancia. Al examinar estos campos, puede decidir cuáles se utilizarán en las siguientes sesiones de modelado.
Para comparar resultados sin selección de características, debe utilizar dos nodos de modelado CHAID en el flujo: uno que utilice la selección de características y otro que no.
- Haga doble clic en el nodo Con todos los campos (CHAID) para ver sus propiedades.
- En Objetivos, compruebe que están seleccionadas las opciones Crear nuevo modelo y Crear un modelo estándar.
- Despliegue la sección Básica y compruebe que la Profundidad máxima del árbol es Personalizada y que el número de niveles es "
5
".
- Pulse Guardar.
- Haga doble clic en el nodo Uso de los 10 campos principales (CHAID) para ver sus propiedades
- Verifique las mismas propiedades que en el nodo Con todos los campos (CHAID).
- Pulse Guardar.
' Comprueba tu progreso
La siguiente imagen muestra el nodo Modelado. Ya está listo para ejecutar el flujo y ver los resultados.
Tarea 4: Ejecutar el flujo y ver los resultados
Siga estos pasos para ejecutar el flujo y ver los resultados de los dos modelos con y sin selección de características:
- Haga clic en Ejecutar todo '. Mientras se ejecuta, observa cuánto tarda cada modelo en terminar de construirse.
- En el panel Salidas y modelos, haga clic en el modelo con el nombre Con todos los campos para ver los resultados.
- Haga clic en la página Diagrama de árbol.
- Aleja el zoom para ver el alcance del diagrama de árbol.
- Cierre la ventana de detalles del modelo.
- En el panel Salidas y modelos, haga clic en el modelrun con el nombre Uso de los 10 campos principales para ver los resultados.
- Haga clic en la página Diagrama de árbol.
- Aleja el zoom para ver el alcance del diagrama de árbol.
Puede que no sea fácil ver la diferencia, pero el segundo modelo se ha ejecutado más rápido que el primero. Dado que este conjunto de datos es relativamente pequeño, la diferencia en los tiempos de ejecución es probablemente de sólo unos segundos; pero para conjuntos de datos más grandes del mundo real, la diferencia podría ser notable; minutos o incluso horas. Utilizar la selección de características puede acelerar drásticamente los tiempos de procesamiento.
En su lugar, puede utilizar un algoritmo de construcción de árboles para realizar el trabajo de selección de características, permitiendo que el árbol identifique los predictores más importantes para usted. De hecho, el algoritmo CHAID se utiliza con frecuencia para este fin, e incluso es posible aumentar el árbol nivel a nivel para controlar su profundidad y complejidad. Sin embargo, el nodo Selección de rasgos es más rápido y fácil de usar. Clasifica todos los predictores en un rápido paso, ayudándole a identificar rápidamente los campos más importantes.
' Comprueba tu progreso
La siguiente imagen muestra el diagrama de árbol del modelo.
Resumen
El segundo árbol también contiene menos nodos que el primero. Es más fácil de comprender. Utilizar menos predictores resulta más económico. Significa que tiene menos datos que recopilar, procesar y rellenar en los modelos. El tiempo de cálculo se reduce. En este ejemplo, incluso con el paso adicional de selección de características, la generación de modelos era más rápida con el conjunto más pequeño de predictores. Con un conjunto de datos reales más amplio, el ahorro de tiempo podría ser mucho mayor.
Al utilizar menos predictores, la puntuación es más simple. Por ejemplo, es posible que identifique sólo cuatro perfiles de clientes que puedan responder a la promoción. Con un mayor número de predictores, se corre el riesgo de sobreajustar el modelo. El modelo más sencillo podría generalizarse mejor a otros conjuntos de datos (aunque hay que probar este enfoque para estar seguros).
Próximos pasos
Ahora está preparado para probar otros tutorialesSPSS® Modeler.