' Este tutorial utiliza el nodo Selección de características para ayudarle a identificar los campos que son más importantes para predecir un determinado resultado. A partir de un conjunto de cientos o incluso miles de predictores, el nodo Selección de características criba, clasifica y selecciona los predictores que pueden ser más importantes. En última instancia, es posible que obtenga un modelo más rápido y eficaz, que utilice menos predictores, que se ejecute más rápidamente y que sea más fácil de entender.
Vista previa de la guía de aprendizaje
Copy link to section
Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber ligeras diferencias en la interfaz de usuario que se muestra en el vídeo. El vídeo pretende ser un complemento del tutorial escrito. Este vídeo ofrece un método visual para aprender los conceptos y tareas de esta documentación.
Pruebe el tutorial
Copy link to section
En esta guía de aprendizaje, realizará estas tareas:
Ejemplo de flujo de modelización y conjunto de datos
Copy link to section
Este tutorial utiliza el flujo Screening Predictors en el proyecto de ejemplo. El fichero de datos utilizado es customer_dbase.csv. La siguiente imagen muestra el flujo del modelador de muestra.
Figura 1. Flujo del modelador de muestras
Este ejemplo se centra solamente en una de las ofertas como objetivo. Utiliza el nodo de construcción de árboles CHAID para desarrollar un modelo que describa qué clientes tienen más probabilidades de responder a la promoción. Contrasta dos enfoques:
Sin selección de características. Todos los campos predictores del conjunto de datos se utilizan como entradas del árbol CHAID.
Con selección de características. El nodo de selección de características se utiliza para seleccionar los 10 mejores predictores. Estos predictores se introducen en el árbol CHAID.
Al comparar los dos modelos de árbol resultantes, se puede ver cómo la selección de características puede producir resultados eficaces.
La siguiente imagen muestra el conjunto de datos de muestra.Figura 2. Muestra de datos
Tarea 1: Abrir el proyecto de ejemplo
Copy link to section
El proyecto de muestra contiene varios conjuntos de datos y flujos de modelado de muestra. Si aún no tiene el proyecto de muestra, consulte el tema Tutoriales para crear el proyecto de muestra. A continuación, siga estos pasos para abrir el proyecto de ejemplo:
En watsonx, en el menú de navegación, elija Proyectos > Ver todos los proyectos.
Haga clic en ProyectoSPSS Modeler.
Haga clic en la pestaña Activos para ver los conjuntos de datos y los flujos del modelador.
Compruebe su progreso
La siguiente imagen muestra la pestaña Activos del proyecto. Ya está preparado para trabajar con el flujo del modelador de ejemplo asociado a este tutorial.
Haga doble clic en el nodo response_01 (Selección de características) para ver sus propiedades.
Expanda la sección Opciones de construcción para ver las reglas y criterios definidos que se utilizan para filtrar o descalificar campos.Figura 4. Selección de características Opciones de construcción
Pase el cursor sobre el nodo Selección de funciones ( response_01 ) y haga clic en el icono Ejecutar (Run).
En el panel Salidas y modelos, haga clic en el modelo con el nombre response_01 para ver el modelo. Los resultados muestran los campos que se consideran útiles en la predicción, ordenados por importancia. Al examinar estos campos, puede decidir cuáles se utilizarán en las siguientes sesiones de modelado.
Para comparar resultados sin selección de características, debe utilizar dos nodos de modelado CHAID en el flujo: uno que utilice la selección de características y otro que no.
Haga doble clic en el nodo Con todos los campos (CHAID) para ver sus propiedades.
En Objetivos, compruebe que están seleccionadas las opciones Crear nuevo modelo y Crear un modelo estándar.
Despliegue la sección Básica y compruebe que la Profundidad máxima del árbol es Personalizada y que el número de niveles es " 5".
Pulse Guardar.
Haga doble clic en el nodo Uso de los 10 campos principales (CHAID) para ver sus propiedades
Verifique las mismas propiedades que en el nodo Con todos los campos (CHAID).
Pulse Guardar.
Compruebe su progreso
La siguiente imagen muestra el nodo Modelado. Ya está listo para ejecutar el flujo y ver los resultados.
Siga estos pasos para ejecutar el flujo y ver los resultados de los dos modelos con y sin selección de características:
Haga clic en Ejecutar todos los. Mientras se ejecuta, observa cuánto tarda cada modelo en terminar de construirse.
En el panel Salidas y modelos, haga clic en el modelo con el nombre Con todos los campos para ver los resultados.
Haga clic en la página Diagrama de árbol.
Aleja el zoom para ver el alcance del diagrama de árbol.
Cierre la ventana de detalles del modelo.
En el panel Salidas y modelos, haga clic en el modelrun con el nombre Uso de los 10 campos principales para ver los resultados.
Haga clic en la página Diagrama de árbol.
Aleja el zoom para ver el alcance del diagrama de árbol.
Puede que no sea fácil ver la diferencia, pero el segundo modelo se ha ejecutado más rápido que el primero. Dado que este conjunto de datos es relativamente pequeño, la diferencia en los tiempos de ejecución es probablemente de sólo unos segundos; pero para conjuntos de datos más grandes del mundo real, la diferencia podría ser notable; minutos o incluso horas. Utilizar la selección de características puede acelerar drásticamente los tiempos de procesamiento.
En su lugar, puede utilizar un algoritmo de construcción de árboles para realizar el trabajo de selección de características, permitiendo que el árbol identifique los predictores más importantes para usted. De hecho, el algoritmo CHAID se utiliza con frecuencia para este fin, e incluso es posible aumentar el árbol nivel a nivel para controlar su profundidad y complejidad. Sin embargo, el nodo Selección de rasgos es más rápido y fácil de usar. Clasifica todos los predictores en un rápido paso, ayudándole a identificar rápidamente los campos más importantes.
Compruebe su progreso
La siguiente imagen muestra el diagrama de árbol del modelo.
El segundo árbol también contiene menos nodos que el primero. Es más fácil de comprender. Utilizar menos predictores resulta más económico. Significa que tiene menos datos que recopilar, procesar y rellenar en los modelos. El tiempo de cálculo se reduce. En este ejemplo, incluso con el paso adicional de selección de características, la generación de modelos era más rápida con el conjunto más pequeño de predictores. Con un conjunto de datos reales más amplio, el ahorro de tiempo podría ser mucho mayor.
Al utilizar menos predictores, la puntuación es más simple. Por ejemplo, es posible que identifique sólo cuatro perfiles de clientes que puedan responder a la promoción. Con un mayor número de predictores, se corre el riesgo de sobreajustar el modelo. El modelo más sencillo podría generalizarse mejor a otros conjuntos de datos (aunque hay que probar este enfoque para estar seguros).
Acerca de las cookies de este sitioNuestros sitios web necesitan algunas cookies para funcionar correctamente (necesarias). Además, se pueden utilizar otras cookies con su consentimiento para analizar el uso del sitio, para mejorar la experiencia del usuario y para publicidad.Para obtener más información, consulte sus opciones de preferencias de cookies. Al visitar nuestro sitio web, acepta que procesemos la información tal y como se describe en ladeclaración de privacidad de IBM.Para facilitar la navegación, sus preferencias de cookies se compartirán entre los dominios web de IBM que se muestran aquí.