Este tutorial ofrece un ejemplo de preparación de datos para el análisis. La preparación de los datos es uno de los pasos más importantes de cualquier proyecto de minería de datos y, tradicionalmente, uno de los que más tiempo lleva. El nodo Auto Data Prep se encarga de la tarea por usted, analizando sus datos e identificando correcciones, filtrando los campos problemáticos o que probablemente no sean útiles, derivando nuevos atributos cuando sea apropiado y mejorando el rendimiento mediante técnicas de filtrado inteligentes.
Puede utilizar el nodo Auto Data Prep de forma totalmente automatizada, permitiendo que el nodo elija y aplique las correcciones, o puede previsualizar los cambios antes de que se realicen y aceptarlos o rechazarlos. Con este nodo, puede preparar los datos para la minería de datos de forma rápida y fácil, sin necesidad de conocer previamente los conceptos estadísticos implicados. Si ejecutas el nodo con la configuración predeterminada, los modelos tienden a construirse y puntuar más rápidamente.
Pruebe el tutorial
En esta guía de aprendizaje, realizará estas tareas:
Ejemplo de flujo de modelización y conjunto de datos
Este tutorial utiliza el flujo de Preparación automatizada de datos del proyecto de ejemplo. El archivo de datos utilizado es telco.csv. Este ejemplo demuestra la mayor precisión que puede encontrar utilizando la configuración predeterminada del nodo Auto Data Prep al construir modelos. La siguiente imagen muestra el flujo del modelador de muestra.
Tarea 1: Abrir el proyecto de ejemplo
El proyecto de muestra contiene varios conjuntos de datos y flujos de modelado de muestra. Si aún no tiene el proyecto de ejemplo, consulte el tema Tutoriales para crear el proyecto de ejemplo. A continuación, siga estos pasos para abrir el proyecto de ejemplo:
- En ' watsonx, en el menú Navegación ' , seleccione Proyectos > Ver todos los proyectos.
- Haga clic en ProyectoSPSS Modeler.
- Haga clic en la pestaña Activos para ver los conjuntos de datos y los flujos del modelador.
' Comprueba tu progreso
La siguiente imagen muestra la pestaña Activos del proyecto. Ya está preparado para trabajar con el flujo del modelador de ejemplo asociado a este tutorial.
Tarea 2: Examinar los nodos Activo de datos y Tipo
La preparación automatizada de datos incluye varios nodos. Siga estos pasos para examinar los nodos Activo de datos y Tipo:
- En la pestaña Activos, abra el flujo del modelador Preparación automatizada de datos y espere a que se cargue el lienzo.
- Haga doble clic en el nodo telco.csv. Este nodo es un nodo de Activos de Datos que apunta al archivo telco.csv en el proyecto.
- Revise las propiedades del formato de archivo.
- Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos completo.
- Haga doble clic en el nodo Tipo. Observe que la medida para el campo "
churn
" está establecida en Flag, y el rol está establecido en Target. Asegúrese de que la función de todos los demás campos es Entrada. - Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos con las propiedades de Tipo aplicadas.
' Comprueba tu progreso
La siguiente imagen muestra el nodo Tipo. Ya está listo para construir el modelo.
Tarea 3: Construir los modelos
Construirá dos modelos, uno sin preparación automatizada de datos y otro con preparación automatizada de datos. Sigue estos pasos para construir los modelos:
- Haga doble clic en el nodo No ADP - churn que está conectado al nodo Tipo para ver sus propiedades.
- Despliegue la sección Configuración del modelo
- Compruebe que el Procedimiento está configurado como Binomial.
- Compruebe que el Nombre del modelo está configurado como Personalizado, y que el nombre es ' No ADP - churn.
- Pase el ratón por encima del nodo No ADP - churn y haga clic en el icono Ejecutar ' .
- En el panel Resultados y modelos, haga clic en el modelo con el nombre No ADP - churn para ver los resultados.
- Ver la página Resumen del modelo, que muestra los campos de predicción utilizados por el modelo y el porcentaje de predicciones correctas.
- Ver el Resumen de procesamiento de casos, que muestra el número y el porcentaje de registros que se incluyen en el análisis. Además, muestra el número de casos perdidos (si los hay) en los que uno o varios campos de entrada no están disponibles y los casos que no se seleccionaron.
- Cierre los detalles del modelo.
- Haga doble clic en el nodo Auto Data Prep que está conectado al nodo Type para ver sus propiedades. La preparación automatizada de datos se encarga de la tarea de preparación de datos por usted, analizando sus datos e identificando correcciones, filtrando campos problemáticos o que probablemente no sean útiles, derivando nuevos atributos cuando proceda y mejorando el rendimiento mediante técnicas de filtrado inteligentes.
- En la sección Objetivos, deje la configuración predeterminada para analizar y preparar sus datos equilibrando velocidad y precisión. Otras propiedades del nodo Preparación automática de datos ofrecen la opción de especificar que desea concentrarse más en la precisión, más en la velocidad de procesamiento o ajustar con precisión muchos de los pasos de procesamiento para la preparación de datos.Nota: Si desea ajustar las propiedades de los nodos y volver a ejecutar el flujo en el futuro, puesto que el modelo ya existe, primero debe hacer clic en Borrar análisis antiguo, en Objetivos antes de volver a ejecutar el flujo.
- Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos con las propiedades de Preparación automática de datos aplicadas.
- Haz clic en Cancelar.
- En la sección Objetivos, deje la configuración predeterminada para analizar y preparar sus datos equilibrando velocidad y precisión. Otras propiedades del nodo Preparación automática de datos ofrecen la opción de especificar que desea concentrarse más en la precisión, más en la velocidad de procesamiento o ajustar con precisión muchos de los pasos de procesamiento para la preparación de datos.
- Haga doble clic en el nodo After ADP - churn que está conectado al nodo Auto Data Prep para ver sus propiedades.
- Despliegue la sección Configuración del modelo
- Compruebe que el Procedimiento está configurado como Binomial.
- Compruebe que el Nombre del modelo está configurado como Personalizado, y que el nombre es ' After ADP - churn.
- Pase el ratón por encima del nodo After ADP - churn y haga clic en el icono Run ' .
- En el panel Resultados y modelos, haga clic en el modelo con el nombre Después de ADP - churn para ver los resultados.
- Ver la página Resumen del modelo, que muestra los campos de predicción utilizados por el modelo y el porcentaje de predicciones correctas.
- Ver el Resumen de procesamiento de casos, que muestra el número y el porcentaje de registros que se incluyen en el análisis. Además, muestra el número de casos perdidos (si los hay) en los que uno o varios campos de entrada no están disponibles y los casos que no se seleccionaron.
- Cierre los detalles del modelo.
' Comprueba tu progreso
La siguiente imagen muestra los detalles del modelo. Ya puedes comparar los modelos.
Tarea 4: Comparar los modelos
Ahora que ambos modelos están configurados, siga estos pasos para generar y comparar los modelos:
- Pase el ratón por encima del nodo No ADP - LogReg (Análisis) y haga clic en el icono Ejecutar ' .
- Pase el ratón por encima del nodo After ADP - LogReg (Analysis) y haga clic en el icono Run ' .
- En el panel Salidas y modelos, haga clic en los resultados de salida con el nombre No ADP - LogReg para ver los resultados.
- Compara los modelos:
- Haz clic en Comparar.
- En el campo Seleccionar salida, seleccione Después de ADP - LogReg.
El análisis del modelo no derivado de Auto Data Prep muestra que el simple paso de los datos por el nodo de Regresión Logística con su configuración por defecto da un modelo con una precisión baja: sólo 10.6.El análisis del modelo derivado de Auto-Data Prep muestra que al ejecutar los datos a través de la configuración por defecto ' Auto Data Prep, se ha construido un modelo mucho más preciso que es ' 78.3% correcto.
' Comprueba tu progreso
La siguiente imagen muestra la comparación de modelos.
Resumen
Al ejecutar el nodo Auto Data Prep para afinar el procesamiento de sus datos, pudo construir un modelo más preciso con poca manipulación directa de los datos.
Obviamente, si estás interesado en demostrar o refutar una determinada teoría, o quieres construir modelos específicos, puede que te resulte beneficioso trabajar directamente con la configuración del modelo. Sin embargo, si dispone de poco tiempo o de una gran cantidad de datos que preparar, el nodo Auto Data Prep puede suponerle una ventaja.
Los resultados de este ejemplo se basan únicamente en los datos de entrenamiento. Para evaluar el grado de generalización de los modelos a otros datos del mundo real, puede utilizar un nodo Partición para mantener un subconjunto de registros con fines de prueba y validación.
Próximos pasos
Ahora está preparado para probar otros tutorialesSPSS® Modeler.