0 / 0
Volver a la versión inglesa de la documentación
Automatizar la preparación de datos
Última actualización: 12 dic 2024
Automatizar la preparación de datos

Este tutorial ofrece un ejemplo de preparación de datos para el análisis. La preparación de los datos es uno de los pasos más importantes de cualquier proyecto de minería de datos y, tradicionalmente, uno de los que más tiempo lleva. El nodo Auto Data Prep se encarga de la tarea por usted, analizando sus datos e identificando correcciones, filtrando los campos problemáticos o que probablemente no sean útiles, derivando nuevos atributos cuando sea apropiado y mejorando el rendimiento mediante técnicas de filtrado inteligentes.

Puede utilizar el nodo Auto Data Prep de forma totalmente automatizada, permitiendo que el nodo elija y aplique las correcciones, o puede previsualizar los cambios antes de que se realicen y aceptarlos o rechazarlos. Con este nodo, puede preparar los datos para la minería de datos de forma rápida y fácil, sin necesidad de conocer previamente los conceptos estadísticos implicados. Si ejecutas el nodo con la configuración predeterminada, los modelos tienden a construirse y puntuar más rápidamente.

Pruebe el tutorial

En esta guía de aprendizaje, realizará estas tareas:

Ejemplo de flujo de modelización y conjunto de datos

Este tutorial utiliza el flujo de Preparación automatizada de datos del proyecto de ejemplo. El archivo de datos utilizado es telco.csv. Este ejemplo demuestra la mayor precisión que puede encontrar utilizando la configuración predeterminada del nodo Auto Data Prep al construir modelos. La siguiente imagen muestra el flujo del modelador de muestra.

Figura 1. Flujo del modelador de muestras
Flujo de ejemplo Preparación de datos automática
La siguiente imagen muestra el conjunto de datos de muestra.
Figura 2. Muestra de datos
Muestra de datos

Tarea 1: Abrir el proyecto de ejemplo

El proyecto de muestra contiene varios conjuntos de datos y flujos de modelado de muestra. Si aún no tiene el proyecto de ejemplo, consulte el tema Tutoriales para crear el proyecto de ejemplo. A continuación, siga estos pasos para abrir el proyecto de ejemplo:

  1. En ' watsonx, en el menú Navegación ' Menú de navegación, seleccione Proyectos > Ver todos los proyectos.
  2. Haga clic en ProyectoSPSS Modeler.
  3. Haga clic en la pestaña Activos para ver los conjuntos de datos y los flujos del modelador.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra la pestaña Activos del proyecto. Ya está preparado para trabajar con el flujo del modelador de ejemplo asociado a este tutorial.

Proyecto de ejemplo

volver a la parte superior

Tarea 2: Examinar los nodos Activo de datos y Tipo

La preparación automatizada de datos incluye varios nodos. Siga estos pasos para examinar los nodos Activo de datos y Tipo:

  1. En la pestaña Activos, abra el flujo del modelador Preparación automatizada de datos y espere a que se cargue el lienzo.
  2. Haga doble clic en el nodo telco.csv. Este nodo es un nodo de Activos de Datos que apunta al archivo telco.csv en el proyecto.
  3. Revise las propiedades del formato de archivo.
  4. Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos completo.
  5. Haga doble clic en el nodo Tipo. Observe que la medida para el campo " churn " está establecida en Flag, y el rol está establecido en Target. Asegúrese de que la función de todos los demás campos es Entrada.
    Figura 3. Establecer el nivel de medición y el rol
    Establecer el nivel de medición y el rol
  6. Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos con las propiedades de Tipo aplicadas.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el nodo Tipo. Ya está listo para construir el modelo.

Nodo Tipo

volver a la parte superior

Tarea 3: Construir los modelos

Construirá dos modelos, uno sin preparación automatizada de datos y otro con preparación automatizada de datos. Sigue estos pasos para construir los modelos:

  1. Haga doble clic en el nodo No ADP - churn que está conectado al nodo Tipo para ver sus propiedades.
    1. Despliegue la sección Configuración del modelo
    2. Compruebe que el Procedimiento está configurado como Binomial.
    3. Compruebe que el Nombre del modelo está configurado como Personalizado, y que el nombre es ' No ADP - churn.
      Figura 4. Nodo logístico Sección de configuración del modelo
      Elegir opciones de modelo
  2. Pase el ratón por encima del nodo No ADP - churn y haga clic en el icono Ejecutar ' Icono de ejecución.
  3. En el panel Resultados y modelos, haga clic en el modelo con el nombre No ADP - churn para ver los resultados.
    1. Ver la página Resumen del modelo, que muestra los campos de predicción utilizados por el modelo y el porcentaje de predicciones correctas.
    2. Ver el Resumen de procesamiento de casos, que muestra el número y el porcentaje de registros que se incluyen en el análisis. Además, muestra el número de casos perdidos (si los hay) en los que uno o varios campos de entrada no están disponibles y los casos que no se seleccionaron.
    3. Cierre los detalles del modelo.
  4. Haga doble clic en el nodo Auto Data Prep que está conectado al nodo Type para ver sus propiedades. La preparación automatizada de datos se encarga de la tarea de preparación de datos por usted, analizando sus datos e identificando correcciones, filtrando campos problemáticos o que probablemente no sean útiles, derivando nuevos atributos cuando proceda y mejorando el rendimiento mediante técnicas de filtrado inteligentes.
    1. En la sección Objetivos, deje la configuración predeterminada para analizar y preparar sus datos equilibrando velocidad y precisión. Otras propiedades del nodo Preparación automática de datos ofrecen la opción de especificar que desea concentrarse más en la precisión, más en la velocidad de procesamiento o ajustar con precisión muchos de los pasos de procesamiento para la preparación de datos.
      Nota: Si desea ajustar las propiedades de los nodos y volver a ejecutar el flujo en el futuro, puesto que el modelo ya existe, primero debe hacer clic en Borrar análisis antiguo, en Objetivos antes de volver a ejecutar el flujo.
    2. Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos con las propiedades de Preparación automática de datos aplicadas.
    3. Haz clic en Cancelar.
  5. Haga doble clic en el nodo After ADP - churn que está conectado al nodo Auto Data Prep para ver sus propiedades.
    1. Despliegue la sección Configuración del modelo
    2. Compruebe que el Procedimiento está configurado como Binomial.
    3. Compruebe que el Nombre del modelo está configurado como Personalizado, y que el nombre es ' After ADP - churn.
  6. Pase el ratón por encima del nodo After ADP - churn y haga clic en el icono Run ' Icono de ejecución.
  7. En el panel Resultados y modelos, haga clic en el modelo con el nombre Después de ADP - churn para ver los resultados.
    1. Ver la página Resumen del modelo, que muestra los campos de predicción utilizados por el modelo y el porcentaje de predicciones correctas.
    2. Ver el Resumen de procesamiento de casos, que muestra el número y el porcentaje de registros que se incluyen en el análisis. Además, muestra el número de casos perdidos (si los hay) en los que uno o varios campos de entrada no están disponibles y los casos que no se seleccionaron.
    3. Cierre los detalles del modelo.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra los detalles del modelo. Ya puedes comparar los modelos.

Detalles del modelo

volver a la parte superior

Tarea 4: Comparar los modelos

Ahora que ambos modelos están configurados, siga estos pasos para generar y comparar los modelos:

  1. Pase el ratón por encima del nodo No ADP - LogReg (Análisis) y haga clic en el icono Ejecutar ' Icono de ejecución.
  2. Pase el ratón por encima del nodo After ADP - LogReg (Analysis) y haga clic en el icono Run ' Icono de ejecución.
  3. En el panel Salidas y modelos, haga clic en los resultados de salida con el nombre No ADP - LogReg para ver los resultados.
  4. Compara los modelos:
    1. Haz clic en Comparar.
    2. En el campo Seleccionar salida, seleccione Después de ADP - LogReg.
    El análisis del modelo no derivado de Auto Data Prep muestra que el simple paso de los datos por el nodo de Regresión Logística con su configuración por defecto da un modelo con una precisión baja: sólo 10.6.
    Figura 5. Resultados del modelo no derivado de ADP
    Resultados del modelo no derivado de ADP
    El análisis del modelo derivado de Auto-Data Prep muestra que al ejecutar los datos a través de la configuración por defecto ' Auto Data Prep, se ha construido un modelo mucho más preciso que es ' 78.3% correcto.
    Figura 6. Resultados del modelo derivado de ADP
    Resultados del modelo derivado de ADP

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra la comparación de modelos.

Comparar modelos

volver a la parte superior

Resumen

Al ejecutar el nodo Auto Data Prep para afinar el procesamiento de sus datos, pudo construir un modelo más preciso con poca manipulación directa de los datos.

Obviamente, si estás interesado en demostrar o refutar una determinada teoría, o quieres construir modelos específicos, puede que te resulte beneficioso trabajar directamente con la configuración del modelo. Sin embargo, si dispone de poco tiempo o de una gran cantidad de datos que preparar, el nodo Auto Data Prep puede suponerle una ventaja.

Los resultados de este ejemplo se basan únicamente en los datos de entrenamiento. Para evaluar el grado de generalización de los modelos a otros datos del mundo real, puede utilizar un nodo Partición para mantener un subconjunto de registros con fines de prueba y validación.

Próximos pasos

Ahora está preparado para probar otros tutorialesSPSS® Modeler.

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información