Antes de empezar a extraer datos y crear modelos en SPSS Modeler, necesita preparar sus datos. Preparar los datos significa tomarse el tiempo necesario para comprenderlos y procesarlos de modo que estén optimizados para su uso en la minería de datos.
La calidad de sus datos puede determinar la calidad de sus modelos. La preparación de los datos garantiza que estén limpios y listos para el análisis.
SPSS Modeler se basa en la metodología CRISP-DM (Cross-Industry Standard Process for Data Mining). que tiene las siguientes fases.
- Comprensión del negocio
- Comprensión de los datos
- Preparación de datos
- Modelado
- Evaluación
- Despliegue
En las tres primeras fases se recopilan, evalúan y preparan los datos. Parte de este trabajo puede realizarse en SPSS Modeler, pero parte del trabajo en estas fases tiene lugar incluso antes de trabajar en SPSS Modeler.
Comprensión del negocio
Antes de comenzar en SPSS Modeler, es importante obtener la mayor información posible sobre los objetivos empresariales para la minería de datos. Por ejemplo, entender la perspectiva de negocio para determinar los puntos de dolor, los requisitos del proyecto, los objetivos de negocio para la minería de datos, y cómo la minería de datos puede proporcionar información útil que resuelva los problemas de negocio.
Esta fase de recopilación y preparación de datos se realiza fuera de SPSS Modeler. Pero este trabajo puede determinar qué datos hay que recopilar y en cuáles merece la pena centrarse.
Comprensión de los datos
Comprender los datos implica evaluarlos y explorarlos para determinar su calidad. Tómese su tiempo para comprender la estructura de los datos, las relaciones y los patrones utilizando técnicas como la visualización de datos, las estadísticas resumidas y el análisis de correlación. Este paso es fundamental para evitar problemas inesperados durante la preparación de los datos.
SPSS Modeler tiene un nodo de Auditoría, que puede utilizar para un primer vistazo exhaustivo de los datos. Puede generar información como estadísticas resumidas, histogramas, diagramas de caja, gráficos de barras, gráficos circulares, etc. Esta información puede ser útil para obtener una comprensión preliminar de los datos. También es capaz de generar información sobre valores atípicos, extremos y ausentes.
Si tienes acceso a estos otros servicios en Cloud Pak for Data, también pueden serte útiles;
- Data Refinery
- Puede utilizar Data Refinery para comprender y visualizar sus datos.
- MANTA Automated Data Lineage
- Puede utilizar MANTA Automated Data Lineage para rastrear y encontrar el origen de los datos.
- RStudio®
- RStudio es útil para ejecutar comandos en R para explorar sus datos.
Preparación de datos
La preparación de los datos es una de las partes más importantes de la minería de datos, y puede suponer una parte importante del trabajo necesario para el proyecto en su conjunto. Esforzarse en las fases previas de comprensión del negocio y de los datos puede minimizar parte de este trabajo, pero aún así hay que esforzarse en preparar y empaquetar los datos para la minería.
Realiza las siguientes actividades para preparar tus datos. Estas actividades son necesarias para garantizar que los datos estén bien preparados, limpios y listos para el análisis.
- limpieza de datos
- Es esencial para gestionar los valores que faltan, eliminar duplicados y corregir problemas de formato.
- Transformación de datos
- Estandarice y normalice sus datos para garantizar la coherencia y reducir el ruido. Estos pasos pueden incluir el escalado, la normalización de la puntuación z o la codificación de una sola vez.
- Reducción de datos
- Reduzca la dimensionalidad de sus datos seleccionando las características más relevantes. Puede utilizar técnicas como el análisis de componentes principales (PCA), el análisis discriminante lineal (LDA) o la incrustación estocástica de vecinos distribuida en t (t-SNE).
- Integración de datos
- Fusione datos de distintas fuentes para crear una visión más completa de sus datos. Puede que necesite unir tablas, fusionar conjuntos de datos o utilizar técnicas de fusión de datos.
- Validación de datos
- Valide sus datos para asegurarse de que son precisos y fiables. Puede comprobar si hay valores atípicos, evaluar la variabilidad o comparar los datos con fuentes externas.
- Almacenamiento de datos
- Almacene sus datos de forma segura, accesible y reproducible. Puedes utilizar bases de datos, almacenes de datos o soluciones de almacenamiento en la nube para guardar tus datos.
SPSS Modeler tiene varios nodos que puede utilizar para estas actividades de preparación de datos. Puede utilizar una combinación de nodos de Operaciones de Registro y nodos de Operaciones de Campo para crear flujos que preparen los datos.
Si tiene acceso a los siguientes servicios, también puede utilizarlos para preparar los datos.
- Data Refinery
- Puede utilizar Data Refinery para limpiar y transformar datos sin necesidad de conocimientos de programación.
- DataStage
- Puede utilizar DataStage para la integración de datos y el desarrollo de flujos que procesen y transformen datos.
- IBM® Knowledge Catalog
- Puede utilizar IBM Knowledge Catalog para analizar y mejorar la calidad de los datos, así como para asignar clasificaciones, clases de datos y términos empresariales a sus activos de datos
- RStudio
- Puede utilizar RStudio para ejecutar comandos en R para explorar sus datos.
Aunque los datos no sean suyos, los usuarios deben realizar las mismas actividades para comprenderlos.