Fases del proyecto de minería de datos en SPSS Modeler
El flujo de trabajo de SPSS Modeler se basa en la metodología CRISP-DM (Cross-Industry Standard Process for Data Mining). Esta metodología integra su trabajo en SPSS Modeler en un proyecto más amplio con varias fases. Las fases en las que trabaja en SPSS Modeler utilizan proyectos para gestionar su trabajo y sus activos.
Figura 1. Fases de los proyectos SPSS Modeler
Fases de la extracción de datos
Copy link to section
La metodología CRISP-DM consta de las siguientes fases.
Comprensión del negocio
Durante esta fase, intente conocer lo mejor posible los objetivos empresariales de la extracción de datos. Reúnase con las partes interesadas y determine cómo su trabajo con SPSS Modeler aborda los objetivos o problemas empresariales.
Necesita recopilar y comprender sus datos antes de crear flujos en SPSS Modeler. Dedique tiempo a comprender la estructura, las relaciones y los patrones de sus datos.
Necesita preparar sus datos antes de entrenar modelos en SPSS Modeler. Tómese el tiempo necesario para procesar sus datos de modo que estén optimizados para su uso en la minería de datos.
Evalúe la calidad de sus modelos y sus predicciones. Por ejemplo, puede añadir nodos de análisis a sus flujos para evaluar la precisión de las predicciones de su modelo. También puede utilizar un nodo de evaluación para comparar modelos predictivos y encontrar el mejor.
Cómo trabajar con proyectos y activos de datos
Copy link to section
Todo su trabajo con SPSS Modeler se realiza dentro de un proyecto. Un proyecto contiene todos sus activos y flujos de datos.
Puede importar un flujo ( .str ) que se creó en SPSS Modeler Subscription o SPSS Modeler cliente. Si el flujo importado contiene uno o más nodos de importación o exportación, se le pedirá que convierta los nodos cuando abra el flujo.
Puede utilizar secuencias de comandos en SPSS Modeler para automatizar tareas. Puede escribir scripts en R, Python o Python para Spark, y Lenguaje de Control para la Manipulación de Expresiones (CLEM). CLEM es un lenguaje para analizar y manipular los flujos de datos a través de sus flujos.