Inicio rápido: Crear un modelo utilizando SPSS Modeler
Puede crear, entrenar y desplegar modelos utilizando SPSS Modeler. Lea acerca de SPSS Modeler, luego vea un video y siga una guía de aprendizaje que sea adecuada para principiantes y que no requiere codificación.
- Servicios necesarios
- Watson Studio (que incluye SPSS Modeler)
- Watson Machine Learning
El flujo de trabajo básico incluye estas tareas:
- Cree un proyecto. Los proyectos son la ubicación donde puede colaborar con otros para trabajar con los datos.
- Añada un flujo de SPSS Modeler al proyecto.
- Configure los nodos en el lienzo y ejecute el flujo.
- Revise los detalles del modelo y guarde el modelo.
- Despliegue y pruebe su modelo.
Leer acerca de SPSS Modeler
Con los flujos de SPSS Modeler, puede desarrollar rápidamente modelos predictivos utilizando la experiencia empresarial y desplegarlos en operaciones empresariales para mejorar la toma de decisiones. Diseñada en torno al conocido software cliente SPSS Modeler y al modelo CRISP-DM estándar del sector que utiliza, la interfaz de flujos facilita todo el proceso de minería de datos, desde los datos hasta la obtención de mejores resultados empresariales.
SPSS Modeler ofrece una variedad de métodos de modelado procedentes del aprendizaje automático, la inteligencia artificial y las estadísticas. Los métodos disponibles en la paleta de nodos permiten obtener nueva información a partir de los datos y desarrollar modelos predictivos. Cada método tiene ciertos puntos fuertes y es más adecuado para determinados tipos de problemas.
Vea un vídeo sobre cómo crear un modelo utilizando SPSS Modeler
Vea este vídeo para ver cómo crear y ejecutar un flujo SPSS Modeler para entrenar un modelo de aprendizaje automático.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Pruebe una guía de aprendizaje para crear un modelo utilizando SPSS Modeler
En esta guía de aprendizaje, realizará estas tareas:
- Tarea 1: Abrir un proyecto.
- Tarea 2: Añadir un conjunto de datos al proyecto.
- Tarea 3: Crear el flujo de SPSS Modeler .
- Tarea 4: Añadir los nodos al flujo de SPSS Modeler .
- Tarea 5: Ejecutar el flujo SPSS Modeler y explorar los detalles del modelo.
- Tarea 6: Evaluar el modelo.
- Tarea 7: Desplegar y probar el modelo con nuevos datos.
Le llevará aproximadamente 30 minutos el completar esta guía de aprendizaje.
Datos de ejemplo
El conjunto de datos utilizado en esta guía de aprendizaje procede de la Universidad de California, Irvine, y es el resultado de un extenso estudio basado en ingresos hospitalarios durante un periodo de tiempo. El modelo utilizará tres factores importantes para ayudar a pronosticar la enfermedad renal crónica.
Sugerencias para completar esta guía de aprendizaje
Estas son algunas sugerencias para completar correctamente esta guía de aprendizaje.
Utilizar la imagen en imagen de vídeo
La siguiente imagen animada muestra cómo utilizar las características de imagen en imagen y tabla de contenido de vídeo:
Obtener ayuda en la comunidad
Si necesita ayuda con esta guía de aprendizaje, puede formular una pregunta o encontrar una respuesta en el foro de discusión de la comunidad deCloud Pak for Data.
Configurar las ventanas del navegador
Para obtener la experiencia óptima al completar esta guía de aprendizaje, abra Cloud Pak for Data en una ventana de navegador y mantenga abierta esta página de la guía de aprendizaje en otra ventana de navegador para conmutar fácilmente entre las dos aplicaciones. Considere la posibilidad de organizar las dos ventanas del navegador una al lado de la otra para que sea más fácil de seguir.
Tarea 1: Abrir un proyecto
Necesita un proyecto para almacenar el flujo de SPSS Modeler . Puede utilizar un proyecto existente o crear un proyecto.
En el Menú de navegación , elija Proyectos > Ver todos los proyectos
Abre un proyecto existente. Si desea utilizar un proyecto nuevo:
Pulse Nuevo proyecto.
Seleccione Crear un proyecto vacío.
Especifique un nombre y una descripción opcional para el proyecto.
Elija una instancia de servicio de almacenamiento de objetos existente o cree una nueva.
Pulse Crear.
Para obtener más información o ver un vídeo, consulte Creación de un proyecto.
Compruebe el progreso
La imagen siguiente muestra el nuevo proyecto.
Tarea 2: Añadir el conjunto de datos al proyecto
Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 00:13.
Esta guía de aprendizaje utiliza un conjunto de datos de ejemplo. Siga estos pasos para añadir el conjunto de datos de ejemplo al proyecto:
Acceda al Repositorio de UCI ML: Conjunto de datos de enfermedad renal crónica en el Centro de recursos.
Pulse Vista previa. Hay tres factores importantes que ayudan a pronosticar la enfermedad renal crónica que están disponibles como parte de este análisis: la edad del sujeto de prueba, los resultados de la prueba de creatinina sérica y los resultados de la prueba de diabetes. Y el valor de clase indica si el paciente ha sido diagnosticado previamente de enfermedad renal.
Pulse Añadir al proyecto.
Seleccione el proyecto en la lista y pulse Añadir.
Pulse Ver proyecto.
En la página Activos del proyecto, localice el archivo UCI ML Repository Chronic Kidney Disease Data Set.csv.
Compruebe el progreso
La imagen siguiente muestra el separador Activos en el proyecto.
Tarea 3: Crear el flujo de SPSS Modeler
Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 01:11.
Siga estos pasos para crear un flujo de SPSS Modeler en el proyecto:
Hacer clic Nuevo activo > Construir modelos como un flujo visual .
Escriba un nombre y una descripción para el flujo.
Para la definición de tiempo de ejecución, acepte la definición Valor predeterminado de SPSS Modeler S.
Pulse Crear. Esto abre el Editor de flujos que utilizará para crear el flujo.
Compruebe el progreso
La imagen siguiente muestra el editor de flujo.
Tarea 4: Añadir los nodos al flujo de SPSS Modeler
Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 01:31.
Después de cargar los datos, debe transformarlos. Cree un flujo simple arrastrando transformadores y estimadores al lienzo y conectándolos al origen de datos. Utilice los nodos siguientes de la paleta:
Activo de datos: carga el archivo csv del proyecto
Partición: divide los datos en segmentos de entrenamiento y prueba
Tipo: establece el tipo de datos. Utilícelo para designar el campo
class
como un tipotarget
.C5.0: un algoritmo de clasificación
Análisis: ver el modelo y comprobar su precisión
Tabla: vista preliminar de los datos con predicciones
Siga estos pasos para crear el flujo:
Añada el nodo de activo de datos:
En la sección Importar, arrastre el nodo Activo de datos al lienzo.
Efectúe una doble pulsación en el nodo Activo de datos para seleccionar el conjunto de datos.
Seleccione Activo de datos > Datos de enfermedad renal crónica de repositorio UCI ML Set.csv.
Pulse Seleccionar.
Ver las propiedades del activo de datos.
Pulse Guardar.
Añada el nodo Partición:
En la sección Operaciones de campo, arrastre el nodo Partición al lienzo.
Conecte el nodo Activo de datos al nodo Partición.
Efectúe una doble pulsación en el nodo Partición para ver sus propiedades. La partición predeterminada divide la mitad de los datos para el entrenamiento y la otra mitad para la prueba.
Pulse Guardar.
Añada el nodo Tipo:
En la sección Operaciones de campo, arrastre el nodo Tipo al lienzo.
Conecte el nodo Partición al nodo Tipo.
Efectúe una doble pulsación en el nodo Tipo para ver sus propiedades. El nodo Tipo especifica el nivel de medición para cada campo. Este archivo de datos de origen utiliza cuatro niveles de medición diferentes: continuo, categórico, nominal, ordinal y distintivo.
Busque el campo
class
. Para cada campo, el rol indica la parte que cada campo desempeña en el modelado. Cambie elclass
Rol por Destino - el campo que desea pronosticar.Pulse Guardar.
Añada el nodo de algoritmo de clasificación C5.0 :
En la sección Modelado, arrastre el nodo C5.0 al lienzo.
Conecte el nodo Tipo al nodo C5.0.
Efectúe una doble pulsación en el nodo C5.0 para ver sus propiedades. De forma predeterminada, el algoritmo C5.0 crea un árbol de decisiones. Los modelos C5.0 dividen la muestra en función del campo que ofrece la máxima ganancia de información. Las distintas submuestras definidas por la primera división se vuelven a dividir, por lo general basándose en otro campo, y el proceso se repite hasta que resulta imposible dividir las submuestras de nuevo. Por último se vuelven a examinar las divisiones del nivel inferior y se eliminan las que no contribuyen significativamente con el valor del modelo.
Active Utilizar valores definidos en este nodo.
Para Objetivo, seleccione clase.
En la sección Entradas, pulse Añadir columnas.
Desmarque el recuadro de selección situado junto a Nombre de campo.
Seleccione edad, sc, dm.
Pulse Aceptar.
Pulse Guardar.
Compruebe el progreso
La imagen siguiente muestra el flujo completado.
Tarea 5: Ejecutar el flujo de SPSS Modeler y explorar los detalles del modelo
Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 04:20.
Ahora que ha diseñado el flujo, siga estos pasos para ejecutar el flujo y examine el diagrama de árbol para ver los puntos de decisión:
Pulse con el botón derecho del ratón en el nodo C5.0 y seleccione Ejecutar. La ejecución del flujo genera un nuevo nugget de modelo en el lienzo.
Pulse con el botón derecho del ratón en el nugget de modelo y seleccione Ver modelo para ver los detalles del Modelo.
Ver la Información del modelo que proporciona un resumen de modelo.
Pulse Reglas de decisión principales. Una tabla muestra una serie de reglas que se han utilizado para asignar registros individuales a nodos hijo basándose en los valores de diferentes campos de entrada.
Pulse Importancia de la característica. Un gráfico muestra la importancia relativa de cada predictor en la estimación del modelo. A partir de esta información, se puede ver que la creatinina sérica es el factor más significativo y la diabetes el siguiente factor más significativo.
Pulse Diagrama de árbol. El mismo modelo se visualiza en forma de árbol, con un nodo en cada punto de decisión.
Pase el cursor por encima del nodo superior, que proporciona un resumen de todos los registros del conjunto de datos. Casi el 40% de los casos en el conjunto de datos se clasifican como no diagnosticados con enfermedad renal. El árbol puede proporcionar pistas adicionales sobre los factores que pueden ser responsables.
Observe las dos ramas derivadas del nodo superior, que indica una división por creatinina sérica.
Revise la rama que muestra los registros en los que la creatinina sérica es mayor que 1.25. En este caso, el 100 % de esos pacientes tienen diagnóstico positivo de enfermedad renal.
Revise la rama que muestra los registros en los que la creatinina sérica es menor o igual que 1.25. Casi el 80 % de esos pacientes no tiene diagnóstico positivo de enfermedad renal, pero casi al 20 % con creatinina sérica menor se le diagnosticó enfermedad renal.
Observe las ramas derivadas de sc<=1.250, que se divide por diabetes.
Revise la rama que muestra pacientes con creatinina sérica baja (sc<=1.250) y diabetes diagnosticada (dm = sí). El 100% de estos pacientes también fueron diagnosticados con enfermedad renal.
Revise la rama que muestra pacientes con creatinina sérica baja (sc<=1.250) y sin diabetes (dm = no), el 85% no fueron diagnosticados con enfermedad renal, pero el 15% de ellos fueron diagnosticados con enfermedad renal.
Observe las ramas derivadas de dm = no, que se divide por el último factor significativo, edad.
Revise la rama que muestra los pacientes de 14 años o menos (edad < = 14). Esta rama muestra que el 75% de los pacientes jóvenes con creatinina sérica baja y sin diabetes estaban en riesgo de contraer enfermedad renal.
Revise la rama que muestra los pacientes mayores de 14 años (edad > 14). Esta rama muestra que solo el 12% de los pacientes mayores de 14 años con creatinina sérica baja y sin diabetes estaban en riesgo de contraer enfermedad renal.
Cierre los detalles del modelo.
Compruebe el progreso
La imagen siguiente muestra el diagrama de árbol.
Tarea 6: Evaluar el modelo
Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 07:24.
Siga estos pasos para utilizar los nodos Análisis y Tabla para evaluar el modelo:
En la sección Salidas, arrastre el nodo Análisis al lienzo.
Conecte el nugget de Modelo al nodo Análisis.
Pulse con el botón derecho del ratón en el nodo Análisis y seleccione Ejecutar.
En el panel Resultados , abra el Análisis, que muestra que el modelo predijo correctamente un diagnóstico de enfermedad renal casi el 95% del tiempo. Cierre el Análisis.
(Opcional) En la barra de herramientas, pulse el icono Descargar para guardar el modelo como un archivo .str.
Pulse con el botón derecho del ratón en el nodo Análisis y seleccione Guardar rama como modelo.
Para el Nombre del modelo, escriba
Kidney Disease Analysis
.Pulse Guardar.
Pulse Cerrar.
En la sección Salidas, arrastre el nodo Tabla al lienzo.
Conecte el nugget de Modelo al nodo Tabla.
Pulse con el botón derecho del ratón en el nodo Tabla y seleccione Vista previa de datos.
Cuando aparezca la vista preliminar, desplácese hasta las dos últimas columnas. La columna $C-Class contiene la predicción de la enfermedad renal, y la columna $CC-Clase indica la puntuación de confianza para esa predicción.
Cierre la Vista preliminar.
Compruebe el progreso
La imagen siguiente muestra la tabla de vista previa con las predicciones.
Tarea 7: Desplegar y probar el modelo con datos nuevos
Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 09:10.
Por último, siga estos pasos para desplegar este modelo y predecir el resultado con nuevos datos.
Vuelva a la pestaña Activos del proyecto.
Pulse la sección Modelos y abra el modelo Análisis de enfermedad renal .
Pulse el icono Promocionar a espacio de despliegue .
Seleccione un espacio de despliegue existente. Si no tiene un espacio de despliegue, puede crear uno nuevo:
Proporcione un nombre de espacio.
Seleccione un servicio de almacenamiento.
Pulse Añadir servicio de aprendizaje automático.
Pulse Crear.
Pulse Cerrar.
Seleccione Ir al modelo en el espacio después de promocionarlo.
Haga clic en Promover.
Cuando el modelo se visualice dentro del espacio de despliegue, pulse Nuevo despliegue.
Seleccione En línea como Tipo de despliegue.
Especifique un nombre para el despliegue.
Pulse Crear.
Cuando se haya completado el despliegue, pulse el nombre del despliegue para ver la página de detalles del despliegue.
Vaya a la pestaña Probar. Puede probar el modelo desplegado desde la página de detalles del despliegue de dos formas: probar con un formulario o probar con código JSON.
Pulse la entrada JSONy, a continuación, copie los siguientes datos de prueba y péguelos para sustituir el texto JSON existente:
{ "input_data": [ { "fields": [ "age", "bp", "sg", "al", "su", "rbc", "pc", "pcc", "ba", "bgr", "bu", "sc", "sod", "pot", "hemo", "pcv", "wbcc", "rbcc", "htn", "dm", "cad", "appet", "pe", "ane", "class" ], "values": [ [ "62", "80", "1.01", "2", "3", "normal", "normal", "notpresent", "notpresent", "423", "53", "1.8", "", "", "9.6", "31", "7500", "", "no", "yes", "no", "poor", "no", "yes", "ckd" ] ] } ] }
Pulse Pronosticar para pronosticar si una persona de 62 años con diabetes y una proporción de creatinina sérica de 1,8 probablemente sería diagnosticado con enfermedad renal. La predicción resultante indica que este paciente tiene una alta probabilidad de un diagnóstico de enfermedad renal.
Compruebe el progreso
La imagen siguiente muestra la pestaña Probar para el despliegue del modelo con una predicción.
Próximos pasos
Ahora puede utilizar este conjunto de datos para un análisis adicional. Por ejemplo, puede realizar tareas como:
Recursos adicionales
Encontrará más información en las guías de aprendizaje de SPSS Modeler
Pruebe estos otros métodos para crear modelos:
Ver más vídeos
Busque conjuntos de datos de ejemplo y cuadernos para obtener experiencia práctica en la creación de modelos en el concentrador de recursos
Contribuir a la comunidad de SPSS Modeler
Tema principal: Guías de aprendizaje de inicio rápido