Inicio rápido: Crear un modelo utilizando SPSS Modeler

Puede crear, entrenar y desplegar modelos utilizando SPSS Modeler. Lea acerca de SPSS Modeler, luego vea un video y siga una guía de aprendizaje que sea adecuada para principiantes y que no requiere codificación.

Servicio necesario Watson Studio (que incluye SPSS Modeler)

El flujo de trabajo básico incluye estas tareas:

  1. Cree un proyecto. Los proyectos son la ubicación donde puede colaborar con otros para trabajar con los datos.
  2. Añada un flujo de SPSS Modeler al proyecto.
  3. Configure los nodos en el lienzo y ejecute el flujo.
  4. Revise los detalles del modelo y guarde el modelo.
  5. Despliegue y pruebe su modelo.

Leer acerca de SPSS Modeler

Con los flujos de SPSS Modeler, puede desarrollar rápidamente modelos predictivos utilizando la experiencia empresarial y desplegarlos en operaciones empresariales para mejorar la toma de decisiones. Diseñado con software cliente de SPSS Modeler de reconocido prestigio y el modelo CRISP-DM estándar de la industria que utiliza, la interfaz de flujos da soporte al proceso completo de minería de datos, desde los propios datos a la obtención de mejores resultados empresariales.

SPSS Modeler ofrece una variedad de métodos de modelado procedentes del aprendizaje automático, la inteligencia artificial y las estadísticas. Los métodos disponibles en la paleta de nodos permiten obtener nueva información a partir de los datos y desarrollar modelos predictivos. Cada método tiene ciertos puntos fuertes y es más adecuado para determinados tipos de problemas.

Más información sobre SPSS Modeler

Más información sobre otras formas de crear modelos

Vea un vídeo sobre cómo crear un modelo utilizando SPSS Modeler

Ver vídeo Vea este vídeo para ver cómo crear y ejecutar un flujo SPSS Modeler para entrenar un modelo de aprendizaje automático.

Este vídeo proporciona un método visual como una alternativa a seguir los pasos escritos incluidos en esta documentación.

Pruebe una guía de aprendizaje para crear un modelo utilizando SPSS Modeler

En esta guía de aprendizaje, hará lo siguiente:

  • Crear un proyecto
  • Añadir un conjunto de datos de la Galería
  • Crear un nuevo flujo de SPSS Modeler
  • Ejecutar el flujo SPSS Modeler para entrenar un modelo
  • Explorar y probar el modelo
  • Desplegar el modelo en un espacio de despliegue

Le llevará aproximadamente 30 minutos el completar esta guía de aprendizaje.

Datos de ejemplo

El conjunto de datos utilizado en esta guía de aprendizaje procede de la Universidad de California, Irvine, y es el resultado de un extenso estudio basado en ingresos hospitalarios durante un periodo de tiempo. El modelo utilizará tres factores importantes para ayudar a pronosticar la enfermedad renal crónica.

Paso 1: Crear un proyecto

{: #step1}Necesita un proyecto para almacenar el flujo de SPSS Modeler.

  1. Si tiene un proyecto existente, ábralo. Si no tiene un proyecto existente, pulse Crear un proyecto en la página de inicio o pulse Nuevo proyecto en la página Proyectos.
  2. Seleccione Crear un proyecto vacío.
  3. En la pantalla Crear un proyecto, añada un nombre y una descripción opcional para el proyecto.
  4. Elija una instancia de servicio de almacenamiento de objetos existente o cree una nueva.
  5. Pulse Crear.

Para obtener más información o ver un vídeo, consulte Creación de un proyecto.

Paso 2: Añadir el conjunto de datos de la Galería

{: #step2} El conjunto de datos utilizado en esta guía de aprendizaje está disponible en la Galería.

  1. Acceda a UCI ML Repository: Chronic Kidney Disease Data Set en la Galería.
  2. Pulse Vista previa. Hay tres factores importantes que ayudan a pronosticar la enfermedad renal crónica que están disponibles como parte de este análisis: la edad del sujeto de prueba, los resultados de la prueba de creatinina sérica y los resultados de la prueba de diabetes. Y el valor de clase indica si el paciente ha sido diagnosticado previamente de enfermedad renal.
  3. Pulse Añadir al proyecto.
  4. Seleccione el proyecto en la lista y pulse Añadir.
  5. Pulse Ver proyecto.
  6. En la página Activos del proyecto, localice el archivo UCI ML Repository Chronic Kidney Disease Data Set.csv.

Paso 3: Crear el flujo de SPSS Modeler

{: #step3}Ahora añada el flujo de SPSS Modeler al proyecto.

  1. Pulse Añadir al proyecto y seleccione Flujo de Modeler.
  2. Escriba un nombre y una descripción para el flujo.
  3. Para la definición de tiempo de ejecución, acepte la definición Valor predeterminado de SPSS Modeler S.
  4. Pulse Crear. Esto abre el Editor de flujos que utilizará para crear el flujo.

Paso 4: Añadir los nodos al flujo de SPSS Modeler

{: #step4}Después de cargar los datos, debe transformar los datos. Va a crear un flujo simple arrastrando transformadores y estimadores en el lienzo y conectándolos al origen de datos. Utilice los nodos siguientes de la paleta:

  • Activo de datos: carga el archivo csv del proyecto
  • Partición: divide los datos en segmentos de entrenamiento y prueba
  • Tipo: establece el tipo de datos. Utilícelo para designar el campo class como un tipo target.
  • C5.0: un algoritmo de clasificación
  • Análisis: ver el modelo y comprobar su precisión
  • Tabla: vista preliminar de los datos con predicciones

  • En la sección Importar, arrastre el nodo Activo de datos al lienzo.

    1. Efectúe una doble pulsación en el nodo Activo de datos para seleccionar el conjunto de datos.
    2. Seleccione UCI ML Repository Chronic Kidney Disease Data Set.csv.
    3. Pulse Seleccionar.
    4. Ver las propiedades del activo de datos.
    5. Pulse Guardar.
  • En la sección Operaciones de campo, arrastre el nodo Partición al lienzo.
    1. Conecte el nodo Activo de datos al nodo Partición.
    2. Efectúe una doble pulsación en el nodo Partición para ver sus propiedades. La partición predeterminada divide la mitad de los datos para el entrenamiento y la otra mitad para la prueba.
    3. Pulse Guardar.
  • En la sección Operaciones de campo, arrastre el nodo Tipo al lienzo.
    1. Conecte el nodo Partición al nodo Tipo.
    2. Efectúe una doble pulsación en el nodo Tipo para ver sus propiedades. El nodo Tipo especifica el nivel de medición para cada campo. Este archivo de datos de origen utiliza cuatro niveles de medición diferentes: continuo, categórico, nominal, ordinal y distintivo.
    3. Busque el campo class. Para cada campo, el rol indica la parte que cada campo desempeña en el modelado. Cambie el class Rol por Destino - el campo que desea pronosticar.
    4. Pulse Guardar.
  • En la sección Modelado, arrastre el nodo C5.0 al lienzo.
  • Conecte el nodo Tipo al nodo C5.0.
    1. Efectúe una doble pulsación en el nodo C5.0 para ver sus propiedades. De forma predeterminada, el algoritmo C5.0 crea un árbol de decisiones. Los modelos C5.0 dividen la muestra en función del campo que ofrece la máxima ganancia de información. Las distintas submuestras definidas por la primera división se vuelven a dividir, por lo general basándose en otro campo, y el proceso se repite hasta que resulta imposible dividir las submuestras de nuevo. Por último se vuelven a examinar las divisiones del nivel inferior y se eliminan las que no contribuyen significativamente con el valor del modelo.
    2. Consulte Utilizar roles de campo personalizados.
    3. Para Objetivo, seleccione clase.
    4. En la sección Entradas, pulse Añadir columnas.
    5. Seleccione edad, sc, dm.
    6. Pulse Aceptar.
    7. Pulse Guardar.

Cuando termine de crear el flujo, debería ser como la siguiente imagen.

flujo que muestra el nodo Activo de datos, el nodo Partición, el nodo Tipo y el nodo de clase C5.0

Paso 5: Ejecutar el flujo SPSS Modeler y explorar los detalles del modelo

{: #step5}Ahora que ha diseñado el flujo, puede ejecutar el flujo y examinar el diagrama de árbol para ver los puntos de decisión.

  1. Pulse con el botón derecho del ratón en el nodo C5.0 y seleccione Ejecutar. La ejecución del flujo genera un nuevo nugget de modelo en el lienzo.
  2. Pulse con el botón derecho del ratón en el nugget de modelo y seleccione Ver modelo para ver los detalles del Modelo.
  3. Ver la Información del modelo que proporciona un resumen de modelo.
  4. Pulse Reglas de decisión principales. Una tabla muestra una serie de reglas que se han utilizado para asignar registros individuales a nodos hijo basándose en los valores de diferentes campos de entrada.
  5. Pulse Importancia de la característica. Un gráfico muestra la importancia relativa de cada predictor en la estimación del modelo. A partir de esta información, se puede ver que la creatinina sérica es el factor más significativo y la diabetes el siguiente factor más significativo.
  6. Pulse Diagrama de árbol. El mismo modelo se visualiza en forma de árbol, con un nodo en cada punto de decisión.
    1. Seleccione la opción Mostrar etiquetas en ramas.
    2. Pase el ratón por encima del Nodo 0 que proporciona un resumen para todos los registros del conjunto de datos. Algo menos del 40 % de los casos en el conjunto de datos se clasifican como no diagnosticados con enfermedad renal. El árbol puede proporcionar pistas adicionales sobre los factores que pueden ser responsables.
    3. Observe las dos ramas derivadas del nodo 0, que indica una división por creatinina sérica.
    4. Pase el ratón por encima del Nodo 6 que muestra registros en los que la creatinina sérica es superior a 1,25. En este caso, el 100 % de esos pacientes tienen diagnóstico positivo de enfermedad renal.
    5. Pase el ratón por encima del Nodo 1 que muestra registros en los que la creatinina sérica es menor o igual a 1,25. Casi el 80 % de esos pacientes no tiene diagnóstico positivo de enfermedad renal, pero casi al 20 % con creatinina sérica menor se le diagnosticó enfermedad renal.
    6. La rama del nodo 1 se divide por diabetes. Pase el ratón por encima del Nodo 2 que muestra pacientes con creatinina sérica baja y diabetes diagnosticada. El 100 % de estos pacientes también fueron diagnosticados con enfermedad renal.
    7. Pase el ratón sobre el Nodo 3. Para los pacientes con creatinina sérica baja y sin diabetes, más del 85 % no fueron diagnosticados con enfermedad renal, pero el 15 % de ellos fueron diagnosticados con enfermedad renal.
    8. La rama del nodo 3 se divide por el último factor significativo, edad. Pase el ratón por encima del Nodo 4 para ver que el 75 % de los pacientes jóvenes con creatinina sérica baja y sin diabetes corrían riesgo de contraer enfermedad renal.
    9. Pase el ratón sobre el Nodo 5. Solo el 11 % de los pacientes mayores de 16 años con creatinina sérica baja y sin diabetes corrían riesgo de contraer enfermedad renal.
    10. Cierre los detalles del modelo.

Paso 6: Evaluar el modelo

{: #step6}Utilice los nodos Análisis y Tabla para evaluar el modelo.

  1. En la sección Salidas, arrastre el nodo Análisis al lienzo.
  2. Conecte el nugget de Modelo al nodo Análisis.
  3. Pulse con el botón derecho del ratón en el nodo Análisis y seleccione Ejecutar.
  4. Desde el panel Salidas, abra el Análisis, que muestra que el modelo pronosticó correctamente un diagnóstico de enfermedad renal el 95 % de las veces. Cierre el Análisis.
  5. (Opcional) En la barra de herramientas, pulse el icono Descargar para guardar el modelo como un archivo .str.
  6. Pulse con el botón derecho del ratón en el nodo Análisis y seleccione Guardar rama como modelo.
    1. Para el Nombre del modelo, escriba Kidney Disease Analysis.
    2. Pulse Guardar.
  7. En la sección Salidas, arrastre el nodo Tabla al lienzo.
    1. Conecte el nugget de Modelo al nodo Tabla.
    2. Pulse con el botón derecho del ratón en el nodo Tabla y seleccione Vista preliminar.
    3. Cuando aparezca la vista preliminar, desplácese hasta las dos últimas columnas. La columna $C-Class contiene la predicción de la enfermedad renal, y la columna $CC-Clase indica la puntuación de confianza para esa predicción.
    4. Cierre la Vista preliminar.

Paso 7: Desplegar y probar el modelo con datos nuevos

{: #step7}Por último, puede desplegar este modelo y pronosticar el resultado con nuevos datos.

  1. Vuelva a la pestaña Activos del proyecto.
  2. Desplácese hasta la sección Modelos y abra el modelo Análisis de enfermedades renales.
  3. Pulse Promocionar a espacio de despliegue.
  4. Seleccione un espacio de despliegue existente. Si no tiene un espacio de despliegue, puede crear uno nuevo:
    1. Proporcione un nombre de espacio.
    2. Seleccione un servicio de almacenamiento.
    3. Pulse Añadir servicio de aprendizaje automático.
    4. Pulse Crear.
    5. Pulse Cerrar.
  5. Seleccione Ir al modelo en el espacio después de promocionarlo.
  6. Haga clic en Promover.
  7. Cuando el modelo se visualice dentro del espacio de despliegue, pulse Nuevo despliegue.
    1. Seleccione En línea como Tipo de despliegue.
    2. Especifique un nombre para el despliegue.
    3. Pulse Crear.
  8. Vaya a la pestaña Despliegues y espere a que se despliegue el modelo.
  9. Cuando se haya completado el despliegue, pulse el nombre del despliegue para ver la página de detalles del despliegue.
  10. Vaya a la pestaña Probar. Puede probar el modelo desplegado desde la página de detalles del despliegue de dos formas: probar con un formulario o probar con código JSON.
  11. Pulse el icono para Proporcionar datos de entrada como JSON y, a continuación, copie los siguientes datos de prueba y péguelos en el área para el texto JSON:

    {"input_data":[{"fields":["age","bp","sg","al","su","rbc","pc","pcc","ba","bgr","bu","sc","sod","pot","hemo","pcv","wbcc","rbcc","htn","dm","cad","appet","pe","ane","class"], "values":[["62","80","1.01","2","3","normal","normal","notpresent","notpresent","423","53","1.8","","","9.6","31","7500","","no","yes","no","poor","no","yes","ckd"]]}]}
    
  12. Pulse Pronosticar para pronosticar si una persona de 62 años con diabetes y una proporción de creatinina sérica de 1,8 probablemente sería diagnosticado con enfermedad renal. La predicción resultante indica que este paciente tiene una alta probabilidad de un diagnóstico de enfermedad renal.

Próximos pasos

Ahora puede utilizar este conjunto de datos para un análisis adicional. Por ejemplo, puede realizar tareas como:

Recursos

adicionales