Pruebe el tutorial
En esta guía de aprendizaje, realizará estas tareas:
- Tarea 1: Abrir el proyecto de ejemplo
- Tarea 2: Examinar el activo de datos
- Tarea 3: Explorar los gráficos de distribución y auditoría de datos
- Tarea 4: Crear y explorar el diagrama de dispersión
- Tarea 5: Crear y explorar el gráfico web
- Tarea 6: Explorar visualizaciones avanzadas
- Tarea 7: Explorar el nodo Derive
- Tarea 8: Explorar los nodos Filtro y Tipo
- Tarea 9: Generar el modelo
- Tarea 10: Crear un nodo de análisis
Ejemplo de flujo de modelización y conjunto de datos
Este tutorial utiliza el flujo Tratamiento de drogas - Gráficos exploratorios en el proyecto de ejemplo. El archivo de datos utilizado es drug1n.csv. La siguiente imagen muestra el flujo del modelador de muestra.
Campo Datos | Descripción |
---|---|
Age |
Edad del paciente (número) |
Sex |
M o F |
BP |
Presión arterial: HIGH , NORMAL o LOW |
Cholesterol |
Colesterol en sangre: NORMAL o HIGH |
Na |
Concentración de sodio en sangre |
K |
Concentración de potasio en sangre |
Drug |
Medicamento prescrito al que respondió un paciente |
Tarea 1: Abrir el proyecto de ejemplo
El proyecto de muestra contiene varios conjuntos de datos y flujos de modelado de muestra. Si aún no tiene el proyecto de ejemplo, consulte el tema Tutoriales para crear el proyecto de ejemplo. A continuación, siga estos pasos para abrir el proyecto de ejemplo:
- En ' watsonx, en el menú Navegación ' , seleccione Proyectos > Ver todos los proyectos.
- Haga clic en ProyectoSPSS Modeler.
- Haga clic en la pestaña Activos para ver los conjuntos de datos y los flujos del modelador.
' Comprueba tu progreso
La siguiente imagen muestra la pestaña Activos del proyecto. Ya está preparado para trabajar con el flujo del modelador de ejemplo asociado a este tutorial.
Tarea 2: Examinar el activo de datos
Tratamiento de drogas - Gráficos exploratorios incluye varios nodos. Siga estos pasos para examinar el nodo Activo de datos:
- En la pestaña Activos, abra el flujo del modelador Tratamiento farmacológico - Gráficos exploratorios y espere a que se cargue el lienzo.
- Haga doble clic en el nodo drug1n.csv. Este nodo es un nodo de Activo de Datos que apunta al archivo drug1n.csv en el proyecto.
- Revise las propiedades del formato de archivo.
- Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos completo.
' Comprueba tu progreso
La siguiente imagen muestra el nodo de Activos de Datos. Ahora está listo para explorar los gráficos de distribución y auditoría de datos.
Tarea 3: Explorar los gráficos de distribución y auditoría de datos
Durante el proceso de minería de datos, resulta útil examinar los datos mediante la creación de resúmenes visuales. SPSS Modeler ofrece muchos tipos diferentes de gráficos entre los que elegir, dependiendo del tipo de datos que desee resumir. Por ejemplo, para saber qué proporción de pacientes respondió a cada fármaco, explore un nodo Tipo de fármaco (Distribución). Siga estos pasos para explorar algunos gráficos:
- Haga doble clic en el nodo Tipo de fármaco (Distribución ) para ver sus propiedades.
- Pulse Cancelar.
- Pase el ratón por encima del nodo Tipo de fármaco (Distribución) y haga clic en el icono Ejecutar ' .
- En el panel Salidas y modelos, haga clic en la salida Tipo de fármaco para ver los resultados.
El gráfico ayuda a ver la forma de los datos. Muestra que los pacientes respondieron con más frecuencia al medicamento Y
y con menos frecuencia a los medicamentos B
y C
.
Alternativamente, puede adjuntar y ejecutar un nodo 7 Campos (Auditoría de Datos) para ver las distribuciones e histogramas de todos los campos a la vez.
- Haga doble clic en el nodo de salida 7 Fields (Data Audit) después del nodo Data Asset.
- Pase el ratón por encima del nodo 7 Campos (Auditoría de datos) y haga clic en el icono Ejecutar ' .
- En el panel Salidas y modelos, haga clic en la salida 7 Campos (Auditoría de datos) para ver los resultados.
' Comprueba tu progreso
La imagen siguiente muestra el flujo. Ya está preparado para crear y explorar el gráfico de dispersión.
Tarea 4: Crear y explorar el diagrama de dispersión
Puede ver qué factores pueden influir en ' Drug
, la variable objetivo. Como investigador, sabe que las concentraciones de sodio y potasio en la sangre son factores importantes. Dado que ambas concentraciones son valores numéricos, puede crear un gráfico de dispersión de sodio frente a potasio que utilice las categorías de fármacos como superposición de colores. Siga estos pasos para crear y explorar el gráfico de dispersión:
- En la sección Gráficos de la paleta, arrastre el nodo Trazar al lienzo.
- Pasa el ratón por encima del nodo, haz clic en el botón Editar título y cámbiale el nombre a " Na v. K.
- Conecte el nodo Plot al nodo de activos de datos drug1n.csv.
- Haz doble clic en el ' Na v. K (Plot) nodo ' para editar sus propiedades.
- En la sección Plot, seleccione '
Na
' como campo X, 'K
' como campo Y, y en la sección Overlay, seleccione 'Drug
' como campo Color. - Pulse Guardar.
- Pasa el ratón por encima del " Na v. K (Plot) nodo ' ' y haga clic en el icono Ejecutar ' .
- En el panel Salidas y modelos, haga clic en el Na v " . K salida para ver los resultados.
El gráfico muestra claramente un umbral. Para valores superiores al umbral, el medicamento " Y
" es siempre el correcto. Y para valores inferiores al umbral, el fármaco ' Y
' nunca es el correcto. Este umbral es la relación entre el sodio (Na
) y el potasio (K
).
' Comprueba tu progreso
La siguiente imagen muestra el diagrama de dispersión. Ya está listo para crear y explorar el gráfico web.
Tarea 5: Crear y explorar el gráfico web
Dado que muchos de los campos de datos son categóricos, también puede intentar trazar un gráfico web, que mapea las asociaciones entre diferentes categorías. Sigue estos pasos para explorar un gráfico web:
- Desde la sección Gráficos de la paleta, arrastre el nodo Web al lienzo y conéctelo al nodo de activos de datos drug1n.csv.
- Haga doble clic en el nodo Web para editar sus propiedades.
- En la sección Campos, haga clic en Añadir columnas. Seleccione las columnas "
BP
" (para la tensión arterial) y "Drug
". - Pulse Guardar.
- Pase el ratón por encima del nodo Web y haga clic en el icono Ejecutar '
- En el panel Salidas y modelos, haga clic en la salida Web para ver los resultados.
A partir del gráfico, aparentemente el fármaco " Y
" se asocia con los tres niveles de presión arterial. Este resultado no es ninguna sorpresa; ya ha determinado la situación en la que el fármaco " Y
" es el mejor.
Sin embargo, si ignora el medicamento Y
y se centra en los otros medicamentos, puede ver que los medicamentos A
y B
también están asociados a una presión sanguínea alta. Y los medicamentos C
y X
están asociados a una presión sanguínea baja. La presión arterial normal está asociada con el medicamento X
. Sin embargo, aún no sabe cómo elegir entre los medicamentos " A
" y " B
" o entre los medicamentos " C
y " X
, para un paciente concreto. La modelización puede ayudar en este caso.
' Comprueba tu progreso
La siguiente imagen muestra la trama web. Ya está preparado para explorar visualizaciones avanzadas.
Tarea 6: Explorar visualizaciones avanzadas
En las secciones anteriores se han utilizado distintos tipos de nodos gráficos. Otra forma de explorar los datos es con la característica de visualizaciones avanzada. Siga estos pasos para crear y explorar gráficos avanzados:
- Desde la sección Gráficos de la paleta, arrastre el nodo Gráficos al lienzo y conéctelo al nodo de activos de datos drug1n.csv.
- Haga doble clic en el nodo Gráficos para ver sus propiedades.
- Haga clic en el botón Launch Chart Builder.
Aquí puede elegir y crear gráficos avanzados para explorar sus datos desde diferentes perspectivas e identificar patrones, conexiones y relaciones dentro de sus datos. Experimente creando algunos gráficos antes de volver al flujo del modelador.
' Comprueba tu progreso
La siguiente imagen muestra un ejemplo de gráfico 3D. Ahora está listo para explorar el nodo Derive.
Tarea 7: Explorar el nodo Derive
Como has visto en el diagrama de dispersión de la Tarea 4, la proporción entre sodio y potasio parece predecir cuándo utilizar el fármaco Y. Puede derivar un campo que contenga el valor de este ratio para cada registro. Este campo será de utilidad posteriormente cuando genere un modelo para predecir cuándo se debe utilizar cada uno de los cinco medicamentos.
Siga estos pasos para explorar el nodo Derive :
- Haga doble clic en el nodo Na_to_K (Derive ) para editar sus propiedades.
- Mira la sección Expresión. Na/K es la expresión porque se obtiene la nueva área dividiendo el valor del sodio por el valor del potasio.También puede crear una expresión haciendo clic en el icono de la calculadora ' para abrir el Constructor de expresiones; una forma de crear expresiones de forma interactiva utilizando listas incorporadas de funciones, operandos y campos y sus valores.
- Haga clic en " Cancelar " para volver a las propiedades, y haga clic de nuevo en " Cancelar " para volver al flujo.
- Desde la sección Gráficos de la paleta, arrastre el nodo Histograma al lienzo y conéctelo al nodo Na_to_K (Derive).
- Haga doble clic en el nodo Histograma para ver sus propiedades.
- En las propiedades del nodo Histograma, especifique Na_a_K como el campo a trazar y Drug como el campo de superposición de color.
- Pulse Guardar.
- Pase el ratón por encima del nodo Histograma y haga clic en el icono Ejecutar ' .
- En el panel Salidas y modelos, haga clic en la salida Histograma para ver los resultados.
Basándose en el gráfico, se puede concluir que cuando el valor del " Na_to_K
" es de 15 o más, el fármaco de elección es el " Y
".
' Comprueba tu progreso
La siguiente imagen muestra el histograma. Ahora está listo para explorar los nodos Filtro y Tipo.
Tarea 8: Explorar los nodos Filtro y Tipo
Explorando y manipulando los datos, podrá formular algunas hipótesis. La relación sodio-potasio en sangre parece influir en la elección del medicamento, al igual que la presión sanguínea. Sin embargo, aún no se pueden explicar todas las relaciones. La modelización puede aportar algunas respuestas. En primer lugar, siga estos pasos para explorar los nodos Filtro y Tipo:
- Haga doble clic en el nodo Descartar campos (filtro) para ver sus propiedades.
- Dado que se utiliza el campo derivado '
Na_to_K
', se filtran los campos originales 'Na
y 'K
', para que no se utilicen dos veces en el algoritmo de modelado. - Pulse Cancelar.
- Haga doble clic en el nodo Definir tipos (Tipo) para ver sus propiedades.
- Con el nodo Tipo, puede indicar los tipos de campos que está utilizando y cómo se utilizan para predecir los resultados. Observe que la función del campo "
Drug
" es Target, lo que indica que "Drug
" es el campo que desea predecir. La función de los demás campos es Entrada, por lo que se utilizan como predictores. - Pulse Cancelar.
' Comprueba tu progreso
La imagen siguiente muestra el flujo. Ya está listo para generar el modelo.
Tarea 9: Generar el modelo
Siga estos pasos para generar el modelo utilizando un nodo C5.0:
- Pase el ratón por encima del nodo Fármaco (C5.0) y haga clic en el icono Ejecutar ' .
- En el panel Resultados y modelos, haga clic en el modelo de fármaco para ver los resultados.
El diagrama de árbol muestra el conjunto de reglas que genera el nodo C5.0 0 en formato de árbol. Ahora, puedes ver las piezas que faltan del puzzle. Para las personas con una relación Na-to-K inferior a "
14.829
" e hipertensión arterial, la edad determina la elección del fármaco. Para aquellos sujetos con una presión sanguínea baja, el colesterol parece ser el mejor predictor.Puede pasar el puntero sobre los nodos del árbol para ver más detalles, como por ejemplo el número de casos para cada categoría de presión sanguínea y el porcentaje de confianza de los casos.
' Comprueba tu progreso
La siguiente imagen muestra el diagrama de árbol. Ya está listo para crear un nodo de Análisis.
Tarea 10: Crear un nodo de análisis
Siga estos pasos para evaluar la precisión del modelo mediante un nodo de análisis:
- Desde la sección Salidas de la paleta, arrastre el nodo Análisis al lienzo y conéctelo a la pepita de modelo Fármaco (C5.0).
- Pase el ratón por encima del nodo Análisis y haga clic en el icono Ejecutar '
- En el panel Salidas y modelos, haga clic en la salida Análisis de [Fármaco] para ver los resultados.
La salida del nodo Análisis muestra que con este conjunto de datos artificial, el modelo predijo correctamente la elección del fármaco para cada registro del conjunto de datos. Con un conjunto de datos real es poco probable que obtenga una precisión del 100%, pero puede utilizar el nodo Análisis para determinar si el modelo es aceptablemente preciso para su aplicación concreta.
' Comprueba tu progreso
La siguiente imagen muestra el resultado del análisis.
Resumen
Este ejemplo le mostró cómo crear y explorar gráficos para el tratamiento farmacológico y utilizarlos para averiguar qué fármaco podría ser apropiado para un futuro paciente con la misma enfermedad.
Próximos pasos
Ahora está preparado para probar otros tutorialesSPSS® Modeler.