0 / 0
Volver a la versión inglesa de la documentación
Introducción al modelado
Última actualización: 12 dic 2024
Introducción al modelado
' Este tutorial proporciona una introducción a la modelización con SPSS® Modeler. Un modelo es un conjunto de reglas, fórmulas o ecuaciones que pueden utilizarse para predecir un resultado a partir de un conjunto de campos de entrada o variables. Por ejemplo, una entidad financiera podría utilizar un modelo para predecir si los solicitantes de un préstamo tienen probabilidades de ser buenos o malos riesgos, basándose en la información que ya se conoce sobre ellos.

Vista previa de la guía de aprendizaje

Ver vídeo Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber ligeras diferencias en la interfaz de usuario que se muestra en el vídeo. El vídeo pretende ser un complemento del tutorial escrito. Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.

Pruebe el tutorial

En esta guía de aprendizaje, realizará estas tareas:

Ejemplo de flujo de modelización y conjunto de datos

Este tutorial utiliza el flujo Introducción al modelado en el proyecto de ejemplo. El archivo de datos utilizado es tree_credit.csv. La siguiente imagen muestra el flujo del modelador de muestra.

Figura 1. Flujo del modelador de muestras
Flujo del modelador de muestras

La capacidad de predecir un resultado es el objetivo central del análisis predictivo, y comprender el proceso de modelado es la clave para utilizar los flujos de SPSS Modeler.

El modelo de este ejemplo muestra cómo un banco puede predecir si los futuros solicitantes de préstamos podrían no pagar sus préstamos. Estos clientes anteriormente tomaban préstamos del banco, por lo que los datos de los clientes se almacenan en la base de datos del banco. El modelo utiliza los datos de los clientes para determinar la probabilidad de que sean predeterminados.

Una parte importante de cualquier modelo son los datos que entran en él. El banco mantiene una base de datos de información histórica sobre los clientes, incluyendo si han reembolsado los préstamos (calificación crediticia = buena) o si han incumplido (calificación crediticia = mala). El banco desea utilizar estos datos existentes para crear el modelo. Se utilizan los siguientes campos:

Nombre de campo Descripción
Valoración_crédito Calificación crediticia: 0=Mala, 1=Buena, 9=Faltan valores
Edad Edad en años
Ingresos Nivel de ingresos: 1=Bajo, 2=Medio, 3=Alto
Tarjetas_crédito Número de tarjetas de crédito en propiedad: 1=Menos de cinco, 2=Cinco o más
Formación Nivel educativo: 1=Instituto, 2=Universidad
Préstamo_coche Número de préstamos de coche asumidos: 1=Ninguno o uno, 2=Más de dos

Este ejemplo utiliza un modelo de árbol de decisiones , que clasifica registros (y predice una respuesta) utilizando una serie de reglas de decisión.

Figura 2. Un modelo de árbol de decisión
Un modelo de árbol de decisión

Por ejemplo, esta regla de decisión clasifica un registro como con una buena calificación crediticia cuando el ingreso cae en el rango medio y el número de tarjetas de crédito es menor que 5.

IF income = Medium 
AND cards <5
THEN -> 'Good'

Al utilizar un modelo de árbol de decisión, puede analizar las características de los dos grupos de clientes y predecir la probabilidad de mora del préstamo.

Aunque este ejemplo utiliza un modelo CHAID (detección automática de interacciones de chi-cuadrado), está pensado como introducción general, y la mayoría de los conceptos se aplican ampliamente a otros tipos de modelado en SPSS Modeler.

Tarea 1: Abrir el proyecto de ejemplo

El proyecto de muestra contiene varios conjuntos de datos y flujos de modelado de muestra. Si aún no tiene el proyecto de ejemplo, consulte el tema Tutoriales para crear el proyecto de ejemplo. A continuación, siga estos pasos para abrir el proyecto de ejemplo:

  1. En ' watsonx, en el menú Navegación ' Menú de navegación, seleccione Proyectos > Ver todos los proyectos.
  2. Haga clic en ProyectoSPSS Modeler.
  3. Haga clic en la pestaña Activos para ver los conjuntos de datos y los flujos del modelador.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra la pestaña Activos del proyecto. Ya está preparado para trabajar con el flujo del modelador de ejemplo asociado a este tutorial.

Proyecto de ejemplo

volver a la parte superior

Tarea 2: Examinar los nodos Activo de datos y Tipo

Introducción al modelado El flujo del modelador incluye varios nodos. Siga estos pasos para examinar los nodos Activo de datos y Tipo.

  1. En la pestaña Activos, abra el flujo del modelador Introducción al modelado y espere a que se cargue el lienzo.
  2. Haga doble clic en el nodo tree_credit.csv. Este nodo es un nodo de Activo de Datos que apunta al archivo tree_credit.csv en el proyecto. Si especifica mediciones en el nodo fuente, no necesita incluir un nodo Tipo separado en el flujo.
  3. Revise las propiedades del formato de archivo.
  4. Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos completo.
  5. Haga doble clic en el nodo Tipo. Este nodo especifica las propiedades de los campos, como el nivel de medición (el tipo de datos que contiene el campo) y la función de cada campo como objetivo o entrada en el modelado. El nivel de medición es una categoría que indica el tipo de datos del campo. El archivo de datos de origen utiliza tres niveles de medición diferentes:
    • Un campo continuo (como el campo " Age ") contiene valores numéricos continuos.
    • Un campo Nominal (como el campo " Education ") tiene dos o más valores distintos: en este caso, " College o " High school.
    • Un campo ordinal (como el campo " Income level ") describe datos con múltiples valores distintos que tienen un orden inherente: en este caso, " Low, " Medium y " High.
    Figura 3. Nodo Tipo
    Nodo Tipo

    Para cada campo, el nodo Tipo también especifica una función para indicar el papel que desempeña cada campo en el modelado. El rol se establece en Target para el campo " Credit rating, que es el campo que indica si un cliente ha incumplido el préstamo. El objetivo es el campo para el que desea predecir el valor.

    Los demás campos tienen la función Input. Los campos de entrada se conocen a veces como predictores, o campos cuyos valores se utilizan en el algoritmo de modelado para predecir el valor del campo objetivo.

  6. Opcional: Haga clic en Vista previa de datos para ver los datos con las propiedades de Tipo aplicadas.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el nodo Tipo. Ahora está listo para configurar el nodo de Modelado.

Nodo Tipo

volver a la parte superior

Tarea 3: Configurar el nodo Modelado

Un nodo de modelización genera un nugget de modelo cuando se ejecuta el flujo. Este ejemplo utiliza un nodo CHAID. CHAID, o Detección Automática de Interacción Chi-cuadrado, es un método de clasificación que construye árboles de decisión utilizando un tipo particular de estadísticas que se conocen como estadísticas chi-cuadrado. El nodo utiliza la estadística chi-cuadrado para determinar los mejores lugares para realizar las divisiones en el árbol de decisión. Siga estos pasos para configurar el nodo de Modelado:

  1. Haga doble clic en el nodo Calificación crediticia (CHAID ) para ver sus propiedades.
  2. En la sección Campos, fíjese en la opción Utilizar la configuración definida en este nodo. Esta opción indica al nodo que utilice el objetivo y los campos especificados aquí en lugar de utilizar la información de campo del nodo Tipo. Para este tutorial, deje desactivada la opción Utilizar la configuración definida en este nodo.
  3. Amplíe la sección Objetivos. En este caso, los valores por defecto son apropiados. Su objetivo es Construir un nuevo modelo, Crear un modelo estándar y Generar un nodo de modelo después de la ejecución.
  4. Amplíe la sección Reglas de parada. Para mantener el árbol bastante simple para este ejemplo, limite el crecimiento del árbol aumentando el número mínimo de casos para los nodos padre e hijo.
    1. Seleccione Utilizar valor absoluto.
    2. Establece los registros mínimos de la rama padre en ' 400.
    3. Establece los registros mínimos de la rama hija en ' 200.
  5. Pulse Guardar.
  6. Pase el ratón por encima del nodo Calificación crediticia (CHAID) y haga clic en el icono Ejecutar ' Icono de ejecución.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el flujo con los resultados del modelo. Ya está listo para explorar el modelo.

paneles de resultados

volver a la parte superior

Tarea 4: Explorar el modelo

Al ejecutar el flujo del modelador se añade un nugget de modelo al lienzo con un enlace al nodo Modelado desde el que se creó. Siga estos pasos para ver los detalles del modelo:

  1. En el panel Salidas y modelos, haga clic en el modelo con el nombre Calificación crediticia para ver el modelo.
  2. Haga clic en Información del modelo para ver información básica sobre el modelo.
  3. Haga clic en Importancia de las características para ver la importancia relativa de cada predictor en la estimación del modelo. En este gráfico se puede ver que el nivel de ingresos es sin duda el factor más significativo en este caso, seguido del número de tarjetas de crédito.
    Figura 4. Gráfico Importancia de característica
    Gráfico Importancia de característica
  4. Haga clic en Reglas de decisión superiores para ver los detalles en forma de conjunto de reglas; en esencia, una serie de reglas que se pueden utilizar para asignar registros individuales a nodos secundarios en función de los valores de diferentes campos de entrada. Para cada nodo terminal del árbol de decisión se devuelve una predicción de Bueno o Malo. Los nodos terminales son aquellos nodos del árbol que no se dividen más. En cada caso, la predicción viene determinada por el modo, o respuesta más común, para los registros que entran dentro de ese nodo.
    Figura 5. Nugget de modelo CHAID, conjunto de reglas
    Nugget de modelo CHAID, conjunto de reglas
  5. Haga clic en Diagrama de árbol para ver el mismo modelo en forma de árbol, con un nodo en cada punto de decisión. Pase el puntero del ratón sobre las ramas y nodos para explorar detalles.
    Figura 6. Diagrama de árbol en el nugget de modelo
    Diagrama de árbol en el nugget de modelo

    Al principio del árbol, el primer nodo (nodo 0) ofrece un resumen de todos los registros del conjunto de datos. Algo más del 40% de los casos del conjunto de datos se clasifica como un riesgo malo. el 40% es una proporción bastante elevada, pero el árbol podría dar pistas sobre los factores responsables.

    La primera división es por nivel de ingresos. Los registros en los que el nivel de ingresos está en la categoría Bajo se asignan al nodo 2, y no es ninguna sorpresa ver que esta categoría contiene el porcentaje más alto de personas que han incurrido en demora en la devolución del préstamo. Sin duda, prestar a los clientes de esta categoría conlleva un alto riesgo. Sin embargo, casi el 18% de los clientes de esta categoría no incumplieron, por lo que la predicción no siempre es correcta. Ningún modelo puede predecir todas las respuestas, pero un buen modelo debería permitir predecir la respuesta más probable para cada registro basándose en los datos disponibles.

    Del mismo modo, si nos fijamos en los clientes de renta alta (nodo 1), podemos ver que la mayoría de los clientes (más del 88%) son de buen riesgo. Pero más de 1 de cada 10 de estos clientes seguían incumpliendo. ¿Pueden afinarse más los criterios de préstamo para minimizar el riesgo en este caso?

    Obsérvese cómo el modelo divide a estos clientes en dos subcategorías (nodos 4 y 5), en función del número de tarjetas de crédito que posean. En el caso de los clientes con ingresos altos, si el banco presta únicamente a clientes con menos de cinco tarjetas de crédito, puede aumentar su tasa de éxito del 88% a casi el 97%; un resultado aún más satisfactorio.

    Figura 7. Clientes con ingresos altos con menos de cinco tarjetas de crédito
    Clientes con ingresos altos con menos de cinco tarjetas de crédito

    ¿Pero qué hay de los clientes de la categoría de ingresos medios (nodo 3)? Se dividen mucho más uniformemente entre las valoraciones Bueno y Malo. De nuevo, las subcategorías (nodos 6 y 7 en este caso) pueden ayudar. Esta vez, el hecho de conceder préstamos solo a los clientes con ingresos medios que sean titulares de menos de cinco tarjetas de crédito aumenta el porcentaje de valoración Bueno del 58% al 86%, una mejora considerable.

    Figura 8. Vista de árbol de clientes con ingresos medios
    Vista de árbol de clientes con ingresos medios

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra los detalles del modelo. Ya está listo para evaluar el modelo.

Información del modelo

volver a la parte superior

Tarea 5: Evaluar el modelo

Puede consultar el modelo para entender cómo funciona la puntuación. Sin embargo, para evaluar la precisión del modelo, es necesario marcar algunos registros. La puntuación de los registros es el proceso de comparación de los resultados reales con las respuestas que predijo el modelo. Para evaluar el modelo, puede puntuar los mismos registros que se utilizaron para estimar el modelo. Puede comparar las respuestas observadas y previstas comparando los mismos registros. Siga estos pasos para evaluar el modelo:

  1. Adjunte el nodo Tabla al nugget modelo.
  2. Pase el ratón por encima del nodo Tabla y haga clic en el icono Ejecutar ' Icono de ejecución.
  3. En el panel Salidas y modelos, haga clic en los resultados de salida con el nombre Tabla para ver los resultados.

    La tabla muestra las puntuaciones previstas en el campo " $R-Credit rating ", que ha creado el modelo. Puede comparar estos valores con el campo original " Credit rating " que contiene las respuestas reales.

    Por convención, los nombres de los campos generados durante la puntuación se basan en el campo de destino, pero con un prefijo estándar.
    • $G y ' $GE ' son prefijos para las predicciones que genera el Modelo Lineal Generalizado
    • $R es el prefijo de las predicciones que genera el modelo CHAID
    • $RC es para valores de confianza
    • el $X " se genera normalmente utilizando un conjunto
    • $XR, ' $XS, ' $XF se utilizan como prefijos en los casos en que el campo de destino es un campo Continuo, Categórico, Conjunto o Indicador

    Un valor de confianza es la propia estimación del modelo, en una escala de 0,0 a 1,0, de la precisión de cada valor predicho.

    Figura 9. Tabla que muestra las puntuaciones generadas y los valores de confianza
    Tabla que muestra las puntuaciones generadas y los valores de confianza

    Como era de esperar, el valor previsto coincide con las respuestas reales de muchos registros, pero no de todos. El motivo es que cada nodo terminal CHAID tiene una mezcla de respuestas. La predicción coincide con la más común, pero es errónea para todas las demás de ese nodo. (Recupera la minoría del 18% de los clientes de bajos ingresos que no han incurrido en demora.)

    Para evitar este problema, podría seguir dividiendo el árbol en ramas cada vez más pequeñas hasta que cada nodo fuera 100% puro; todo Bueno o Malo sin respuestas mixtas. Pero un modelo así es complicado y es poco probable que se generalice bien a otros conjuntos de datos.

    Para saber exactamente cuántas predicciones son correctas, puede leer la tabla y contar el número de registros en los que el valor del campo de predicción " $R-Credit rating " coincide con el valor de " Credit rating. Sin embargo, lo más sencillo es utilizar un nodo Análisis, que rastrea automáticamente los registros en los que coinciden estos valores.

  4. Conecte el nugget modelo al nodo Análisis.
  5. Pase el ratón por encima del nodo Análisis y haga clic en el icono Ejecutar ' Icono de ejecución.
  6. En el panel Salidas y modelos, haga clic en los resultados de salida con el nombre Análisis para ver los resultados.

    El análisis muestra que en 1960 de los 2.464 registros (más del 79%) el valor predicho por el modelo coincidió con la respuesta real.

    Figura 10. Resultados de análisis que comparan respuestas observadas y predichas
    Resultados de análisis que comparan respuestas observadas y predichas

    Este resultado está limitado por el hecho de que los registros que se han puntuado son los mismos que se han utilizado para estimar el modelo. En una situación real, podría utilizar un nodo Partición para dividir los datos en muestras separadas para el entrenamiento y la evaluación. Si se utiliza una partición de la muestra para generar el modelo y otra muestra para probarlo, se puede obtener una mejor indicación de lo bien que se generaliza a otros conjuntos de datos.

    Puede utilizar el nodo Análisis para probar el modelo con registros de los que ya conoce el resultado real. La etapa siguiente ilustra cómo puede utilizar el modelo para puntuar registros cuyo resultado desconoce. Por ejemplo, este conjunto de datos podría incluir a personas que no son actualmente clientes del banco, pero que son posibles destinatarios de un mailing promocional.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el flujo con los resultados de salida. Ya está listo para puntuar el modelo con nuevos datos.

Flujo completo del modelador

volver a la parte superior

Tarea 6: Puntuar el modelo con nuevos datos

Anteriormente, usted puntuó los registros que se utilizaron para estimar el modelo, a fin de poder evaluar su precisión. Este ejemplo puntúa un conjunto de registros distinto del utilizado para crear el modelo. Evaluar la precisión es uno de los objetivos de la modelización con un campo objetivo. Se estudian los registros de los que se conoce el resultado para identificar patrones que permitan predecir resultados que aún se desconocen.

Puede actualizar el activo de datos existente o el nodo de importación para que apunte a un archivo de datos diferente. También puede añadir un activo de datos o un nodo de importación que lea los datos que desea puntuar. En cualquier caso, el nuevo conjunto de datos debe contener los mismos campos de entrada que utiliza el modelo (Age, ' Income level, ' Education, etc.), pero no el campo de destino ' Credit rating.

También puede añadir la pepita de modelo a cualquier flujo que incluya los campos de entrada previstos. Tanto si se lee de un archivo como de una base de datos, el tipo de fuente no importa si los nombres y tipos de campo coinciden con los que utiliza el modelo.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el flujo completado.

Flujo completo del modelador

volver a la parte superior

Resumen

El flujo de ejemplos de Introducción a la modelización muestra los pasos básicos para crear, evaluar y puntuar un modelo.

  • El nodo Modelización estima el modelo estudiando los registros de los que se conoce el resultado y crea un nugget de modelo. Este proceso se denomina a veces entrenamiento del modelo.
  • El nugget de modelo se puede añadir a cualquier flujo con los campos esperados para puntuar registros. Al puntuar los registros de los que ya conoce el resultado (como los clientes existentes), puede evaluar el grado de rendimiento.
  • Una vez comprobado que el modelo funciona de forma aceptable, puede puntuar nuevos datos (como clientes potenciales) para predecir cómo responderán.
  • Los datos utilizados para entrenar o estimar el modelo pueden denominarse datos analíticos o históricos. Los datos de puntuación también pueden denominarse datos operativos.

Próximos pasos

Ahora está preparado para probar otros tutorialesSPSS Modeler.

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información