Este tutorial construye un modelo de regresión logística, que es una técnica estadística para clasificar registros basándose en los valores de los campos de entrada. Es análogo a la regresión lineal, pero toma un campo objetivo categórico en lugar de un campo numérico.
Por ejemplo, supongamos que un proveedor de telecomunicaciones está preocupado por el número de clientes que está perdiendo en favor de sus competidores. Si pudiera utilizar los datos de uso de servicio para predecir qué clientes es más probable que se pasen a otro proveedor, podría personalizar las ofertas para retener al mayor número posible de clientes.
Pruebe el tutorial
En esta guía de aprendizaje, realizará estas tareas:
Ejemplo de flujo de modelización y conjunto de datos
Este tutorial utiliza el flujo Telecommunications Churn en el proyecto de ejemplo. El archivo de datos utilizado es telco.csv. La siguiente imagen muestra el flujo del modelador de muestra.
Este ejemplo se centra en la utilización de datos de uso para predecir el abandono de clientes. Como el objetivo tiene dos categorías distintas, se utiliza un modelo binomial. Si el objetivo tiene varias categorías, puede crearse en su lugar un modelo multinomial.
La siguiente imagen muestra el conjunto de datos utilizado con este flujo de modelización.
Tarea 1: Abrir el proyecto de ejemplo
El proyecto de muestra contiene varios conjuntos de datos y flujos de modelado de muestra. Si aún no tiene el proyecto de ejemplo, consulte el tema Tutoriales para crear el proyecto de ejemplo. A continuación, siga estos pasos para abrir el proyecto de ejemplo:
- En Cloud Pak for Data, en el menú de navegación ' , seleccione Proyectos > Ver todos los proyectos.
- Haga clic en ProyectoSPSS Modeler.
- Haga clic en la pestaña Activos para ver los conjuntos de datos y los flujos del modelador.
' Comprueba tu progreso
La siguiente imagen muestra la pestaña Activos del proyecto. Ya está preparado para trabajar con el flujo del modelador de ejemplo asociado a este tutorial.
Tarea 2: Examinar el nodo Activo y Tipo de datos
El churn de telecomunicaciones incluye varios nodos. Siga estos pasos para examinar los nodos Activo de datos y Tipo:
- En la pestaña Activos, abra el flujo del modelador de churn de telecomunicaciones y espere a que se cargue el lienzo.
- Haga doble clic en el nodo telco.csv. Este nodo es un nodo de Activos de Datos que apunta al archivo telco.csv en el proyecto.
- Revise las propiedades del formato de archivo.
- Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos completo.
- Haga doble clic en el nodo Tipo. Este nodo especifica las propiedades de los campos, como el nivel de medición (el tipo de datos que contiene el campo) y la función de cada campo como objetivo o entrada en el modelado. Asegúrese de que todos los niveles de medición están ajustados correctamente. Por ejemplo, la mayoría de los campos con valores "
0.0
" y "1.0
" pueden considerarse indicadores, pero algunos campos, como el sexo, son más precisos como campos nominales con dos valores.churn
" se establece como un indicador con una función de destino. La función de todos los demás campos es Entrada. - Haga doble clic en el nodo de modelado churn (Selección de rasgos ) para ver sus propiedades. Puede utilizar un nodo de Selección de Características para eliminar predictores o datos que no añadan ninguna información útil sobre la relación predictor/objetivo.
- Pase el ratón por encima del nodo churn (Selección de características) y haga clic en el icono Ejecutar ' .
- En el panel Salidas y modelos, haga clic en el primer modelo de la lista con el nombre churn para ver los detalles del modelo.
' Comprueba tu progreso
La siguiente imagen muestra los detalles del modelo. Ahora está listo para comprobar el nodo Filtro.
Tarea 3: Comprobar el nodo Filtro
Sólo algunos de los datos del archivo telco.csv son útiles para predecir el churn. Puede utilizar el filtro para seleccionar sólo los datos que se consideran importantes para utilizarlos como predictor (los campos marcados como Importante en el modelo que se genera en la tarea anterior). Siga estos pasos para ver y comprobar el nodo Filtro:
- Haga doble clic en el nodo Características Importantes (Filtro ) para ver sus propiedades.
- Observe que este nodo filtra sólo los campos seleccionados: '
tenure
, 'age
, 'address
, 'income
, 'ed
, 'employ
, etc. Para este análisis se excluyen otros campos. - Pulse Cancelar.
- Observe que este nodo filtra sólo los campos seleccionados: '
- Haga doble clic en el nodo de salida 28 Campos (Auditoría de datos) después del nodo Filtro.
- Pase el ratón por encima del nodo Auditoría de datos y haga clic en el icono Ejecutar ' .
- En el panel Salidas y modelos, haga clic en los resultados con el nombre Auditoría de datos para ver la salida.
- Observe la columna % Completo, que puede utilizar para identificar los campos con grandes cantidades de datos que faltan. En este caso, el único campo que debe modificar es
logtoll
, que es inferior al 50% completado. - Cierre la salida.
- Haga doble clic en el supernodo Imputación de valores perdidos.
- Haga clic en Ver supernodo.
- Haga doble clic en el nodo Rellenar logtoll (Filler).Los nodos de relleno se utilizan para sustituir valores de campo y modificar el almacenamiento. Puede sustituir los valores en función de una condición CLEM especificada, como
@BLANK(FIELD)
. También puede sustituir todos los espacios vacíos o valores nulos por un valor específico. Los nodos de relleno se utilizan a menudo con el nodo Tipo para reemplazar los valores que faltan.En la sección Rellenar campos, puede especificar los campos del conjunto de datos cuyos valores desea examinar y sustituir. En este caso, la columna "logtoll
" se especifica junto con una opción de valores en blanco y nulos en la sección Reemplazar. - Haga clic en Volver al flujo anterior.
' Comprueba tu progreso
La imagen siguiente muestra el flujo. Ya está listo para construir el modelo.
Tarea 4: Construir el modelo
Usted construye un modelo que utiliza el nodo Logístico. Sigue estos pasos para construir el modelo:
- Haga doble clic en el nodo churn (Logistic ), después del supernodo Missing Value Imputation, para ver sus propiedades.
- En la sección Configuración del modelo, seleccione el procedimiento Binomial.
- Se utiliza un modelo binomial cuando el campo objetivo es una bandera o un campo nominal con dos valores discretos.
- Se utiliza un modelo Multinomial cuando el campo objetivo es un campo nominal con más de dos valores.
- A continuación, seleccione el método progresivo hacia delante.
- En la sección Opciones de experto, seleccione el modo Experto.
- Haga clic en Salida. Seleccione En cada paso, Historial de iteraciones y Estimaciones de los parámetros y, a continuación, pulse Aceptar.
' Comprueba tu progreso
La imagen siguiente muestra el flujo. Ya está listo para generar el modelo.
Tarea 5: Generar el modelo
Siga estos pasos para generar un nugget de modelo a partir del nodo Logistic :
- Pase el ratón por encima del nodo churn (Logística) y haga clic en el icono Ejecutar ' .
- En el panel Resultados y modelos, haga clic en el modelo de rotación para ver los resultados.
La página Variables en la ecuación muestra el objetivo (churn) y las entradas (campos predictores) utilizados por el modelo. Estos campos se eligen en función del método progresivo Forwards, no de la lista completa sometida a consideración.
Para evaluar hasta qué punto el modelo se ajusta a sus datos, dispone de varios diagnósticos en la configuración del nodo experto cuando está construyendo el flujo.
Tenga en cuenta también que estos resultados se basan solo en los datos de entrenamiento. Para evaluar la generalización del modelo a otros datos del mundo real, se utiliza un nodo Partición para seleccionar un subconjunto de registros con fines de prueba y validación.
' Comprueba tu progreso
La siguiente imagen muestra los resultados del modelo.
Resumen
Este ejemplo mostraba cómo utilizar los datos de uso para predecir la pérdida de clientes (churn) construyendo un modelo binomial porque el objetivo tiene dos categorías distintas.
Próximos pasos
Ahora está preparado para probar otros tutorialesSPSS® Modeler.