Este tutorial construye un modelo de regresión logística, que es una técnica estadística para clasificar registros basándose en los valores de los campos de entrada. Es análoga a la regresión lineal pero utiliza un campo objetivo categórico en lugar de uno numérico.
Por ejemplo, supongamos que un proveedor de telecomunicaciones ha segmentado su base de clientes por patrones de uso del servicio, clasificando a los clientes en cuatro grupos. Si los datos demográficos se pueden utilizar para predecir la pertenencia a un grupo, se pueden personalizar las ofertas para cada uno de los posibles clientes.
Vista previa de la guía de aprendizaje
Copy link to section
Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber ligeras diferencias en la interfaz de usuario que se muestra en el vídeo. El vídeo pretende ser un complemento del tutorial escrito. Este vídeo ofrece un método visual para aprender los conceptos y tareas de esta documentación.
Pruebe el tutorial
Copy link to section
En esta guía de aprendizaje, realizará estas tareas:
Ejemplo de flujo de modelización y conjunto de datos
Copy link to section
Este tutorial utiliza el flujo Clasificación de clientes de telecomunicaciones en el proyecto de ejemplo. El archivo de datos utilizado es telco.csv. La siguiente imagen muestra el flujo del modelador de muestra.
Figura 1. Flujo del modelador de muestras
La siguiente imagen muestra el conjunto de datos utilizado con este flujo de modelización.
Figura 2. Muestra de datos
Este ejemplo se centra en la utilización de datos demográficos para predecir patrones de uso. El campo objetivo custcat tiene cuatro valores posibles que corresponden a los cuatro grupos de clientes, de la siguiente manera:
Tabla 1. Valores posibles para el campo objetivo
Valor
Etiqueta
1
Servicio básico
2
Servicio electrónico
3
Servicio Plus
4
Servicio total
Como el objetivo tiene varias categorías, se utiliza un modelo multinomial. Si el objetivo tiene dos categorías distintas, como sí/no, verdadero/falso o cambiar/no cambiar, se puede crear un modelo binomial.
Tarea 1: Abrir el proyecto de ejemplo
Copy link to section
El proyecto de muestra contiene varios conjuntos de datos y flujos de modelado de muestra. Si aún no tiene el proyecto de muestra, consulte el tema Tutoriales para crearlo. A continuación, siga estos pasos para abrir el proyecto de ejemplo:
En watsonx, en el menú de navegación, seleccione Proyectos > Ver todos los proyectos.
Haga clic en ProyectoSPSS Modeler.
Haga clic en la pestaña Activos para ver los conjuntos de datos y los flujos del modelador.
Compruebe su progreso
La siguiente imagen muestra la pestaña Activos del proyecto. Ya está preparado para trabajar con el flujo del modelador de ejemplo asociado a este tutorial.
Tarea 2: Examinar los nodos Activo de datos, Tipo y Filtro
Copy link to section
Clasificación de los clientes de telecomunicaciones El flujo del modelador incluye varios nodos. Siga estos pasos para examinar tres de los nodos:
En la pestaña Activos, abra el flujo del modelador Clasificación de clientes de telecomunicaciones y espere a que se cargue el lienzo.
Haga doble clic en el nodo telco.csv. Este nodo es un nodo de Activos de Datos que apunta al archivo telco.csv en el proyecto.
Revise las propiedades del formato de archivo.
Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos completo.
Haga doble clic en el nodo Tipo y haga clic en Leer valores. Este nodo especifica las propiedades de los campos, como el nivel de medición (el tipo de datos que contiene el campo) y la función de cada campo como objetivo o entrada en el modelado. Asegúrese de que todos los niveles de medición están ajustados correctamente. Por ejemplo, la mayoría de los campos con valores " 0.0 " y " 1.0 " pueden considerarse banderas.
Figura 3. Niveles de medición
Tenga en cuenta que " gender " se considera más correctamente como un campo con un conjunto de dos valores, en lugar de una bandera, por lo que deje su valor de medición como Nominal.
Defina el rol para el campo custcat en Objetivo. Deje el rol para todos los demás campos establecido en Entrada.
Haga doble clic en el nodo Filtro para ver sus propiedades.
Observe que este nodo filtra sólo los campos relevantes: ' region, ' age, ' marital, ' address, ' income, ' ed, ' employ, ' retire, ' gender, ' reside, y ' custcat). Para este análisis se excluyen otros campos.
Compruebe su progreso
La siguiente imagen muestra el nodo Filtro. Ahora está listo para ver el nodo Logística.
Pase el cursor por encima del nodo custcat (Logistic ) y haga clic en el icono Ejecutar.
En el panel Salidas y modelos, haga clic en el modelo custcat para ver los resultados.
Figura 6. Modelo Gráfico de importancia de las características
A continuación, puede explorar la información del modelo, la importancia de la característica (predictor) y la información de estimaciones de parámetros.
Estos resultados se basan únicamente en los datos de entrenamiento. Para evaluar la generalización del modelo a otros datos del mundo real, puede utilizar un nodo Partición para mantener un subconjunto de registros con fines de prueba y validación.
Este ejemplo muestra cómo utilizar datos demográficos para predecir patrones de uso mediante la creación de un modelo de regresión logística para clasificar registros en función de los valores de los campos de entrada.
Acerca de las cookies de este sitioNuestros sitios web necesitan algunas cookies para funcionar correctamente (necesarias). Además, se pueden utilizar otras cookies con su consentimiento para analizar el uso del sitio, para mejorar la experiencia del usuario y para publicidad.Para obtener más información, consulte sus opciones de preferencias de cookies. Al visitar nuestro sitio web, acepta que procesemos la información tal y como se describe en ladeclaración de privacidad de IBM.Para facilitar la navegación, sus preferencias de cookies se compartirán entre los dominios web de IBM que se muestran aquí.