Reducir la longitud de la cadena de datos de entrada

Volver a la versión inglesa de la documentación

Última actualización: 12 dic 2024

Reducir la longitud de la cadena de datos de entrada

Este tutorial ofrece un ejemplo de cuándo puede ser necesario reducir la longitud de la cadena de datos de entrada. Para los modelos de regresión logística binomial y los modelos de clasificador automático que incluyen un modelo de regresión logística binomial, los campos de serie están limitados a un máximo de ocho caracteres. Cuando las cadenas tienen más de ocho caracteres, puede recodificarlas utilizando un nodo Reclasificar.

Este ejemplo se centra en una pequeña parte de un flujo para mostrar el tipo de errores que pueden generarse con cadenas demasiado largas, y explica cómo utilizar el nodo Reclassify para cambiar los detalles de la cadena a una longitud aceptable. Aunque el ejemplo utiliza un nodo de Regresión Logística binomial, también puede utilizar el nodo Auto Clasificador para generar un modelo de Regresión Logística binomial.

Pruebe el tutorial

En esta guía de aprendizaje, realizará estas tareas:

Tarea 1: Abrir el proyecto de ejemplo
Tarea 2: Examinar el nodo Activo y Tipo de datos
Tarea 3: Reclasificar valores
Tarea 4: Comprobar el nodo Filtro
Tarea 5: Definir el objetivo
Tarea 6: Generar el modelo

Ejemplo de flujo de modelización y conjunto de datos

Este tutorial utiliza el flujo Reducir la longitud de la cadena de datos de entrada en el proyecto de ejemplo. El archivo de datos utilizado es drug_long_name.csv. La siguiente imagen muestra el flujo del modelador de muestra.

Flujo de ejemplo que muestra la reclasificación de series para la regresión logística binomial — Figura 1. Flujo del modelador de muestras

La siguiente imagen muestra el conjunto de datos de muestra.

Tarea 1: Abrir el proyecto de ejemplo

El proyecto de muestra contiene varios conjuntos de datos y flujos de modelado de muestra. Si aún no tiene el proyecto de ejemplo, consulte el tema Tutoriales para crear el proyecto de ejemplo. A continuación, siga estos pasos para abrir el proyecto de ejemplo:

En ' watsonx, en el menú Navegación ' , seleccione Proyectos > Ver todos los proyectos.
Haga clic en ProyectoSPSS Modeler.
Haga clic en la pestaña Activos para ver los conjuntos de datos y los flujos del modelador.

' Comprueba tu progreso

La siguiente imagen muestra la pestaña Activos del proyecto. Ahora está listo para trabajar con el flujo del modelador de ejemplo asociado a este tutorial.

Proyecto de ejemplo

volver a la parte superior

Tarea 2: Examinar el nodo Activo y Tipo de datos

Reducir la longitud de la cadena de datos de entrada incluye varios nodos. Siga estos pasos para examinar el nodo Activo de Datos y Tipo:

En la pestaña Activos, abra el flujo del modelador Reducir longitud de cadena de datos de entrada y espere a que se cargue el lienzo.
Haga doble clic en el nodo drug_long_name.csv. Este nodo es un nodo de Activo de Datos que apunta al archivo drug_long_name.csv en el proyecto.
Revise las propiedades del formato de archivo.
Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos completo.
Haga doble clic en el nodo Tipo después del nodo Activo de datos. Este nodo especifica las propiedades de los campos, como el nivel de medición (el tipo de datos que contiene el campo) y la función de cada campo como objetivo o entrada en el modelado. El nivel de medición es una categoría que indica el tipo de datos del campo. El archivo de datos de origen utiliza tres niveles de medición diferentes:
- Un campo continuo (como el campo " Age ") contiene valores numéricos continuos.
- Un campo Nominal (como el campo " Drug ") tiene dos o más valores distintos; en este caso, " drugA o " drugB.
- Un campo Bandera (como el campo " Sex ) describe datos con múltiples valores distintos que tienen un orden inherente; en este caso, " F, y " M.
Figura 3. Propiedades del nodo type

Para cada campo, el nodo Tipo también especifica una función para indicar el papel que desempeña cada campo en el modelado. La función se establece en Objetivo para el campo " Cholesterol_long, que es el campo que indica si un cliente tiene un nivel normal o alto de colesterol. El objetivo es el campo para el que desea predecir el valor.

Para los demás campos, la función es "Entrada". Los campos de entrada se conocen a veces como predictores, o campos cuyos valores se utilizan en el algoritmo de modelado para predecir el valor del campo objetivo.
Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos filtrados.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el nodo Tipo. Ahora está listo para ver el nodo Logística.

volver a la parte superior

Tarea 3: Reclasificar los valores

En esta tarea, ejecutas el modelo y descubres un error, Sigue estos pasos para reclasificar los valores y evitar el error:

Desde la sección Modelado de la paleta, arrastre el nodo Logística al lienzo y conéctelo al nodo Tipo existente después del nodo Activo de Datos.
Haga doble clic en el nodo Colesterol_largo para ver sus propiedades.
Seleccione el procedimiento Binomial (en lugar del procedimiento Multinomial por defecto).
- Se utiliza un modelo binomial cuando el campo objetivo es una bandera o un campo nominal con dos valores discretos.
- Se utiliza un modelo Multinomial cuando el campo objetivo es un campo nominal con más de dos valores.
Pulse Guardar.
Pase el ratón por encima del nodo Colesterol_largo y haga clic en el icono Ejecutar ' . Un mensaje de error le advierte de que los valores de la cadena ' Cholesterol_long ' son demasiado largos. Puede utilizar un nodo Reclasificar para transformar los valores y solucionar este problema. El nodo Reclasificar es útil para colapsar categorías o reagrupar datos para su análisis.

Figura 4. Notificaciones
Haga doble clic en el nodo Colesterol (Reclasificar) para ver sus propiedades. Observe que el campo de reclasificación es " Cholesterol_long " y el nombre del nuevo campo es " Cholesterol.
Haga clic en Obtener valores y, a continuación, amplíe la sección Reclasificar automáticamente. Añade los valores ' Cholesterol_long ' a la columna de valores original.
En la columna de nuevos valores, para el valor original Nivel alto de colesterol, escriba " High " y para el valor original Nivel normal de colesterol, escriba " Normal. Estos ajustes acortan los valores para evitar el mensaje de error.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el nodo Reclasificar. Ahora está listo para comprobar el nodo Filtro.

volver a la parte superior

Tarea 4: Comprobar el nodo Filtro

Siga estos pasos para ver y comprobar el nodo Filtro:

Haga doble clic en el nodo Filtro para ver sus propiedades.
Observe que este nodo filtra el campo ' Cholesterol_long.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el nodo Filtro. Ya está listo para definir el objetivo.

volver a la parte superior

Tarea 5: Definir el objetivo

Puede especificar propiedades de campo en un nodo Tipo. Siga estos pasos para definir el objetivo en el nodo Tipo:

Haga doble clic en el nodo Tipo después del nodo Filtro para ver sus propiedades.
Haga clic en Leer valores para leer los valores de su fuente de datos y establecer los tipos de medición de los campos. La función indica a los nodos de modelado si los campos son de entrada (campos de predicción) o de destino (campos de predicción) para un proceso de aprendizaje automático. Ambas y Ninguna también son funciones disponibles, junto con Partición, que indica un campo que se utiliza para dividir los registros en muestras separadas para la formación, la prueba y la validación. El valor Split especifica que se construyan modelos separados para cada valor posible del campo.
Para el campo Colesterol, establezca el rol en Objetivo.
Pulse Guardar.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el nodo Tipo. Ya está listo para generar el modelo.

volver a la parte superior

Tarea 6: Generar el modelo

Siga estos pasos para ver la salida del modelo en formato de tabla:

Pase el ratón por encima del nodo Colesterol (Logística) y haga clic en el icono Ejecutar ' .
En la sección Salidas de la paleta, arrastre el nodo Tabla al lienzo y conéctelo a la pepita del modelo.
Pase el ratón por encima del nodo Tabla que está conectado al modelo Colesterol y haga clic en el icono Ejecutar ' .
En el panel Salidas y modelos, haga clic en los resultados de salida con el nombre Tabla para ver la salida de la tabla.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra la salida del modelo.

volver a la parte superior

Resumen

Este ejemplo muestra el tipo de errores que pueden generarse con cadenas demasiado largas, y explica cómo utilizar el nodo Reclasificar para cambiar los detalles de la cadena a una longitud aceptable. Aunque el ejemplo utiliza un nodo de Regresión Logística binomial, es igualmente aplicable cuando se utiliza el nodo Auto Clasificador para generar un modelo de Regresión Logística binomial.

Próximos pasos

Ahora está preparado para probar otros tutorialesSPSS® Modeler.