Este tutorial utiliza el nodo Autoclasificador para crear automáticamente y comparar una serie de modelos diferentes para objetivos marcados (como si es probable que un cliente específico incumpla el pago de un préstamo o responda a una oferta concreta) o nominales (establecidos).
En este ejemplo, se busca un resultado de bandera (sí o no). En un flujo relativamente simple, el nodo genera y clasifica un conjunto de modelos candidatos, elige los que tienen el mejor rendimiento y los combina en un único modelo agregado (de conjunto). Este método combina la facilidad de la automatización con los beneficios de combinar múltiples modelos, que suelen producir predicciones más precisas que cualquier otro modelo.
Este ejemplo se basa en una empresa ficticia que desea obtener resultados más rentables haciendo coincidir la oferta adecuada con cada cliente. Este método refuerza las ventajas de la automatización. Para un ejemplo similar que utiliza un objetivo continuo (rango numérico), consulte los otros tutoriales deSPSS® Modeler.
Vista previa de la guía de aprendizaje
Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber ligeras diferencias en la interfaz de usuario que se muestra en el vídeo. El vídeo pretende ser un complemento del tutorial escrito. Este vídeo ofrece un método visual para aprender los conceptos y tareas de esta documentación.
Pruebe el tutorial
En esta guía de aprendizaje, realizará estas tareas:
Ejemplo de flujo de modelización y conjunto de datos
Este tutorial utiliza el flujo Modelado automatizado para un objetivo de bandera en el proyecto de ejemplo. El archivo de datos utilizado es pm_customer_train1.csv. La siguiente imagen muestra el flujo del modelador de muestra.
Figura 1. Flujo del modelador de muestras
Este ejemplo utiliza el archivo de datos pm_customer_train1.csv, que contiene datos históricos que rastrean las ofertas realizadas a clientes específicos en campañas pasadas, como indica el valor del campo " campaign ".
La siguiente imagen muestra el conjunto de datos de muestra.Figura 2. Muestra de datos
Tarea 1: Abrir el proyecto de ejemplo
El proyecto de muestra contiene varios conjuntos de datos y flujos de modelado de muestra. Si aún no tiene el proyecto de muestra, consulte el tema Tutoriales para crear el proyecto de muestra. A continuación, siga estos pasos para abrir el proyecto de ejemplo:
En Cloud Pak for Data, en el menú de navegación, elija Proyectos > Ver todos los proyectos.
Haga clic en ProyectoSPSS Modeler.
Haga clic en la pestaña Activos para ver los conjuntos de datos y los flujos del modelador.
Compruebe su progreso
La siguiente imagen muestra la pestaña Activos del proyecto. Ya está preparado para trabajar con el flujo del modelador de ejemplo asociado a este tutorial.
El modelado automatizado para un objetivo de bandera incluye varios nodos. Siga estos pasos para examinar el nodo Activo de datos.
En la pestaña Activos, abra el flujo del modelador Modelado automatizado para un objetivo de bandera y espere a que se cargue el lienzo.
Haga doble clic en el nodo pm_customer_train1.csv. Este nodo es un nodo de Activo de Datos que apunta al archivo pm_customer_train1.csv en el proyecto.
Revise las propiedades del formato de archivo.
Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos completo.
El mayor número de registros corresponde a la campaña Cuenta Premium. Los valores del campo " campaign " se codifican como números enteros en los datos (por ejemplo, " 2 = Premium account). Más tarde, se definen etiquetas para estos valores que se pueden utilizar para dar una salida más significativa.
El fichero también incluye un campo " response " que indica si la oferta ha sido aceptada (0 =
no, y " 1 = yes). El campo ' response ' es el campo objetivo, o valor, que desea predecir. También se incluyen varios campos con información demográfica y financiera sobre cada cliente. Estos campos se utilizan para construir o entrenar un modelo que prediga las tasas de respuesta de individuos o grupos en función de características como los ingresos, la edad o el número de transacciones al mes.
Compruebe su progreso
La siguiente imagen muestra el nodo de Activos de Datos. Ahora está listo para editar el nodo Tipo.
Ahora que ha explorado el activo de datos, siga estos pasos para ver y editar las propiedades del nodo Tipo:
Haga doble clic en el nodo Tipo. Este nodo especifica las propiedades de los campos, como el nivel de medición (el tipo de datos que contiene el campo) y la función de cada campo como objetivo o entrada en el modelado. El nivel de medición es una categoría que indica el tipo de datos del campo. El archivo de datos de origen utiliza tres niveles de medición diferentes:
Un campo continuo (como el campo " Age ") contiene valores numéricos continuos.
Un campo Nominal (como el campo " Education ") tiene dos o más valores distintos; en este caso. College o High school.
Un campo ordinal (como el campo " Income level ") describe datos con múltiples valores distintos que tienen un orden inherente; en este caso, " Low, " Medium y " High.
Verifique que el campo de respuesta # es el campo objetivo (Rol = Objetivo), y la medida para este campo a Bandera.Figura 3. Establecer el nivel de medición y el rol
Compruebe que el rol a está establecido en Ninguno para los siguientes campos. Estos campos se ignoran cuando se construye el modelo.
customer_id
campaña
fecha_respuesta
Comprar
fecha_compra
product_id
ROWID
X_random
Haga clic en Leer valores en el nodo Tipo para asegurarse de que se instancian los valores.
Como ha visto antes, los datos de origen incluyen información sobre cuatro campañas diferentes, cada una dirigida a un tipo distinto de cuenta de cliente. Estas campañas se codifican como números enteros en los datos, por lo que para ayudar a recordar qué tipo de cuenta representa cada número entero, defina etiquetas para cada una.
Figura 4. Elija especificar valores para un campo
En la fila # campaña y en la columna Modo de valor, seleccione Especificar en la lista.
Haga clic en el icono Editar, en la fila del campo #campaña.
Verifique las etiquetas como se muestra para cada uno de los cuatro valores.Figura 5. Definir etiquetas para los valores de los campos
Pulse Aceptar. Ahora, las etiquetas se muestran en las ventanas de salida en lugar de los enteros.
Pulse Guardar.
Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos con las propiedades de Tipo aplicadas.
Compruebe su progreso
La siguiente imagen muestra el nodo Tipo. Ahora está listo para seleccionar una campaña para analizar.
Aunque los datos incluyen información sobre cuatro campañas diferentes, usted centra el análisis en una campaña cada vez. Siga estos pasos para ver el nodo Seleccionar para analizar sólo la campaña de la cuenta Premium:
Haga doble clic en el nodo Seleccionar para ver sus propiedades.
Fíjate en la condición. Dado que el mayor número de registros corresponde a la campaña de la cuenta Premium (codificada como " campaign=2 " en los datos), el nodo Select selecciona sólo estos registros.
Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos con las propiedades de Selección aplicadas.
Compruebe su progreso
La siguiente imagen muestra el nodo Seleccionar. Ya está listo para construir el modelo.
Ahora que ha seleccionado una única campaña para analizar, siga estos pasos para construir el modelo que utiliza el nodo Autoclasificador:
Haga doble clic en el nodo Response (Auto Classifier ) para ver sus propiedades.
Amplíe la sección Opciones de compilación.
En el campo Clasificar modelos por, seleccione Precisión global como métrica utilizada para clasificar los modelos.
Establezca el Número de modelos a utilizar en 3. Esta opción significa que los tres mejores modelos se construyen cuando se ejecuta el nodo.Figura 6. Nodo Clasificador automático, opciones de creación
Amplíe la sección Experto para ver los distintos algoritmos de modelado.
Desactive los tipos de modelos Discriminante, SVM y Bosque aleatorio. Estos modelos tardan más en entrenarse con estos datos, por lo que eliminarlos acelera el ejemplo.
Al establecer la propiedad Número de modelos a utilizar en ' 3 en Opciones de compilación, el nodo calcula la precisión de los algoritmos restantes y genera un único nugget de modelo que contiene los tres más precisos.
Figura 7. Nodo Clasificador automático, opciones de Experto
En las opciones de Conjunto, seleccione Votación ponderada por confianza como método de conjunto para Fijar objetivos y Marcar objetivos. Este ajuste determina cómo se produce una única puntuación agregada para cada registro.
Con la votación simple, si dos de cada tres modelos predicen Sí, entonces Sí gana por un voto de 2 a 1. En el caso de la votación ponderada por confianza, los votos se ponderan en función del valor de confianza para cada predicción. Además, si un modelo predice no con mayor confianza que las dos predicciones sí combinadas, ganará no.
Figura 8. Nodo Clasificador automático, opciones de conjunto
Pulse Guardar.
Pase el cursor sobre el nodo Respuesta (clasificador automático ) y haga clic en el icono Ejecutar.
En el panel Salidas y modelos, haga clic en el modelo con el nombre respuesta para ver los resultados. Verá los detalles de cada uno de los modelos que se crean durante la ejecución. (En una situación real, en la que podrían crearse cientos de modelos sobre un gran conjunto de datos, la ejecución del flujo podría llevar muchas horas)
Haga clic en el nombre de un modelo para explorar los resultados de cada uno de ellos.
Por defecto, los modelos se ordenan en función de la precisión global, ya que usted seleccionó esa medida en las propiedades del nodo Autoclasificador. El modelo de árbol XGBoost obtiene la mejor clasificación según esta medida, pero los modelos C5.0 y C&RT son casi tan precisos.
En función de estos resultados, puede decidir utilizar los tres modelos más precisos. Al combinar las predicciones de varios modelos, pueden evitarse las limitaciones de los modelos individuales, lo que se traduce en una mayor precisión global.
En la columna USO, compruebe que los tres modelos y, a continuación, cierre la ventana del modelo.
Compruebe su progreso
La siguiente imagen muestra la tabla comparativa de modelos. Ya está listo para ejecutar el análisis del modelo.
Ahora que ha revisado los modelos generados, siga estos pasos para ejecutar un análisis de los modelos:
Pase el cursor sobre el nodo Análisis y haga clic en el icono Ejecutar.
En el panel Salidas y modelos, haga clic en la salida Análisis para ver los resultados.
La puntuación agregada generada por el modelo ensamblado se muestra en un campo denominado " $XF-response. Cuando se compara con los datos de entrenamiento, el valor predicho coincide con la respuesta real (registrada en el campo original " response ") con una precisión global 92.77. Aunque en este caso no es tan preciso como el mejor de los tres modelos individuales (92,82% para C5.0), la diferencia es demasiado pequeña como para ser significativa. En términos generales, es más probable que un modelo de conjunto se ejecute bien cuando se aplique a conjuntos de datos que no sean los datos de entrenamiento.
Compruebe su progreso
La siguiente imagen muestra la comparación de modelos que utiliza el nodo Análisis.
Con este flujo de ejemplo ' Modelización automatizada de un objetivo bandera, usted utilizó el nodo ' Clasificador automático ' para comparar varios modelos diferentes, utilizó los tres modelos más precisos, y los añadió al flujo dentro de un nugget de modelo Auto Clasificador ensamblado.
En función de la precisión global, los modelos Árbol XGBoost, C5.0 y Árbol C&RT han tenido un mejor rendimiento en los datos de entrenamiento.
El modelo ensamblado funcionó casi tan bien como el mejor de los modelos individuales y podría funcionar mejor si se aplicara a otros conjuntos de datos. Si su objetivo es automatizar el proceso en la medida de lo posible, este enfoque ayuda a obtener un modelo sólido en la mayoría de las circunstancias sin tener que profundizar en los detalles específicos de cada modelo.
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Tasks you'll do
Some tasks have a choice of tools and services.
Tools you'll use
Some tools perform the same tasks but have different features and levels of automation.
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Automate the model lifecycle, including preparing data, training models, and creating deployments.
Work with R notebooks and scripts in an integrated development environment.
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deploy and run your data science and AI solutions in a test or production environment.
Find and share your data and other assets.
Import asset metadata from a connection into a project or a catalog.
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Measure and monitor the quality of your data.
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Create your business vocabulary to enrich assets and rules to protect data.
Track data movement and usage for transparency and determining data accuracy.
Track AI models from request to production.
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Create a virtual table to segment or combine data from one or more tables.
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
Discover, profile, catalog, and share trusted data in your organization.
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
View, access, manipulate, and analyze your data without moving it.
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Where you work with data.
> Projects > View all projects
Where you find and share assets.
> Catalogs > View all catalogs
Where you deploy and run assets that are ready for testing or production.
> Deployments
Where you manage governance artifacts.
> Governance > Categories
Where you virtualize data.
> Data > Data virtualization
Where you consolidate data into a 360 degree view.
Acerca de las cookies de este sitioNuestros sitios web necesitan algunas cookies para funcionar correctamente (necesarias). Además, se pueden utilizar otras cookies con su consentimiento para analizar el uso del sitio, para mejorar la experiencia del usuario y para publicidad.Para obtener más información, consulte sus opciones de. Al visitar nuestro sitio web, acepta que procesemos la información tal y como se describe en ladeclaración de privacidad de IBM.Para facilitar la navegación, sus preferencias de cookies se compartirán entre los dominios web de IBM que se muestran aquí.