Este tutorial construye dos modelos para predecir los efectos de futuras promociones de ventas y, a continuación, compara los modelos.
De forma similar al tutorial de monitorización de condiciones, el proceso de minería de datos consta de las fases de exploración, preparación de datos, entrenamiento y prueba. No todos los datos del archivo " telco.csv " son útiles para predecir la rotación. Puede utilizar el filtro para seleccionar sólo los datos que se consideran importantes para su uso como predictor (los campos marcados como Importante en el modelo).
Vista previa de la guía de aprendizaje
Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber ligeras diferencias en la interfaz de usuario que se muestra en el vídeo. El vídeo pretende ser un complemento del tutorial escrito. Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Pruebe el tutorial
En esta guía de aprendizaje, realizará estas tareas:
Ejemplo de flujo de modelización y conjunto de datos
Este tutorial utiliza el flujo Promoción de ventas al por menor del proyecto de ejemplo. El archivo de datos utilizado es goods2n.csv. La siguiente imagen muestra el flujo del modelador de muestra.
Figura 1. Flujo del modelador de muestras
La siguiente imagen muestra el conjunto de datos de muestra.Figura 2. Muestra de datos
Tarea 1: Abrir el proyecto de ejemplo
El proyecto de muestra contiene varios conjuntos de datos y flujos de modelado de muestra. Si aún no tiene el proyecto de muestra, consulte el tema Tutoriales para crearlo. A continuación, siga estos pasos para abrir el proyecto de ejemplo:
En Cloud Pak for Data, en el menú de navegación, elija Proyectos > Ver todos los proyectos.
Haga clic en ProyectoSPSS Modeler.
Haga clic en la pestaña Activos para ver los conjuntos de datos y los flujos del modelador.
Compruebe su progreso
La siguiente imagen muestra la pestaña Activos del proyecto. Ahora está listo para trabajar con el flujo del modelador de ejemplo asociado a este tutorial.
Tarea 2: Examinar los nodos Data Asset, Derive y Type
La promoción de ventas al por menor incluye varios nodos. Siga estos pasos para examinar los nodos Activo de datos, Derivar y Tipo:
Nodo Activo de datos
En la pestaña Activos, abra el flujo del modelador Promoción de ventas al por menor y espere a que se cargue el lienzo.
Haga doble clic en el nodo goods1n.csv. Este nodo es un nodo de Activos de Datos que apunta al archivo goods1n.csv en el proyecto.
Revise las propiedades del formato de archivo.
Haga clic en Vista previa de datos para ver el conjunto de datos completo.
Observa que cada registro contiene:
Class. Tipo de producto.
Cost. Precio unitario.
Promotion. Índice del importe gastado en una promoción concreta.
Before. Ingresos antes de la promoción.
After. Ingresos después de la promoción.
Los dos campos de ingresos (Before " y " After) se expresan en términos absolutos. Sin embargo, parece probable que el aumento de los ingresos después de la promoción (y presumiblemente como resultado de ella) pueda ser una cifra más útil.
Cierre la vista previa de datos y el panel lateral de propiedades.
Nodo Derivar
Haga doble clic en el nodo Aumentar (Derivar). Este nodo obtiene el valor del aumento de los ingresos.
Revise la configuración, en particular, el campo Expresión; que contiene una fórmula para derivar el incremento como porcentaje de los ingresos antes de la promoción: ' (After - Before) /
Before * 100.0.
Haga clic en Vista previa de datos para ver el conjunto de datos con los valores derivados.
Fíjese en la columna Incremento.
Para cada clase de producto, existe una relación casi lineal entre el aumento de los ingresos y el coste de la promoción. Por lo tanto, parece probable que un árbol de decisión o una red neuronal pueda predecir, con una precisión razonable, el aumento de los ingresos de los otros campos disponibles.
Cierre la vista previa de datos y el panel lateral de propiedades.
Nodo Tipo
Haga doble clic en el nodo Definir tipos (Tipo). Este nodo especifica las propiedades de los campos, como el nivel de medición (el tipo de datos que contiene el campo) y la función de cada campo como objetivo o entrada en el modelado. El nivel de medición es una categoría que indica el tipo de datos del campo. El archivo de datos de origen utiliza tres niveles de medición diferentes:
Un campo continuo (como el campo " Age ") contiene valores numéricos continuos.
Un campo nominal (como el campo " Education ") tiene dos o más valores distintos, en este caso " College o " High school.
Un campo ordinal (como el campo " Income level ") describe datos con varios valores distintos que tienen un orden inherente, en este caso " Low, " Medium y " High.
Para cada campo, el nodo Tipo también especifica una función para indicar el papel que desempeña cada campo en el modelado. El rol se establece en Target para el campo ' Increase, que es el campo que se derivó. El ' target ' es el campo para el que desea predecir el valor.
En la mayoría de los demás campos, la función es "Entrada". Los campos de entrada se conocen a veces como " predictors, o campos cuyos valores utiliza el algoritmo de modelización para predecir el valor del campo objetivo.
La función del campo " After " es Ninguna, por lo que el algoritmo de modelado no utiliza este campo.
Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos con los valores derivados.
Compruebe su progreso
La siguiente imagen muestra el nodo Tipo. Ya está listo para generar y comparar los modelos.
El flujo entrena una red neuronal y un árbol de decisión para hacer esta predicción de aumento de ingresos. Siga estos pasos para generar los dos modelos:
Generar los modelos
Haga doble clic en el nodo Incremento (Red neuronal ) para revisar sus propiedades.
Amplíe la sección Conceptos básicos para ver que el Perceptrón multicapa es el tipo de modelo. Esta propiedad determina cómo la red conecta los predictores con los objetivos a través de las capas ocultas. El perceptrón multicapa permite relaciones más complejas con el posible coste de aumentar el tiempo de entrenamiento y puntuación.
Amplíe la sección Opciones del modelo para ver las propiedades de evaluación y puntuación.
Haga doble clic en el nodo Aumentar (Árbol C&R ) para ver sus propiedades.
Haga clic en Ejecutar todos los, y espere a que se generen los nuggets de modelos.
Comparar los modelos
Conecta la pepita de modelo Increase (C&R Tree) a la pepita Increase (Neural net).
Añade un nodo de Análisis:
En la paleta, amplíe la sección Salidas.
Arrastre el nodo Análisis al lienzo.
Conecte el modelo Increase (Neural net) al nodo Analysis.
Cambie el conjunto de datos para utilizar datos diferentes para el análisis:
Haga doble clic en el nodo goods1n.csv para ver sus propiedades.
CV lick ' Cambiar el conjunto de datos.
Vaya a Activo de datos > GOODS2n.csv.
Pulse Seleccionar.
Pulse Guardar.
Pase el cursor sobre el nodo Análisis y haga clic en el icono Ejecutar.
En el panel Salidas y modelos, haga clic en la salida con el nombre Análisis para ver los resultados.
Del resultado del análisis, en particular de la correlación lineal entre el aumento previsto y la respuesta correcta, se desprende que los sistemas entrenados predicen el aumento de los ingresos con un alto grado de acierto.
La exploración adicional podría centrarse en los casos donde los sistemas entrenados cometen errores relativamente grandes. Puede identificar estos errores representando gráficamente el aumento previsto de los ingresos frente al aumento real. A continuación, podría seleccionar valores atípicos en un gráfico utilizando los gráficos interactivos de SPSS Modeler y, a partir de sus propiedades, podría ser posible ajustar la descripción de los datos o el proceso de aprendizaje para mejorar la precisión.
Compruebe su progreso
La siguiente imagen muestra la salida del nodo Análisis.
Este ejemplo le ha mostrado cómo predecir los efectos de futuras promociones de ventas. De forma similar al ejemplo de la supervisión de estado, el proceso de extracción de datos consta de las fases de exploración, preparación de datos, formación y prueba.
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Tasks you'll do
Some tasks have a choice of tools and services.
Tools you'll use
Some tools perform the same tasks but have different features and levels of automation.
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Automate the model lifecycle, including preparing data, training models, and creating deployments.
Work with R notebooks and scripts in an integrated development environment.
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deploy and run your data science and AI solutions in a test or production environment.
Find and share your data and other assets.
Import asset metadata from a connection into a project or a catalog.
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Measure and monitor the quality of your data.
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Create your business vocabulary to enrich assets and rules to protect data.
Track data movement and usage for transparency and determining data accuracy.
Track AI models from request to production.
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Create a virtual table to segment or combine data from one or more tables.
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
Discover, profile, catalog, and share trusted data in your organization.
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
View, access, manipulate, and analyze your data without moving it.
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Where you work with data.
> Projects > View all projects
Where you find and share assets.
> Catalogs > View all catalogs
Where you deploy and run assets that are ready for testing or production.
> Deployments
Where you manage governance artifacts.
> Governance > Categories
Where you virtualize data.
> Data > Data virtualization
Where you consolidate data into a 360 degree view.
Acerca de las cookies de este sitioNuestros sitios web necesitan algunas cookies para funcionar correctamente (necesarias). Además, se pueden utilizar otras cookies con su consentimiento para analizar el uso del sitio, para mejorar la experiencia del usuario y para publicidad.Para obtener más información, consulte sus opciones de. Al visitar nuestro sitio web, acepta que procesemos la información tal y como se describe en ladeclaración de privacidad de IBM.Para facilitar la navegación, sus preferencias de cookies se compartirán entre los dominios web de IBM que se muestran aquí.