Automatiser la modélisation pour une cible de drapeau
Dernière mise à jour : 11 févr. 2025
Automatiser la modélisation pour une cible de drapeau
Ce tutoriel utilise le nœud Auto Classifier pour créer automatiquement et comparer un certain nombre de modèles différents pour les cibles de type indicateur (par exemple, si un client spécifique est susceptible de ne pas rembourser un prêt ou de répondre à une offre particulière) ou nominal (défini).
Dans cet exemple, vous recherchez un résultat de type "drapeau" (oui ou non). Dans un flux relativement simple, le noeud génère et classe un ensemble de modèles candidats, choisit les plus performants et les combine en un unique modèle agrégé. Cette approche conjugue la facilité de l'automatisation aux avantages de combiner plusieurs modèles ce qui permet généralement des prédictions plus précises que celles de tout autre modèle.
Cet exemple est basé sur une société fictive qui souhaite obtenir des résultats plus rentables en faisant correspondre l'offre appropriée à chaque client. Cette approche souligne les avantages de l'automatisation. Pour un exemple similaire utilisant une cible continue (plage numérique), voir les autres didacticiels deSPSS® Modeler.
Aperçu du tutoriel
Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur présentée dans la vidéo. La vidéo est destinée à accompagner le tutoriel écrit. Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Essayez le tutoriel
Dans ce tutoriel, vous exécutez les tâches suivantes :
Exemple de flux de modélisateurs et d'ensemble de données
Ce tutoriel utilise le flux Modélisation automatisée d'une cible de drapeau dans le projet d'exemple. Le fichier de données utilisé est pm_customer_train1.csv. L'image suivante montre un exemple de flux de modélisation.
Figure 1 : Flux du modeleur d'échantillon
Ce exemple s'appuie sur le fichier de données pm_customer_train1.csv, dont le contenu retrace l'historique des offres faites à des clients spécifiques au cours de campagnes passées identifiées par la valeur du champ campaign.
L'image suivante montre l'échantillon de données.Figure 2. Exemple de données
Tâche 1 : Ouvrir le projet d'exemple
L'exemple de projet contient plusieurs ensembles de données et des exemples de flux de modélisation. Si vous n'avez pas encore le projet exemple, reportez-vous à la rubrique Tutoriels pour créer le projet exemple. Suivez ensuite les étapes suivantes pour ouvrir l'exemple de projet :
Dans le menu de navigation , choisissez Projets > Afficher tous les projets Cloud Pak for Data dans le menu de navigation, choisissez Projets > Voir tous les projets.
Cliquez sur SPSS Modeler Project.
Cliquez sur l'onglet Actifs pour voir les ensembles de données et les flux du modélisateur.
Vérifiez vos progrès
L'image suivante montre l'onglet Actifs du projet. Vous êtes maintenant prêt à travailler avec l'exemple de flux du modeleur associé à ce tutoriel.
La modélisation automatisée d'une cible de drapeau comprend plusieurs nœuds. Procédez comme suit pour examiner le nœud Data Asset.
Dans l'onglet Actifs, ouvrez le flux du modeleur Automated Modeling for a Flag Target et attendez que le canevas se charge.
Double-cliquez sur le nœud pm_customer_train1.csv. Ce nœud est un nœud de ressources de données qui pointe vers le fichier pm_customer_train1.csv du projet.
Examinez les propriétés du format de fichier.
Facultatif : cliquez sur "Aperçu des données" pour voir l'ensemble des données : Cliquez sur Aperçu des données pour voir l'ensemble des données.
Le plus grand nombre d'enregistrements se trouve dans la campagne Premium account. Les valeurs du champ " campaign sont codées sous forme d'entiers dans les données (par exemple " 2 = Premium account). Plus tard, vous définirez des étiquettes pour ces valeurs que vous pourrez utiliser pour obtenir des résultats plus significatifs.
Le fichier comprend également un champ " response qui indique si l'offre a été acceptée (0 =
no et " 1 = yes). Le champ " response est le champ cible, ou la valeur, que vous souhaitez prédire. Divers champs contenant des informations démographiques et financières sur chaque client sont également inclus. Ces champs sont utilisés pour construire ou former un modèle qui prédit les taux de réponse pour des individus ou des groupes en fonction de caractéristiques telles que le revenu, l'âge ou le nombre de transactions par mois.
Vérifiez vos progrès
L'image suivante présente le nœud Data Asset. Vous êtes maintenant prêt à modifier le nœud Type.
Maintenant que vous avez exploré le bien de données, suivez les étapes suivantes pour afficher et modifier les propriétés du nœud Type :
Double-cliquez sur le nœud Type. Ce nœud spécifie les propriétés des champs, telles que le niveau de mesure (le type de données que le champ contient), et le rôle de chaque champ en tant que cible ou entrée dans la modélisation. Le niveau de mesure est une catégorie qui indique le type de données du champ. Le fichier de données source utilise trois niveaux de mesure différents :
Un champ continu (tel que le champ " Age ) contient des valeurs numériques continues.
Un champ nominal (tel que le champ " Education ) a deux ou plusieurs valeurs distinctes ; dans ce cas. College ou 'High school.
Un champ ordinal (tel que le champ " Income level ) décrit des données comportant plusieurs valeurs distinctes ayant un ordre inhérent ; dans ce cas, " Low, " Medium et " High.
Vérifiez que le champ de réponse # est le champ cible (Role = Target) et que la mesure pour ce champ est Flag.Figure 3 Définir le niveau et le rôle de la mesure
Vérifiez que le rôle est défini sur Aucun pour les champs suivants. Ces champs sont ignorés lors de la construction du modèle.
customer_id
campagne Spectrum NAS Channels
date_de_réponse
achat
date_d'achat
product_id
identificateur de ligne
X_random
Cliquez sur Lire les valeurs dans le nœud Type pour vous assurer que les valeurs sont instanciées.
Comme vous l'avez vu précédemment, les données sources comprennent des informations sur quatre campagnes différentes, chacune ciblant un type de compte client différent. Ces campagnes sont codées sous forme de nombres entiers dans les données. Pour vous aider à vous souvenir du type de compte que chaque nombre entier représente, définissez des étiquettes pour chacun d'entre eux.
Figure 4 Choisissez de spécifier des valeurs pour un champ
Dans la ligne # campaign et la colonne Value Mode, sélectionnez Specify dans la liste.
Cliquez sur l'icône Modifier dans la ligne correspondant au champ # campaign.
Vérifier les étiquettes comme indiqué pour chacune des quatre valeurs.Figure 5. Définir des étiquettes pour les valeurs des champs
Cliquez sur OK. Désormais, les étiquettes sont affichées dans les fenêtres de sortie à la place des nombres entiers.
Cliquez sur Sauvegarder.
Facultatif : Cliquez sur Aperçu des données pour voir l'ensemble de données avec les propriétés Type appliquées.
Vérifiez vos progrès
L'image suivante montre le nœud Type. Vous êtes maintenant prêt à sélectionner une campagne à analyser.
Bien que les données contiennent des informations sur quatre campagnes différentes, vous concentrez l'analyse sur une seule campagne à la fois. Suivez les étapes suivantes pour afficher le nœud Sélectionner afin d'analyser uniquement la campagne du compte Premium :
Double-cliquez sur le nœud Select pour afficher ses propriétés.
Remarquez la condition. Étant donné que le plus grand nombre d'enregistrements relève de la campagne du compte Premium (codée " campaign=2 dans les données), le nœud Select ne sélectionne que ces enregistrements.
Facultatif : Cliquez sur Prévisualiser les données pour voir l'ensemble de données avec les propriétés Select appliquées.
Vérifiez vos progrès
L'image suivante montre le nœud Select. Vous êtes maintenant prêt à construire le modèle.
Maintenant que vous avez sélectionné une seule campagne à analyser, suivez les étapes suivantes pour construire le modèle qui utilise le nœud Auto Classifier:
Double-cliquez sur le nœud Response (Auto Classifier) pour afficher ses propriétés.
Développez la section Build Options (Options de construction).
Dans le champ Classer les modèles par, sélectionnez Précision globale comme mesure utilisée pour classer les modèles.
Définissez le nombre de modèles à utiliser sur 3. Cette option signifie que les trois meilleurs modèles sont construits lors de l'exécution du nœud.Figure 6 Noeud Classificateur automatique, options de construction
Développez la section Expert pour voir les différents algorithmes de modélisation.
Effacer les types de modèles Discriminant, SVM et Random Forest. L'apprentissage de ces modèles sur ces données prend plus de temps, c'est pourquoi leur élimination accélère l'exemple.
Parce que vous avez défini la propriété Nombre de modèles à utiliser sur " 3 sous Options de construction, le nœud calcule la précision des algorithmes restants et génère une pépite de modèle unique contenant les trois plus précis.
Dans les options Ensemble, sélectionnez le vote pondéré par la confiance comme méthode d'ensemble pour les options Définir les cibles et Marquer les cibles. Ce paramètre détermine la manière dont un score agrégé unique est produit pour chaque enregistrement.
Avec un vote simple, si deux modèles sur trois prédisent Oui, Oui gagne par un vote de 2 à 1. Dans le cas du vote pondéré par la confiance, les votes sont pondérés en fonction de la valeur de confiance pour chaque prévision. Par conséquent, si un modèle prévoit non avec un niveau de confiance plus élevé que les deux prévisions oui combinées, alors non l'emporte.
Survolez le nœud Response (Auto Classifier) et cliquez sur l'icône Run (Exécuter).
Dans le volet Sorties et modèles, cliquez sur le modèle portant le nom response pour afficher les résultats. Les détails de chacun des modèles créés au cours de l'exécution s'affichent. (Dans une situation réelle, où des centaines de modèles peuvent être créés sur un grand ensemble de données, l'exécution du flux peut prendre plusieurs heures)
Cliquez sur le nom d'un modèle pour explorer les résultats de chacun d'entre eux.
Par défaut, les modèles sont triés sur la base de la précision globale, car vous avez sélectionné cette mesure dans les propriétés du nœud Auto Classifier. Le modèle XGBoost Tree est en meilleure position selon cette mesure, mais les modèles C5.0 et C&RT sont presque aussi exacts.
En fonction de ces résultats, vous pouvez décider d'utiliser les trois modèles les plus précis. En combinant les prédictions de plusieurs modèles, les limites des modèles individuels peuvent être évitées, ce qui se traduit par une plus grande précision globale.
Dans la colonne UTILISATION, vérifiez que les trois modèles sont bien présents, puis fermez la fenêtre du modèle.
Vérifiez vos progrès
L'image suivante montre le tableau de comparaison des modèles. Vous êtes maintenant prêt à effectuer l'analyse du modèle.
Maintenant que vous avez examiné les modèles générés, suivez les étapes suivantes pour effectuer une analyse des modèles :
Survolez le nœud Analyse et cliquez sur l'icône Exécuter.
Dans le volet Sorties et modèles, cliquez sur la sortie Analyse pour afficher les résultats.
Le score agrégé généré par le modèle assemblé est indiqué dans un champ appelé " $XF-response". Lorsque les valeurs prédites sont mesurées par rapport aux données d'entraînement, elles correspondent à la réponse réelle (enregistrée dans le champ response d'origine) avec une exactitude globale de 92,77 %. Même si cette valeur n'est pas aussi bonne que celle obtenue par le meilleur des trois modèles (92,82 % pour C5.0), la différence est trop minime pour être significative. Généralement, un modèle combiné sera plus performant lorsqu'il sera appliqué à des jeux de données autres que les données de formation.
Vérifiez vos progrès
L'image suivante montre la comparaison de modèles qui utilise le nœud d'analyse.
Dans cet exemple de flux " Modélisation automatisée d'une cible de drapeau, vous avez utilisé le nœud " Classificateur automatique pour comparer plusieurs modèles différents, vous avez utilisé les trois modèles les plus précis et vous les avez ajoutés au flux dans une pépite de modèle Auto Classifier assemblé.
La meilleure exactitude globale sur les données d'entraînement a été obtenue par les modèles XGBoost Tree, C5.0 et C&R Tree.
Le modèle assemblé est presque aussi performant que le meilleur des modèles individuels et pourrait être plus performant lorsqu'il est appliqué à d'autres ensembles de données. Si votre objectif est d'automatiser le processus autant que possible, cette approche permet d'obtenir un modèle robuste dans la plupart des circonstances sans avoir à approfondir les spécificités d'un modèle en particulier.
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Tasks you'll do
Some tasks have a choice of tools and services.
Tools you'll use
Some tools perform the same tasks but have different features and levels of automation.
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Automate the model lifecycle, including preparing data, training models, and creating deployments.
Work with R notebooks and scripts in an integrated development environment.
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deploy and run your data science and AI solutions in a test or production environment.
Find and share your data and other assets.
Import asset metadata from a connection into a project or a catalog.
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Measure and monitor the quality of your data.
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Create your business vocabulary to enrich assets and rules to protect data.
Track data movement and usage for transparency and determining data accuracy.
Track AI models from request to production.
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Create a virtual table to segment or combine data from one or more tables.
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
Discover, profile, catalog, and share trusted data in your organization.
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
View, access, manipulate, and analyze your data without moving it.
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Where you work with data.
> Projects > View all projects
Where you find and share assets.
> Catalogs > View all catalogs
Where you deploy and run assets that are ready for testing or production.
> Deployments
Where you manage governance artifacts.
> Governance > Categories
Where you virtualize data.
> Data > Data virtualization
Where you consolidate data into a 360 degree view.
À propos des cookies sur ce sitePour fonctionner correctement, nos sites Internet nécessitent certains cookies (requis). En outre, d'autres cookies peuvent être utilisés avec votre consentement pour analyser l'utilisation d'un site, améliorer l'expérience des utilisateurs et à des fins publicitaires.Pour plus informations, passez en revue vos options de préférences en. En visitant notre site Web, vous acceptez que nous traitions les informations comme décrit dans ladéclaration de confidentialité d’IBM.Pour faciliter la navigation, vos préférences en matière de cookie seront partagées dans les domaines Web d'IBM énumérés ici.