Automatiser la modélisation pour un objectif continu
Dernière mise à jour : 11 févr. 2025
Automatiser la modélisation pour un objectif continu
Ce tutoriel utilise le nœud Auto Numeric pour créer et comparer automatiquement différents modèles pour des résultats continus (plage numérique), tels que la prédiction de la valeur imposable d'une propriété. Avec un seul noeud, vous pouvez estimer et comparer un ensemble de modèles candidats et générer un sous-ensemble de modèles pour des analyses ultérieures. Ce nœud fonctionne de la même manière que le nœud Auto Classifier, mais pour des cibles continues plutôt que pour des cibles à drapeaux ou nominales.
Il combine le meilleur des modèles candidats dans un nugget de modèle agrégé (d'ensemble) unique. Cette approche conjugue la facilité de l'automatisation aux avantages de combiner plusieurs modèles ce qui permet généralement des prédictions plus précises que celles de tout autre modèle.
Cet exemple se concentre sur un responsable de municipalité fictif qui ajuste et estime les taxes foncières. Pour atteindre cet objectif avec plus de précision, vous construisez un modèle qui prédit la valeur des biens immobiliers en fonction du type de bâtiment, du quartier, de la taille et d'autres facteurs connus.
Aperçu du tutoriel
Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur présentée dans la vidéo. La vidéo est destinée à accompagner le tutoriel écrit. Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Essayez le tutoriel
Dans ce tutoriel, vous exécutez les tâches suivantes :
Exemple de flux de modélisateurs et d'ensembles de données
Ce tutoriel utilise le flux " Modélisation automatisée d'une cible continue dans le projet d'exemple. Le fichier de données utilisé est property_values_train.csv. L'image suivante montre un exemple de flux de modélisation.
Figure 1 : Flux du modeleur d'échantillon
Le fichier de données comprend un champ nommé " taxable_value, qui est le champ cible, ou la valeur, que vous souhaitez prédire. Les autres champs contiennent des informations telles que le quartier, le type de bâtiment et le volume intérieur, et peuvent être utilisés comme prédicteurs.
Nom de champ
Libellé
property_id
ID de la propriété
neighborhood
Secteur de la ville
building_type
Type de construction
year_built
Année de construction
volume_interior
Volume intérieur
volume_other
Volume du garage et des dépendances
lot_size
Taille du lot
taxable_value
Valeur imposable
L'image suivante montre l'échantillon de données.Figure 2. Exemple de données
Tâche 1 : Ouvrir le projet d'exemple
L'exemple de projet contient plusieurs ensembles de données et des exemples de flux de modélisation. Si vous n'avez pas encore le projet exemple, reportez-vous à la rubrique Tutoriels pour créer le projet exemple. Suivez ensuite les étapes suivantes pour ouvrir l'exemple de projet :
En Cloud Pak for Data dans le menu de navigation, choisissez Projets > Voir tous les projets.
Cliquez sur SPSS Modeler Project.
Cliquez sur l'onglet Actifs pour voir les ensembles de données et les flux du modélisateur.
Vérifiez vos progrès
L'image suivante montre l'onglet Actifs du projet. Vous êtes maintenant prêt à travailler avec l'exemple de flux du modeleur associé à ce tutoriel.
La modélisation automatisée d'une cible continue comprend plusieurs nœuds. Procédez comme suit pour examiner les nœuds Data Asset et Type:
Dans l'onglet Actifs, ouvrez le flux du modeleur Modélisation automatisée pour une cible continue et attendez que le canevas se charge.
Double-cliquez sur le nœud property_values_train.csv. Ce nœud est un nœud de ressources de données qui pointe vers le fichier property_values_train.csv du projet.
Examinez les propriétés du format de fichier.
Facultatif : cliquez sur "Aperçu des données" pour voir l'ensemble des données : Cliquez sur Aperçu des données pour voir l'ensemble des données.
Double-cliquez sur le nœud Type.
Pour le champ taxable_value, définissez le rôle sur Target. D'autres champs sont utilisés comme prédicteurs.Figure 3 Définir le niveau et le rôle de la mesure
Facultatif : Cliquez sur Aperçu des données pour voir l'ensemble des données filtrées.
Vérifiez vos progrès
L'image suivante montre le nœud Type. Vous êtes maintenant prêt à configurer le nœud de modélisation.
Cet exemple utilise un nœud de modélisation numérique automatique qui estime et compare les modèles afin d'essayer différentes approches pour une plage numérique continue. Procédez comme suit pour configurer le nœud de modélisation:
Double-cliquez sur le nœud de la valeur imposable pour afficher ses propriétés.
Développez la section Basics et définissez les propriétés suivantes :
Dans le champ Classer les modèles par, sélectionnez Corrélation.
Dans le champ Nombre de modèles à utiliser, tapez " 3. Cela signifie que les trois meilleurs modèles seront construits lorsque vous exécutez le noeud.
Figure 4 Nœud numérique automatique Section de base
Développez la section Expert. Six algorithmes sont sélectionnés, ce qui fait que le nœud estime un seul modèle pour chaque algorithme, soit un total de six modèles. (Vous pouvez également modifier ces paramètres pour comparer plusieurs variantes pour chaque type de modèle.) Parce que vous avez défini la propriété Nombre de modèles à utiliser sur " 3 dans la section Bases, le nœud calcule la précision des six algorithmes et construit une pépite de modèle unique contenant les trois plus précis.Figure 5. Nœud numérique automatique Section Expert
Développez la section Ensemble pour afficher les paramètres par défaut. Étant donné que vous utilisez une cible continue dans cet exemple, le score de l'ensemble est généré en faisant la moyenne des scores des modèles individuels.Figure 6 Nœud numérique automatique Section de l'ensemble
Vérifiez vos progrès
L'image suivante montre le nœud de modélisation. Vous êtes maintenant prêt à comparer les modèles.
Maintenant que vous avez spécifié les trois modèles à construire, suivez les étapes suivantes pour générer et comparer les modèles :
Survolez le nœud taxable_value et cliquez sur l'icône Exécuter.
Dans le volet Sorties et modèles, cliquez sur les résultats portant le nom valeur_imposable pour afficher les résultats.
Vous verrez des détails sur chacun des modèles créés au cours de l'exécution. (Dans une situation réelle, où des centaines de modèles sont estimés sur un grand ensemble de données, l'exécution du flux peut prendre plusieurs heures) La table contient un ensemble de modèles générés par le nœud de modélisation.
Pour explorer plus avant l'un des modèles individuels, cliquez sur le nom d'un modèle dans la colonne Estimateur pour afficher les résultats du modèle individuel.
Afficher la page d'information sur le modèle. Ce tableau contient des informations sur le type de modèle adapté, identifie le champ cible, le nombre de caractéristiques d'entrée, les fonctions d'activation et la taille du réseau résultant.
Afficher les autres pages du modèle.
Fermez les détails du modèle.
Par défaut, les modèles sont triés par précision (corrélation) car vous avez sélectionné la corrélation comme mesure dans les propriétés du nœud Auto Numeric. A des fins de classement, la valeur absolue de l'exactitude est utilisée, les valeurs les plus proches de 1 indiquant une relation très forte.
Vous pouvez faire porter le tri sur une autre colonne en cliquant sur son en-tête.
En fonction de ces résultats, vous pouvez décider d'utiliser les trois modèles les plus précis. En combinant les prédictions de plusieurs modèles, les limites des modèles individuels peuvent être évitées, ce qui se traduit par une plus grande précision globale.
Vérifiez que les trois modèles sont sélectionnés dans la colonne Utilisation.
Fermez la fenêtre Modèle de vue : valeur_imposable.
Vérifiez vos progrès
L'image suivante montre le tableau de comparaison des modèles. Vous êtes maintenant prêt à effectuer l'analyse du modèle.
Maintenant que vous avez visualisé une comparaison des trois modèles, vous pouvez suivre les étapes suivantes pour effectuer une analyse des modèles :
Survolez le nœud Analyse et cliquez sur l'icône Exécuter.
Dans le volet Sorties et modèles, cliquez sur les résultats de sortie portant le nom Analyse pour afficher les résultats.
Le score moyen généré par le modèle assemblé est ajouté dans un champ nommé " $XR-taxable_value, avec une corrélation de 0.934, ce qui est plus élevé que les scores des trois modèles individuels. Les scores de l'ensemble montrent également une faible erreur absolue moyenne et pourraient être plus performants que n'importe lequel des modèles individuels lorsqu'ils sont appliqués à d'autres ensembles de données.
Vérifiez vos progrès
L'image suivante montre la comparaison de modèles à partir du nœud d'analyse.
Dans cet exemple de flux " Modélisation automatisée d'une cible de drapeau, vous avez utilisé le nœud " Auto Numérique pour comparer plusieurs modèles différents, sélectionner les trois modèles les plus précis et les ajouter au flux au sein d'une pépite de modèle Auto Numeric assemblé.
Le modèle assemblé a montré des performances supérieures à celles de deux des modèles individuels et pourrait être plus performant lorsqu'il est appliqué à d'autres ensembles de données. Si votre objectif est d'automatiser le processus autant que possible, cette approche permet d'obtenir un modèle robuste dans la plupart des circonstances sans avoir à approfondir les spécificités d'un modèle en particulier.
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Tasks you'll do
Some tasks have a choice of tools and services.
Tools you'll use
Some tools perform the same tasks but have different features and levels of automation.
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Automate the model lifecycle, including preparing data, training models, and creating deployments.
Work with R notebooks and scripts in an integrated development environment.
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deploy and run your data science and AI solutions in a test or production environment.
Find and share your data and other assets.
Import asset metadata from a connection into a project or a catalog.
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Measure and monitor the quality of your data.
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Create your business vocabulary to enrich assets and rules to protect data.
Track data movement and usage for transparency and determining data accuracy.
Track AI models from request to production.
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Create a virtual table to segment or combine data from one or more tables.
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
Discover, profile, catalog, and share trusted data in your organization.
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
View, access, manipulate, and analyze your data without moving it.
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Where you work with data.
> Projects > View all projects
Where you find and share assets.
> Catalogs > View all catalogs
Where you deploy and run assets that are ready for testing or production.
> Deployments
Where you manage governance artifacts.
> Governance > Categories
Where you virtualize data.
> Data > Data virtualization
Where you consolidate data into a 360 degree view.
À propos des cookies sur ce sitePour fonctionner correctement, nos sites Internet nécessitent certains cookies (requis). En outre, d'autres cookies peuvent être utilisés avec votre consentement pour analyser l'utilisation d'un site, améliorer l'expérience des utilisateurs et à des fins publicitaires.Pour plus informations, passez en revue vos options de préférences en. En visitant notre site Web, vous acceptez que nous traitions les informations comme décrit dans ladéclaration de confidentialité d’IBM.Pour faciliter la navigation, vos préférences en matière de cookie seront partagées dans les domaines Web d'IBM énumérés ici.