Ce tutoriel utilise le nœud Feature Selection pour vous aider à identifier les champs les plus importants dans la prédiction d'un certain résultat. À partir d'un ensemble de centaines, voire de milliers de variables prédictives, le nœud Feature Selection (sélection de caractéristiques) examine, classe et sélectionne les variables prédictives susceptibles d'être les plus importantes. En fin de compte, vous obtiendrez peut-être un modèle plus rapide et plus efficace, qui utilise moins de prédicteurs, s'exécute plus rapidement et est plus facile à comprendre.
Aperçu du tutoriel
Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur présentée dans la vidéo. La vidéo est destinée à accompagner le tutoriel écrit. Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Essayez le tutoriel
Dans ce tutoriel, vous exécutez les tâches suivantes :
Exemple de flux de modélisateurs et d'ensembles de données
Ce didacticiel utilise le flux Screening Predictors dans le projet exemple. Le fichier de données utilisé est customer_dbase.csv. L'image suivante montre un exemple de flux de modélisation.
Figure 1 : Flux du modeleur d'échantillon
Cet exemple n'emploie comme cible que l'une des offres. Il utilise le nœud de construction arborescente CHAID pour développer un modèle décrivant les clients les plus susceptibles de répondre à la promotion. Il met en opposition deux approches :
Sans sélection de caractéristiques. Tous les champs prédicteurs du jeu de données sont employés comme entrées pour l'arbre CHAID.
Avec sélection de caractéristiques. Le nœud de sélection des caractéristiques est utilisé pour sélectionner les 10 meilleurs prédicteurs. Ces prédicteurs sont introduits dans l'arbre CHAID.
En comparant les deux modèles d'arbre obtenus, vous pouvez voir comment la sélection des caractéristiques peut produire des résultats efficaces.
L'image suivante montre l'échantillon de données.Figure 2. Exemple de données
Tâche 1 : Ouvrir le projet d'exemple
L'exemple de projet contient plusieurs ensembles de données et des exemples de flux de modélisation. Si vous n'avez pas encore le projet exemple, reportez-vous à la rubrique Tutoriels pour créer le projet exemple. Suivez ensuite les étapes suivantes pour ouvrir l'exemple de projet :
En Cloud Pak for Data dans le menu de navigation, choisissez Projets > Voir tous les projets.
Cliquez sur SPSS Modeler Project.
Cliquez sur l'onglet Actifs pour voir les ensembles de données et les flux du modélisateur.
Vérifiez vos progrès
L'image suivante montre l'onglet Actifs du projet. Vous êtes maintenant prêt à travailler avec l'exemple de flux du modeleur associé à ce tutoriel.
Suivez les étapes suivantes pour construire le modèle :
Double-cliquez sur le nœud response_01 (Feature Selection) pour afficher ses propriétés.
Développez la section Options de construction pour voir les règles et critères définis qui sont utilisés pour filtrer ou disqualifier les champs.Figure 4 Sélection des caractéristiques Options de construction
Survolez le nœud response_01 (Feature Selection) et cliquez sur l'icône Run (Exécuter).
Dans le volet Sorties et modèles, cliquez sur le modèle portant le nom response_01 pour afficher le modèle. Les résultats montrent les domaines jugés utiles pour la prédiction, classés par ordre d'importance. En examinant ces champs, vous pouvez décider de ceux à utiliser lors des sessions de modélisation suivantes.
Pour comparer les résultats sans sélection de caractéristiques, vous devez utiliser deux nœuds de modélisation CHAID dans le flux : l'un qui utilise la sélection de caractéristiques et l'autre qui ne l'utilise pas.
Double-cliquez sur le nœud Avec tous les champs (CHAID) pour afficher ses propriétés.
Sous Objectifs, vérifiez que les options Construire un nouveau modèle et Créer un modèle standard sont sélectionnées.
Développez la section Base et vérifiez que la profondeur maximale de l'arbre est définie sur Personnalisé et que le nombre de niveaux est défini sur " 5".
Cliquez sur Sauvegarder.
Double-cliquez sur le nœud Using Top 10 Fields (CHAID) pour afficher ses propriétés
Vérifier les mêmes propriétés que le nœud Avec tous les champs (CHAID).
Cliquez sur Sauvegarder.
Vérifiez vos progrès
L'image suivante montre le nœud de modélisation. Vous êtes maintenant prêt à exécuter le flux et à visualiser les résultats.
Tâche 4 : Exécuter le flux et visualiser les résultats
Suivez les étapes suivantes pour exécuter le flux et afficher les résultats des deux modèles avec et sans sélection de caractéristiques :
Cliquez sur Exécuter tous les. Au fur et à mesure de l'exécution, observez le temps qu'il faut à chaque modèle pour terminer sa construction.
Dans le volet Sorties et modèles, cliquez sur le modèle portant le nom Avec tous les champs pour afficher les résultats.
Cliquez sur la page Diagramme de l'arbre.
Faites un zoom arrière pour voir l'étendue du diagramme en arbre.
Fermez la fenêtre des détails du modèle.
Dans le volet Sorties et modèles, cliquez sur l'exécution de modèle portant le nom Utilisation des champs Top 10 pour afficher les résultats.
Cliquez sur la page Diagramme de l'arbre.
Faites un zoom arrière pour voir l'étendue du diagramme en arbre.
C'est peut-être difficile à cerner, mais le deuxième modèle a été plus rapide que le premier. Comme cet ensemble de données est relativement petit, la différence entre les durées d'exécution n'est probablement que de quelques secondes ; mais pour des ensembles de données réels plus importants, la différence peut être notable : quelques minutes, voire quelques heures. L'utilisation de la sélection de caractéristiques peut accélérer considérablement vos temps de traitement.
Vous pourriez plutôt utiliser un algorithme de construction d'arbre pour effectuer le travail de sélection des caractéristiques, permettant à l'arbre d'identifier les prédicteurs les plus importants pour vous. En fait, l'algorithme CHAID est souvent utilisé à cet effet et il est même possible de développer l'arbre niveau par niveau pour en contrôler la profondeur et la complexité. Cependant, le nœud Feature Selection est plus rapide et plus facile à utiliser. Il classe tous les prédicteurs en une seule étape rapide, ce qui vous permet d'identifier rapidement les champs les plus importants.
Vérifiez vos progrès
L'image suivante montre le diagramme d'arbre du modèle.
Le second arbre contient également moins de noeuds d'arbre que le premier. Il est plus simple à comprendre. Utiliser moins de prédicteurs est plus économique. En effet, vous avez moins de données à collecter, à traiter et à intégrer dans vos modèles. Le temps de calcul s'en trouve amélioré. Dans cet exemple, même avec l'étape supplémentaire de la sélection de caractéristiques, la construction du modèle a été plus rapide grâce au jeu réduit de prédicteurs. Avec un ensemble de données réelles plus important, les gains de temps pourraient être considérablement amplifiés.
Utiliser moins de prédicteurs simplifie le scoring. Par exemple, vous pourriez identifier que seuls quatre profils de clients sont susceptibles de répondre à la promotion. Avec un plus grand nombre de prédicteurs, vous courez le risque de surajuster votre modèle. Le modèle le plus simple pourrait mieux s'appliquer à d'autres ensembles de données (bien qu'il faille tester cette approche pour s'en assurer).
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Tasks you'll do
Some tasks have a choice of tools and services.
Tools you'll use
Some tools perform the same tasks but have different features and levels of automation.
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Automate the model lifecycle, including preparing data, training models, and creating deployments.
Work with R notebooks and scripts in an integrated development environment.
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deploy and run your data science and AI solutions in a test or production environment.
Find and share your data and other assets.
Import asset metadata from a connection into a project or a catalog.
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Measure and monitor the quality of your data.
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Create your business vocabulary to enrich assets and rules to protect data.
Track data movement and usage for transparency and determining data accuracy.
Track AI models from request to production.
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Create a virtual table to segment or combine data from one or more tables.
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
Discover, profile, catalog, and share trusted data in your organization.
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
View, access, manipulate, and analyze your data without moving it.
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Where you work with data.
> Projects > View all projects
Where you find and share assets.
> Catalogs > View all catalogs
Where you deploy and run assets that are ready for testing or production.
> Deployments
Where you manage governance artifacts.
> Governance > Categories
Where you virtualize data.
> Data > Data virtualization
Where you consolidate data into a 360 degree view.
À propos des cookies sur ce sitePour fonctionner correctement, nos sites Internet nécessitent certains cookies (requis). En outre, d'autres cookies peuvent être utilisés avec votre consentement pour analyser l'utilisation d'un site, améliorer l'expérience des utilisateurs et à des fins publicitaires.Pour plus informations, passez en revue vos options de préférences en. En visitant notre site Web, vous acceptez que nous traitions les informations comme décrit dans ladéclaration de confidentialité d’IBM.Pour faciliter la navigation, vos préférences en matière de cookie seront partagées dans les domaines Web d'IBM énumérés ici.