Démarrage rapide : Générer un modèle à l'aide de SPSS Modeler
Vous pouvez créer, former et déployer des modèles à l'aide de SPSS Modeler. Lisez en plus sur SPSS Modeler, puis regardez une vidéo et suivez un tutoriel qui convient aux débutants et qui ne nécessite aucun codage.
- Services requis
- Watson Studio (qui inclut SPSS Modeler)
- Watson Machine Learning
Votre flux de travaux de base inclut les tâches suivantes :
- Créez un projet. Les projets sont l'endroit où vous collaborez avec d'autres personnes sur les données.
- Ajoutez un flux SPSS Modeler au projet.
- Configurez les nœuds sur la grille et exécutez le flux.
- Passez en revue les détails du modèle et enregistrez le modèle.
- Déployez et testez votre modèle.
En savoir plus sur SPSS Modeler
Avec les flux SPSS Modeler, vous pouvez développer rapidement des modèles prédictifs à l'aide de l'expertise métier et les déployer dans des opérations métier afin d'améliorer la prise de décision. Conçue autour du logiciel client de longue date SPSS Modeler et du modèle CRISP-DM standard qu'il utilise, l'interface des flux facilite l'ensemble du processus d'exploration des données, des données aux meilleurs résultats commerciaux.
SPSS Modeler propose une variété de méthodes de modélisation tirées de l'apprentissage automatique, de l'intelligence artificielle et des statistiques. Les méthodes disponibles dans la palette de noeuds vous permettent d'extraire de nouvelles informations de vos données et de développer des modèles prédictifs. Chaque méthode possède ses propres avantages et est donc plus adaptée à certains types de problème spécifiques.
En savoir plus sur SPSS Modeler
En savoir plus sur les autres méthodes de génération de modèles
Visionnez une vidéo sur la création d'un modèle à l'aide de SPSS Modeler
Regardez cette vidéo pour voir comment créer et exécuter un flux SPSS Modeler pour former un modèle d'apprentissage automatique.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Suivez un tutoriel pour créer un modèle à l'aide de SPSS Modeler
Dans ce tutoriel, vous exécutez les tâches suivantes :
- Tâche 1: Ouvrir un projet.
- Tâche 2: Ajouter un fichier à votre projet.
- Tâche 3: Créer le flux SPSS Modeler .
- Tâche 4: Ajouter les noeuds au flux SPSS Modeler .
- Tâche 5: Exécuter le flux SPSS Modeler et explorer les détails du modèle.
- Tâche 6: Evaluer le modèle.
- Tâche 7: Déployer et tester le modèle avec de nouvelles données.
Ce tutoriel dure environ 30 minutes.
Données exemple
L'ensemble de données utilisé dans ce tutoriel provient de l'Université de Californie, Irvine, et est le résultat d'une étude approfondie basée sur les admissions à l'hôpital sur une période de temps. Le modèle utilisera trois facteurs importants pour aider à prédire la maladie rénale chronique.
Conseils pour l'exécution de ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.
Utiliser la vidéo image-in-picture
L'image animée suivante montre comment utiliser les fonctions d'image vidéo et de table des matières:
Obtenir de l'aide dans la communauté
Si vous avez besoin d'aide pour ce tutoriel, vous pouvez poser une question ou trouver une réponse dans le forum de discussion de la communautéCloud Pak for Data.
Configurez les fenêtres de votre navigateur
Pour une expérience optimale lors de l'exécution de ce tutoriel, ouvrez Cloud Pak for Data dans une fenêtre de navigateur et laissez cette page de tutoriel ouverte dans une autre fenêtre de navigateur pour basculer facilement entre les deux applications. Envisagez d'organiser les deux fenêtres du navigateur côte à côte pour faciliter le suivi.
Tâche 1: Ouvrir un projet
Vous avez besoin d'un projet pour stocker le flux SPSS Modeler . Vous pouvez utiliser un projet existant ou créer un projet.
Dans le menu de navigation , sélectionnez Projets > Afficher tous les projets .
Ouvrir un projet existant. Si vous souhaitez utiliser un nouveau projet:
Cliquez sur Nouveau projet.
Sélectionnez Créer un projet vide.
Entrez un nom et une description facultative pour le projet.
Choisissez une instance de service object storage existante ou crée en une nouvelle.
Cliquez sur Créer.
Pour plus d'informations ou pour regarder une vidéo, voir Création d'un projet.
Vérifiez votre progression
L'image suivante montre le nouveau projet.
Tâche 2: Ajouter le fichier à votre projet
Pour prévisualiser cette tâche, regardez la vidéo à partir de 00:13.
Ce tutoriel utilise un exemple d'ensemble de données. Pour ajouter l'exemple de fichier à votre projet, procédez comme suit:
Accédez au Référentiel UCI ML: Ensemble de données sur les maladies chroniques du rein dans le concentrateur de ressources.
Cliquez sur Aperçu. Il y a trois facteurs importants qui aident à prédire les maladies chroniques du rein qui sont disponibles dans le cadre de cette analyse : l'âge du sujet du test, les résultats des tests de créatinine sérique et les résultats des tests sur le diabète. Et la valeur de la classe indique si le patient a déjà été diagnostiqué pour une maladie rénale.
Cliquez sur Ajouter au projet.
Sélectionnez le projet dans la liste et cliquez sur Ajouter.
Cliquez sur Afficher le projet.
Dans la page Actifs de votre projet, recherchez le fichier UCI ML Repository Chronic Kidney Disease Data Set.csv.
Vérifiez votre progression
L'image suivante montre l'onglet Actifs dans le projet.
Tâche 3: Créer le flux SPSS Modeler
Pour prévisualiser cette tâche, regardez la vidéo qui commence à 01:11.
Pour créer un flux SPSS Modeler dans le projet, procédez comme suit:
Cliquez sur Nouvel actif > Créer des modèles sous forme de flux visuel .
Entrez un nom et une description pour le flux.
Pour la définition d'exécution, acceptez la définition SPSS Modeler S par défaut.
Cliquez sur Créer. Cela ouvre l'éditeur de flux que vous utiliserez pour créer le flux.
Vérifiez votre progression
L'image suivante montre l'éditeur de flux.
Tâche 4: Ajouter les noeuds au flux SPSS Modeler
Pour prévisualiser cette tâche, regardez la vidéo qui commence à 01:31.
Après avoir chargé les données, vous devez les transformer. Créez un flux simple en faisant glisser des transformateurs et des estimateurs sur le canevas et en les connectant à la source de données. Utilisez les nœuds suivants de la palette :
Data Asset : charge le fichier csv du projet
Partition : divise les données en segments de formation et de test
Type : définit le type de données. Utilisez-le pour désigner la zone
class
comme typetarget
.C5.0 : un algorithme de classification
Analyse : visualiser le modèle et vérifier son exactitude
Tableau : aperçu des données avec les prévisions
Pour créer le flux, procédez comme suit:
Ajoutez le noeud d'actif de données:
Dans la section Importer, faites glisser le nœud Ressource de données sur la grille.
Cliquez deux fois sur le noeud Ressource de données pour sélectionner le fichier.
Sélectionnez Actif de données > Données de maladie rénale chronique du référentiel UCI ML Set.csv.
Cliquez sur Sélectionner.
Affichez les propriétés de l'actif de données.
Cliquez sur Sauvegarder.
Ajoutez le noeud Partition:
Dans la section du champ des opérations, faites glisser le noeud Partition sur la grille.
Connectez le noeud Ressource de données au noeud Partition.
Cliquez deux fois sur le noeud Partition pour voir ses propriétés. La partition par défaut divise la moitié des données pour la formation et l'autre moitié pour les tests.
Cliquez sur Sauvegarder.
Ajoutez le noeud type:
Dans la section du champ des opérations, faites glisser le noeud Type sur la grille.
Connectez le noeud Partition au noeud Type.
Cliquez deux fois sur le noeud Type pour afficher ses propriétés. Le noeud type définit le niveau de mesure pour chaque champ. Ce fichier de données source utilise quatre niveaux de mesure différents : Continu, Catégorie, Nominal, Ordinal, et indicateur.
Recherchez la zone
class
. Pour chaque zone, le rôle indique la partie que chaque zone joue dans la modélisation. Changez leclass
rôle sur cible - le champ que vous voulez prédire.Cliquez sur Sauvegarder.
Ajoutez le noeud d'algorithme de classification C5.0 :
Dans la section Modélisation, faites glisser le noeud C5.0 sur la grille.
Connectez le noeud Type au noeud C5.0.
Cliquez deux fois sur le noeud C5.0 pour afficher ses propriétés. Par défaut, l'algorithme C5.0 génère un arbre de décision. Un modèle C5.0 fonctionne en divisant l'échantillon en fonction de la zone qui fournit le gain d'informations maximal. Chaque sous-échantillon défini par la première division est ensuite divisé à nouveau, généralement basé sur un champ différent, et le processus se répète jusqu'à ce que les sous-échantillons ne puissent plus être divisés. Enfin, les divisions de niveau inférieur sont réexaminées et celles qui ne contribuent pas de façon significative à la valeur du modèle sont supprimées.
Activez l'option Utiliser les paramètres définis dans ce noeud.
Pour Cible, sélectionnez Classe.
Dans la section Entrées, cliquez sur Ajouter des colonnes.
Décochez la case en regard de Nom de zone.
Sélectionnez âge, sc, Dm.
Cliquez sur OK.
Cliquez sur Sauvegarder.
Vérifiez votre progression
L'image suivante montre le flux terminé.
Tâche 5: Exécuter le flux SPSS Modeler et explorer les détails du modèle
Pour prévisualiser cette tâche, regardez la vidéo qui commence à 04:20.
Maintenant que vous avez conçu le flux, procédez comme suit pour exécuter le flux et examinez le diagramme d'arborescence pour voir les points de décision:
Cliquez avec le bouton droit de la souris sur le noeud C5.0 et sélectionnez Exécuter. L'exécution du flux génère un nouveau nugget de modèle sur la grille.
Cliquez avec le bouton droit de la souris sur le nugget de modèle et sélectionnez Afficher le modèle pour afficher les détails du modèle.
Affichez le fichier Informations sur le modèle qui fournit un récapitulatif de modèle.
Cliquez sur Règles de décision les plus hautes. Un tableau affiche une série de règles qui ont été utilisées pour affecter des enregistrements individuels à des nœuds enfants en fonction des valeurs des différents champs d'entrée.
Cliquez sur Importance de la fonction. Un graphique montre l'importance relative de chaque prédicteur dans l'estimation du modèle. De ce fait, vous pouvez voir que la créatinine sérique est facilement le facteur le plus significatif, le diabète étant le facteur le plus important.
Cliquez sur Diagramme d'arborescence. Le même modèle s'affiche sous la forme d'un arbre, avec un noeud à chaque point de décision.
Survolez le noeud supérieur, qui fournit un récapitulatif de tous les enregistrements du jeu de données. Près de 40% des cas de l'ensemble de données sont classés comme n'ayant pas fait l'objet d'un diagnostic de maladie rénale. L'arbre peut fournir des indices supplémentaires sur les facteurs qui pourraient être responsables.
Remarquez les deux branches issues du noeud supérieur, ce qui indique une division par créatinine sérique.
Examinez la branche qui affiche les enregistrements dans lesquels la créatinine sérique est supérieure à 1.25. Dans ce cas, 100 % de ces patients ont un diagnostic positif de maladie du rein.
Examinez la branche qui affiche les enregistrements dans lesquels la créatinine sérique est inférieure ou égale à 1.25. Près de 80 % de ces patients n'ont pas de diagnostic positif de maladie rénale, mais près de 20 % de la créatinine sérique plus faible étaient encore diagnostiqués avec une maladie rénale.
Notez les branches issues de sc<=1.250, qui est divisée par diabète.
Examinez la branche qui montre les patients présentant une créatinine sérique faible (sc<=1.250) et un diabète diagnostiqué (dm = yes). 100% de ces patients ont également reçu un diagnostic de maladie rénale.
Examinez la branche qui montre que les patients avec une créatinine sérique faible (sc<=1.250) et aucun diabète (dm = non), 85% n'ont pas été diagnostiqués avec une maladie rénale, mais 15% d'entre eux ont encore été diagnostiqués avec une maladie rénale.
Notez les branches issues de dm = no, qui sont divisées par le dernier facteur significatif, age.
Examinez la branche qui montre les patients de 14 ans ou moins (âge < = 14). Cette branche montre que 75% des jeunes patients présentant une faible créatininémie et aucun diabète présentaient un risque de développer une maladie rénale.
Passez en revue la branche qui montre les patients de plus de 14 ans (âge > 14 ans). Cette branche montre que seulement 12% des patients âgés de plus de 14 ans présentant une faible créatininémie et aucun diabète présentaient un risque de développer une maladie rénale.
Fermez les détails du modèle.
Vérifiez votre progression
L'image suivante montre le diagramme d'arborescence.
Tâche 6: Evaluer le modèle
Pour prévisualiser cette tâche, regardez la vidéo qui commence à 07:24.
Procédez comme suit pour utiliser les noeuds Analyse et Table afin d'évaluer le modèle:
Dans la section Extrants, faites glisser le noeud Analyse sur la grille.
Connectez le nugget Modèle au noeud Analyse.
Cliquez avec le bouton droit de la souris sur le noeud Analyse et sélectionnez Exécuter.
Dans le panneau Sorties , ouvrez l' analyse, qui indique que le modèle a correctement prédit un diagnostic de maladie rénale presque 95% du temps. Fermez le fichier Analyse.
(Facultatif) Dans la barre d'outils, cliquez sur l'icône Télécharger pour enregistrer le modèle en tant que fichier .str.
Cliquez avec le bouton droit de la souris sur le noeud Analyse et sélectionnez Enregistrer la branche en tant que modèle.
Pour Nom du modèle, entrez
Kidney Disease Analysis
.Cliquez sur Sauvegarder.
Cliquez sur Fermer.
Dans la section d'entrée, faites glisser le noeud Tableau sur la grille.
Connectez le nugget Modèle au noeud Tableau.
Cliquez avec le bouton droit de la souris sur le noeud Table et sélectionnez Prévisualiser les données.
Lorsque l'aperçu s'affiche, faites défiler les deux dernières colonnes. La colonne $C-classe contient la prévision de la maladie rénale, et la colonne $CC-Classe indique le score de confiance pour cette prévision.
Fermez le fichier Aperçu.
Vérifiez votre progression
L'image suivante montre le tableau d'aperçu avec les prévisions.
Tâche 7: Déployer et tester le modèle avec de nouvelles données
Pour prévisualiser cette tâche, regardez la vidéo qui commence à 09:10.
Enfin, suivez ces étapes pour déployer ce modèle et prédire le résultat avec de nouvelles données.
Revenez à l'onglet Actifs du projet.
Cliquez sur la section Modèles et ouvrez le modèle Analyse de la maladie du rein .
Cliquez sur l'icône Promouvoir dans l'espace de déploiement .
Choisissez un espace de déploiement existant. Si vous n'avez pas d'espace de déploiement, vous pouvez en créer un nouveau :
Indiquez un nom d'espace.
Sélectionnez un service de stockage.
Sélectionnez un service d'apprentissage automatique.
Cliquez sur Créer.
Cliquez sur Fermer.
Sélectionnez Accéder au modèle dans l'espace après sa promotion.
Cliquez sur Promouvoir.
Lorsque le modèle s'affiche dans l'espace de déploiement, cliquez sur Nouveau déploiement.
Sélectionnez En ligne comme Type de déploiement.
Indiquez un nom pour le déploiement.
Cliquez sur Créer.
Une fois le déploiement terminé, cliquez sur le nom du déploiement pour afficher la page des détails de déploiement.
Accédez à l'onglet Test. Vous pouvez tester le modèle déployé à partir de la page des détails du déploiement des deux manières suivantes : test avec un formulaire ou test avec du code JSON.
Cliquez sur l' entrée JSON, puis copiez les données de test suivantes et collez-les pour remplacer le texte JSON existant:
{ "input_data": [ { "fields": [ "age", "bp", "sg", "al", "su", "rbc", "pc", "pcc", "ba", "bgr", "bu", "sc", "sod", "pot", "hemo", "pcv", "wbcc", "rbcc", "htn", "dm", "cad", "appet", "pe", "ane", "class" ], "values": [ [ "62", "80", "1.01", "2", "3", "normal", "normal", "notpresent", "notpresent", "423", "53", "1.8", "", "", "9.6", "31", "7500", "", "no", "yes", "no", "poor", "no", "yes", "ckd" ] ] } ] }
Cliquez sur Prédire pour prédire si une personne de 62 ans avec du diabète et un rapport de créatinine sérique de 1,8 devrait être diagnostiqués avec une maladie rénale. La prédiction qui en résulte indique que ce patient a une forte probabilité d'un diagnostic de maladie du rein.
Vérifiez votre progression
L'image suivante montre l'onglet Test du déploiement de modèle avec une prévision.
Etapes suivantes
A présent, vous pouvez utiliser ce fichier pour une analyse plus approfondie. Par exemple, vous pouvez effectuer des tâches telles que :
Autres ressources
Trouvez plus de tutoriels SPSS Modeler
Essayez ces autres méthodes pour créer des modèles:
Voir plus de vidéos
Recherchez des exemples de jeux de données et de blocs-notes pour acquérir une expérience pratique de la génération de modèles dans le concentrateur de ressources
Contribuer à la communauté SPSS Modeler
Rubrique parent: Tutoriels de démarrage rapide