Démarrage rapide : Générer un modèle à l'aide de SPSS Modeler

Vous pouvez créer, former et déployer des modèles à l'aide de SPSS Modeler. Lisez en plus sur SPSS Modeler, puis regardez une vidéo et suivez un tutoriel qui convient aux débutants et qui ne nécessite aucun codage.

Service requis Watson Studio (qui inclut SPSS Modeler)

Votre flux de travaux de base inclut les tâches suivantes :

  1. Créez un projet. Les projets sont l'endroit où vous collaborez avec d'autres personnes sur les données.
  2. Ajoutez un flux SPSS Modeler au projet.
  3. Configurez les nœuds sur la grille et exécutez le flux.
  4. Passez en revue les détails du modèle et enregistrez le modèle.
  5. Déployez et testez votre modèle.

En savoir plus sur SPSS Modeler

Avec les flux SPSS Modeler, vous pouvez développer rapidement des modèles prédictifs à l'aide de l'expertise métier et les déployer dans des opérations métier afin d'améliorer la prise de décision. Conçue autour du logiciel client SPSS Modeler établi de longue date et du modèle CRISP-DM standard de l'industrie qu'elle utilise, l'interface de flux prend en charge l'intégralité du processus d'exploration de données, des données aux meilleurs résultats métier.

SPSS Modeler propose une variété de méthodes de modélisation tirées de l'apprentissage automatique, de l'intelligence artificielle et des statistiques. Les méthodes disponibles dans la palette de noeuds vous permettent d'extraire de nouvelles informations de vos données et de développer des modèles prédictifs. Chaque méthode possède ses propres avantages et est donc plus adaptée à certains types de problème spécifiques.

En savoir plus sur SPSS Modeler

En savoir plus sur les autres méthodes de génération de modèles

Visionnez une vidéo sur la création d'un modèle à l'aide de SPSS Modeler

Regardez une vidéo Regardez cette vidéo pour voir comment créer et exécuter un flux SPSS Modeler pour former un modèle d'apprentissage automatique.

Cette vidéo constitue une alternative visuelle aux procédures figurant dans cette documentation.

Suivez un tutoriel pour créer un modèle à l'aide de SPSS Modeler

Dans ce tutoriel, vous :

  • Créer un projet
  • Ajouter un fichier à partir de la galerie
  • Créer un flux SPSS Modeler
  • Exécuter le flux SPSS Modeler pour former un modèle
  • Explorer et tester le modèle
  • Déployer le modèle dans un espace de déploiement

Ce tutoriel dure environ 30 minutes.

Données exemple

L'ensemble de données utilisé dans ce tutoriel provient de l'Université de Californie, Irvine, et est le résultat d'une étude approfondie basée sur les admissions à l'hôpital sur une période de temps. Le modèle utilisera trois facteurs importants pour aider à prédire la maladie rénale chronique.

Etape 1 : Création d'un projet

{: #step1} Vous avez besoin d'un projet pour stocker le flux SPSS Modeler.

  1. Si vous avez un projet existant, ouvrez-le. Si vous ne disposez pas d'un projet existant, cliquez sur Créer un projet sur la page d'accueil ou sur Nouveau projet sur votre page Projets.
  2. Sélectionnez Créer un projet vide.
  3. Dans l'écran Créer un projet, ajoutez un nom et une description facultative pour le projet.
  4. Choisissez une Instance de service de stockage d'objets existante ou créez en une nouvelle.
  5. Cliquez sur Créer.

Pour plus d'informations ou pour regarder une vidéo, voir Création d'un projet.

Étape 2 : Ajoutez les données de la galerie

{: #step2} Le fichier utilisé dans ce tutoriel est disponible dans la galerie.

  1. Accédez à UCI ML Repository: Chronic Kidney Disease Data Set dans la galerie.
  2. Cliquez sur Aperçu. Il y a trois facteurs importants qui aident à prédire les maladies chroniques du rein qui sont disponibles dans le cadre de cette analyse : l'âge du sujet du test, les résultats des tests de créatinine sérique et les résultats des tests sur le diabète. Et la valeur de la classe indique si le patient a déjà été diagnostiqué pour une maladie rénale.
  3. Cliquez sur Ajouter au projet.
  4. Sélectionnez le projet dans la liste et cliquez sur Ajouter.
  5. Cliquez sur Afficher le projet.
  6. Dans la page Actifs de votre projet, recherchez le fichier UCI ML Repository Chronic Kidney Disease Data Set.csv.

Étape 3 : Création du flux SPSS Modeler

{: #step3} Maintenant, ajoutez le flux SPSS Modeler au projet.

  1. Cliquez sur Ajouter au projetet sélectionnez Flux de modélisateur.
  2. Entrez un nom et une description pour le flux.
  3. Pour la définition d'exécution, acceptez la définition SPSS Modeler S par défaut.
  4. Cliquez sur Créer. Cela ouvre l'éditeur de flux que vous utiliserez pour créer le flux.

Étape 4 : Ajoutez les nœuds au flux SPSS Modeler

{: #step4} Après avoir chargé les données, vous devez transformer les données. Vous allez créer un flux simple en faisant glisser les transformateurs et les estimateurs sur la grille et en les connectant à la source de données. Utilisez les nœuds suivants de la palette :

  • Data Asset : charge le fichier csv du projet
  • Partition : divise les données en segments de formation et de test
  • Type : définit le type de données. Utilisez-le pour désigner la zone class comme type target.
  • C5.0 : un algorithme de classification
  • Analyse : visualiser le modèle et vérifier son exactitude
  • Tableau : aperçu des données avec les prévisions

  • Dans la section Importer, faites glisser le nœud Ressource de données sur la grille.

    1. Cliquez deux fois sur le noeud Ressource de données pour sélectionner le fichier.
    2. Sélectionnez UCI ML Repository Chronic Kidney Disease Data Set.csv.
    3. Cliquez sur Sélectionner.
    4. Affichez les propriétés de l'actif de données.
    5. Cliquez sur le bouton Sauvegarder.
  • Dans la section du champ des opérations, faites glisser le noeud Partition sur la grille.
    1. Connectez le noeud Ressource de données au noeud Partition.
    2. Cliquez deux fois sur le noeud Partition pour voir ses propriétés. La partition par défaut divise la moitié des données pour la formation et l'autre moitié pour les tests.
    3. Cliquez sur le bouton Sauvegarder.
  • Dans la section du champ des opérations, faites glisser le noeud Type sur la grille.
    1. Connectez le noeud Partition au noeud Type.
    2. Cliquez deux fois sur le noeud Type pour afficher ses propriétés. Le noeud type définit le niveau de mesure pour chaque champ. Ce fichier de données source utilise quatre niveaux de mesure différents : Continu, Catégorie, Nominal, Ordinal, et indicateur.
    3. Recherchez la zone class. Pour chaque zone, le rôle indique la partie que chaque zone joue dans la modélisation. Changez le classrôle sur cible - le champ que vous voulez prédire.
    4. Cliquez sur le bouton Sauvegarder.
  • Dans la section Modélisation, faites glisser le noeud C5.0 sur la grille.
  • Connectez le noeud Type au noeud C5.0.
    1. Cliquez deux fois sur le noeud C5.0 pour afficher ses propriétés. Par défaut, l'algorithme C5.0 génère un arbre de décision. Un modèle C5.0 fonctionne en divisant l'échantillon en fonction de la zone qui fournit le gain d'informations maximal. Chaque sous-échantillon défini par la première division est ensuite divisé à nouveau, généralement basé sur un champ différent, et le processus se répète jusqu'à ce que les sous-échantillons ne puissent plus être divisés. Enfin, les divisions de niveau inférieur sont réexaminées et celles qui ne contribuent pas de façon significative à la valeur du modèle sont supprimées.
    2. Vérifiez Utiliser des rôles de zone personnalisés.
    3. Pour Cible, sélectionnez Classe.
    4. Dans la section Entrées, cliquez sur Ajouter des colonnes.
    5. Sélectionnez âge, sc, Dm.
    6. Cliquez sur OK.
    7. Cliquez sur le bouton Sauvegarder.

Lorsque vous avez fini de créer le flux, il devrait ressembler à l'image suivante.

Flux affichant le noeud Data Asset, le noeud Partition, le noeud Type et le noeud de classe C5.0

Étape 5 : Exécution du flux SPSS Modeler et exploration des détails du modèle

{: #step5} Maintenant que vous avez conçu le flux, vous pouvez exécuter le flux et examiner le diagramme d'arborescence pour voir les points de décision.

  1. Cliquez avec le bouton droit de la souris sur le noeud C5.0 et sélectionnez Exécuter. L'exécution du flux génère un nouveau nugget de modèle sur la grille.
  2. Cliquez avec le bouton droit de la souris sur le nugget de modèle et sélectionnez Afficher le modèle pour afficher les détails du modèle.
  3. Affichez le fichier Informations sur le modèle qui fournit un récapitulatif de modèle.
  4. Cliquez sur Règles de décision les plus hautes. Un tableau affiche une série de règles qui ont été utilisées pour affecter des enregistrements individuels à des nœuds enfants en fonction des valeurs des différents champs d'entrée.
  5. Cliquez sur Importance de la fonction. Un graphique montre l'importance relative de chaque prédicteur dans l'estimation du modèle. De ce fait, vous pouvez voir que la créatinine sérique est facilement le facteur le plus significatif, le diabète étant le facteur le plus important.
  6. Cliquez sur Diagramme d'arborescence. Le même modèle s'affiche sous la forme d'un arbre, avec un noeud à chaque point de décision.
    1. Sélectionnez l'option Afficher les libellés sur les branches.
    2. Survolez le noeud 0 qui fournit un récapitulatif pour tous les enregistrements du fichier. Un peu moins de 40 % des cas dans l'ensemble de données sont classés comme non diagnostiqués avec une maladie rénale. L'arbre peut fournir des indices supplémentaires sur les facteurs qui pourraient être responsables.
    3. Notez les deux branches provenant du noeud 0, qui indique une division pour la Créatinine sérique.
    4. Survolez le noeud 6 qui montre des enregistrements où la créatinine sérique est supérieure à 1,25. Dans ce cas, 100 % de ces patients ont un diagnostic positif de maladie du rein.
    5. Survolez le noeud 1 qui montre des enregistrements où la créatinine sérique est inférieure ou égale à 1,25. Près de 80 % de ces patients n'ont pas de diagnostic positif de maladie rénale, mais près de 20 % de la créatinine sérique plus faible étaient encore diagnostiqués avec une maladie rénale.
    6. La branche du noeud 1 est divisée pour le diabète. Survolez le noeud 2 qui montre des patients présentant une faible créatinine sérique et un diabète diagnostiqué. 100% de ces patients ont également reçu un diagnostic de maladie rénale.
    7. Survolez le noeud 3. Chez les patients présentant une faible créatinine sérique et aucun diabète, plus de 85% n'ont pas reçu de diagnostic de maladie rénale, mais 15 % d'entre eux étaient encore atteints d'une maladie rénale.
    8. La branche du noeud 3 est divisée par le dernier facteur significatif, âge. Survolez le noeud 4 pour voir que 75 % des jeunes patients avec une faible créatinine sérique et aucun diabète avaient un risque de contracter une maladie rénale.
    9. Survolez le noeud 5. Seulement 11 % des patients âgés de plus de 16 ans ayant une faible créatinine sérique et aucun diabète étaient à risque de contracter une maladie rénale.
    10. Fermez les détails du modèle.

Étape 6 : Évaluer le modèle

{: #step6} Utilisez les noeuds Analyse et Tableau pour évaluer le modèle.

  1. Dans la section Extrants, faites glisser le noeud Analyse sur la grille.
  2. Connectez le nugget Modèle au noeud Analyse.
  3. Cliquez avec le bouton droit de la souris sur le noeud Analyse et sélectionnez Exécuter.
  4. Dans le panneau d'entrée, ouvrez le fichier Analyse, ce qui indique que le modèle a correctement prédit un diagnostic de maladie rénale à 95 % du temps. Fermez le fichier Analyse.
  5. (Facultatif) Dans la barre d'outils, cliquez sur l'icône Télécharger pour enregistrer le modèle en tant que fichier .str.
  6. Cliquez avec le bouton droit de la souris sur le noeud Analyse et sélectionnez Enregistrer la branche en tant que modèle.
    1. Pour Nom du modèle, entrez Kidney Disease Analysis.
    2. Cliquez sur le bouton Sauvegarder.
  7. Dans la section d'entrée, faites glisser le noeud Tableau sur la grille.
    1. Connectez le nugget Modèle au noeud Tableau.
    2. Cliquez avec le bouton droit de la souris sur le noeud Tableau et sélectionnez Aperçu.
    3. Lorsque l'aperçu s'affiche, faites défiler les deux dernières colonnes. La colonne $C-classe contient la prévision de la maladie rénale, et la colonne $CC-Classe indique le score de confiance pour cette prévision.
    4. Fermez le fichier Aperçu.

Étape 7 : Déployer et tester le modèle avec de nouvelles données

{: #step7} Enfin, vous pouvez déployer ce modèle et prévoir le résultat avec de nouvelles données.

  1. Revenez à l'onglet Actifs du projet.
  2. Accédez à la section Modèles et ouvrez le modèle Analyse des maladies rénales.
  3. Cliquez sur Promouvoir vers un espace de déploiement.
  4. Choisissez un espace de déploiement existant. Si vous n'avez pas d'espace de déploiement, vous pouvez en créer un nouveau :
    1. Indiquez un nom d'espace.
    2. Sélectionnez un service de stockage.
    3. Sélectionnez un service d'apprentissage automatique.
    4. Cliquez sur Créer.
    5. Cliquez sur Close.
  5. Sélectionnez Accéder au modèle dans l'espace après sa promotion.
  6. Cliquez sur Promouvoir.
  7. Lorsque le modèle s'affiche dans l'espace de déploiement, cliquez sur Nouveau déploiement.
    1. Sélectionnez En ligne comme Type de déploiement.
    2. Indiquez un nom pour le déploiement.
    3. Cliquez sur Créer.
  8. Accédez à l'onglet Déploiements et attendez que le modèle soit déployé.
  9. Une fois le déploiement terminé, cliquez sur le nom du déploiement pour afficher la page des détails de déploiement.
  10. Accédez à l'onglet Test. Vous pouvez tester le modèle déployé à partir de la page des détails du déploiement des deux manières suivantes : test avec un formulaire ou test avec du code JSON.
  11. Cliquez sur l'icône dans Fournir des données d'entrée au format JSON, puis copiez les données de test suivantes et collez-la dans la zone du texte JSON :

    {"input_data":[{"fields":["age","bp","sg","al","su","rbc","pc","pcc","ba","bgr","bu","sc","sod","pot","hemo","pcv","wbcc","rbcc","htn","dm","cad","appet","pe","ane","class"], "values":[["62","80","1.01","2","3","normal","normal","notpresent","notpresent","423","53","1.8","","","9.6","31","7500","","no","yes","no","poor","no","yes","ckd"]]}]}
    
  12. Cliquez sur Prédire pour prédire si une personne de 62 ans avec du diabète et un rapport de créatinine sérique de 1,8 devrait être diagnostiqués avec une maladie rénale. La prédiction qui en résulte indique que ce patient a une forte probabilité d'un diagnostic de maladie du rein.

Etapes suivantes

A présent, vous pouvez utiliser ce fichier pour une analyse plus approfondie. Par exemple, vous pouvez effectuer des tâches telles que :

Autres ressources