Essayez le tutoriel
Dans ce tutoriel, vous exécutez les tâches suivantes :
- Tâche 1 : Ouvrir le projet d'exemple
- Tâche 2 : Examiner le patrimoine de données
- Tâche 3 : Explorer les tableaux de distribution et d'audit des données
- Tâche 4 : Créer et explorer le diagramme de dispersion
- Tâche 5 : Créer et explorer le graphique en ligne
- Tâche 6 : explorer les visualisations avancées
- Tâche 7 : Explorer le nœud Derive
- Tâche 8 : Explorer les nœuds Filtre et Type
- Tâche 9 : Générer le modèle
- Tâche 10 : Créer un nœud d'analyse
Exemple de flux de modélisateurs et d'ensemble de données
Ce didacticiel utilise le flux Traitement de la toxicomanie - Graphiques exploratoires dans l'exemple de projet. Le fichier de données utilisé est drug1n.csv. L'image suivante montre un exemple de flux de modélisation.
Champ de données | Descriptif |
---|---|
Age |
Age du patient (nombre) |
Sex |
M ou F |
BP |
Tension artérielle : HIGH (élevée), NORMAL (normale) ou LOW (basse) |
Cholesterol |
Taux de cholestérol dans le sang : NORMAL ou HIGH (élevé) |
Na |
Concentration de sodium dans le sang |
K |
Concentration de potassium dans le sang |
Drug |
Médicament prescrit auquel le patient a réagi |
Tâche 1 : Ouvrir le projet d'exemple
L'exemple de projet contient plusieurs ensembles de données et des exemples de flux de modélisation. Si vous n'avez pas encore le projet exemple, reportez-vous à la rubrique Tutoriels pour créer le projet exemple. Suivez ensuite les étapes suivantes pour ouvrir l'exemple de projet :
- Dans 'watsonx, à partir du menu de navigation ', choisissez Projets > Voir tous les projets.
- Cliquez sur SPSS Modeler Project.
- Cliquez sur l'onglet Actifs pour voir les ensembles de données et les flux du modélisateur.
Vérifier votre progression
L'image suivante montre l'onglet Actifs du projet. Vous êtes maintenant prêt à travailler avec l'exemple de flux du modeleur associé à ce tutoriel.
Tâche 2 : Examiner le patrimoine de données
Traitement de la toxicomanie - Graphiques exploratoires comprend plusieurs nœuds. Procédez comme suit pour examiner le nœud Data Asset:
- Dans l'onglet Actifs, ouvrez le flux du modeleur Traitement des drogues - Graphiques exploratoires et attendez que le canevas se charge.
- Double-cliquez sur le nœud drug1n.csv. Ce nœud est un nœud de ressources de données qui pointe vers le fichier drug1n.csv du projet.
- Examinez les propriétés du format de fichier.
- Facultatif : cliquez sur "Aperçu des données" pour voir l'ensemble des données : Cliquez sur Aperçu des données pour voir l'ensemble des données.
Vérifier votre progression
L'image suivante présente le nœud Data Asset. Vous êtes maintenant prêt à explorer les graphiques de distribution et d'audit des données.
Tâche 3 : Explorer les tableaux de distribution et d'audit des données
Lors de l'exploration de données, il est souvent utile d'explorer les données en créant des récapitulatifs visuels. SPSS Modeler propose de nombreux types de graphiques différents, en fonction du type de données que vous souhaitez résumer. Par exemple, pour savoir quelle proportion des patients a réagi à chaque médicament, il faut explorer un nœud de type médicament (distribution). Suivez les étapes suivantes pour explorer certains graphiques :
- Double-cliquez sur le nœud Drug type (Distribution) pour afficher ses propriétés.
- Cliquez sur Annuler.
- Passez la souris sur le nœud Type de médicament (Distribution) et cliquez sur l'icône Exécuter '.
- Dans le volet Sorties et modèles, cliquez sur la sortie du type de médicament pour afficher les résultats.
Le graphique vous aide à voir la forme des données. Il démontre que les patients ont répondu le plus souvent au médicament Y
et moins souvent aux médicaments B
et C
.
Vous pouvez également attacher et exécuter un nœud 7 Fields (Data Audit) pour voir les distributions et les histogrammes pour tous les champs à la fois.
- Double-cliquez sur le nœud de sortie 7 Fields (Data Audit) après le nœud Data Asset.
- Survolez le nœud 7 Fields (Data Audit) et cliquez sur l'icône Run " .
- Dans le volet Sorties et modèles, cliquez sur la sortie 7 champs (Audit de données) pour afficher les résultats.
Vérifier votre progression
L'image suivante illustre le flux. Vous êtes maintenant prêt à créer et à explorer le diagramme de dispersion.
Tâche 4 : Créer et explorer le diagramme de dispersion
Vous pouvez voir quels sont les facteurs susceptibles d'influencer 'Drug
, la variable cible. En tant que chercheur, vous savez que les concentrations de sodium et de potassium dans le sang sont des facteurs importants. Comme ces concentrations sont toutes deux des valeurs numériques, vous pouvez créer un diagramme de dispersion du sodium par rapport au potassium en utilisant les catégories de médicaments comme couleur de superposition. Suivez les étapes suivantes pour créer et explorer le diagramme de dispersion :
- Dans la section Graphiques de la palette, faites glisser le nœud Tracé sur le canevas.
- Survolez le nœud, cliquez sur le bouton Modifier le titre et renommez-le en " Na v. K.
- Connectez le nœud de tracé au nœud de données drug1n.csv.
- Double-cliquez sur le Na v. K (Plot) nœud pour modifier ses propriétés.
- Dans la section Tracé, sélectionnez "
Na
comme champ X, "K
comme champ Y et dans la section Superposition, sélectionnez "Drug
comme champ Couleur. - Cliquez sur Sauvegarder.
- Survolez le " Na v. K (Tracé) du nœud et cliquez sur l'icône Exécuter '.
- Dans le volet Sorties et modèles, cliquez sur le " Na v. K ' pour voir les résultats.
Le graphique montre clairement un seuil. Pour les valeurs supérieures au seuil, le médicament " Y
" est toujours le bon. Et pour les valeurs inférieures au seuil, le médicament " Y
n'est jamais le bon. Ce seuil est le rapport entre le sodium (Na
) et le potassium (K
).
Vérifier votre progression
L'image suivante montre le diagramme de dispersion. Vous êtes maintenant prêt à créer et à explorer la carte web.
Tâche 5 : Créer et explorer le graphique en ligne
Étant donné que de nombreux champs de données sont catégoriques, vous pouvez également essayer de tracer un graphique en toile, qui représente les associations entre différentes catégories. Suivez les étapes suivantes pour explorer une carte Web :
- Dans la section Graphiques de la palette, faites glisser le nœud Web sur le canevas et reliez-le au nœud de données drug1n.csv.
- Double-cliquez sur le nœud Web pour modifier ses propriétés.
- Dans la section Champs, cliquez sur Ajouter des colonnes. Sélectionnez les colonnes "
BP
(pour la tension artérielle) et "Drug
- Cliquez sur Sauvegarder.
- Survolez le nœud Web et cliquez sur l'icône d'exécution "
- Dans le volet Sorties et modèles, cliquez sur la sortie Web pour afficher les résultats.
D'après le graphique, le médicament " Y
est apparemment associé aux trois niveaux de pression artérielle. Ce résultat n'est pas surprenant ; vous avez déjà déterminé la situation dans laquelle le médicament " Y
" est le meilleur.
Mais si vous mettez de côté le médicament Y
pour vous concentrer sur les autres, vous pouvez voir que les médicaments A
et B
sont aussi associés à une pression artérielle haute. Les médicaments C
et X
sont quant à eux associés à une pression artérielle basse. Et la pression artérielle normale est associée au médicament X
. Cependant, vous ne savez toujours pas comment choisir entre les médicaments " A
et " B
ou entre les médicaments " C
et " X
, pour un patient spécifique. La modélisation peut être utile dans ce cas.
Vérifier votre progression
L'image suivante montre le graphe web. Vous êtes maintenant prêt à explorer les visualisations avancées.
Tâche 6 : explorer les visualisations avancées
Les sections précédentes utilisent différents types de nœuds de graphe. Une autre façon d'explorer les données est d'utiliser les visualisations avancées. Suivez les étapes suivantes pour créer et explorer des graphiques avancés :
- Dans la section Graphiques de la palette, faites glisser le nœud Graphiques sur le canevas et reliez-le au nœud de données drug1n.csv.
- Double-cliquez sur le nœud Graphiques pour afficher ses propriétés.
- Cliquez sur le bouton Lancer le générateur de graphiques.
Ici, vous pouvez choisir et créer des graphiques avancés pour explorer vos données sous différentes perspectives et identifier des modèles, des connexions et des relations au sein de vos données. Expérimentez la création de quelques graphiques avant de revenir au flux du modeleur.
Vérifier votre progression
L'image suivante montre un exemple de graphique 3D Vous êtes maintenant prêt à explorer le nœud Derive.
Tâche 7 : Explorer le nœud Derive
Comme vous l'avez vu avec le diagramme de dispersion de la tâche 4, le rapport entre le sodium et le potassium semble permettre de prédire quand utiliser le médicament Y. Vous pouvez dériver un champ qui contient la valeur de ce ratio pour chaque enregistrement. Ce champ peut s'avérer utile par la suite, lors de la création d'un modèle permettant de savoir quand utiliser chacun des cinq médicaments.
Suivez les étapes suivantes pour explorer le nœud Derive :
- Double-cliquez sur le nœud Na_to_K (Derive) pour modifier ses propriétés.
- Regardez la section Expression. Na/K est l'expression car on obtient la nouvelle aire en divisant la valeur du sodium par celle du potassium.Vous pouvez également créer une expression en cliquant sur l'icône de la calculatrice " pour ouvrir l'Expression Builder, un moyen de créer des expressions de manière interactive en utilisant des listes intégrées de fonctions, d'opérandes, de champs et de leurs valeurs.
- Cliquez sur Annuler pour revenir aux propriétés, et cliquez à nouveau sur Annuler pour revenir au flux.
- Dans la section Graphiques de la palette, faites glisser le nœud Histogramme sur la toile et reliez-le au nœud Na_to_K (Derive).
- Double-cliquez sur le nœud Histogramme pour afficher ses propriétés.
- Dans les propriétés du nœud Histogramme, spécifiez Na_to_K comme champ à tracer et Drogue comme champ de superposition des couleurs.
- Cliquez sur Sauvegarder.
- Survolez le nœud Histogramme et cliquez sur l'icône Exécuter " .
- Dans le volet Sorties et modèles, cliquez sur la sortie Histogramme pour afficher les résultats.
Sur la base du tableau, vous pouvez conclure que lorsque la valeur du " Na_to_K
est d'environ 15 ou plus, le médicament " Y
" est le médicament de choix.
Vérifier votre progression
L'image suivante montre l'histogramme. Vous êtes maintenant prêt à explorer les nœuds Filtre et Type.
Tâche 8 : Explorer les nœuds Filtre et Type
En explorant et en manipulant les données, vous êtes en mesure de formuler des hypothèses. Le rapport entre le sodium et le potassium dans le sang semble influer sur le choix du médicament, tout comme la pression artérielle. Mais vous ne pouvez pas encore expliquer totalement tous les liens existant entre ces facteurs. La modélisation peut apporter des réponses. Tout d'abord, suivez les étapes suivantes pour explorer les nœuds Filtre et Type:
- Double-cliquez sur le nœud Discard Fields (Filter) pour afficher ses propriétés.
- Étant donné que le champ dérivé "
Na_to_K
est utilisé, les champs originaux "Na
et "K
sont filtrés, de sorte qu'ils ne sont pas utilisés deux fois dans l'algorithme de modélisation. - Cliquez sur Annuler.
- Double-cliquez sur le nœud Définir les types (Type) pour afficher ses propriétés.
- Le nœud Type permet d'indiquer les types de champs utilisés et la manière dont ils sont utilisés pour prédire les résultats. Remarquez que le rôle du champ "
Drug
est défini sur Cible, ce qui indique que le champ "Drug
" est le champ que vous souhaitez prédire. Le rôle des autres champs est défini sur Entrée afin qu'ils soient utilisés comme prédicteurs. - Cliquez sur Annuler.
Vérifier votre progression
L'image suivante illustre le flux. Vous êtes maintenant prêt à générer le modèle.
Tâche 9 : Générer le modèle
Suivez les étapes suivantes pour générer le modèle à l'aide d'un nœud C5.0
- Survolez le nœud Médicament (C5.0 et cliquez sur l'icône Exécuter " .
- Dans le volet Sorties et modèles, cliquez sur le modèle Médicament pour afficher les résultats.
Le diagramme en arbre affiche l'ensemble des règles générées par le nœud C5.0 sous forme d'arbre. Maintenant, vous pouvez voir les pièces manquantes du puzzle. Pour les personnes dont le rapport Na-to-K est inférieur au "
14.829
et qui souffrent d'hypertension artérielle, l'âge détermine le choix du médicament. Pour les personnes présentant une faible pression artérielle, le taux de cholestérol semble être le prédicteur optimal.Vous pouvez passer le pointeur sur les différents noeuds de l'arbre pour révéler davantage de détails, tels que le nombre d'observations contenues dans chaque catégorie de pression artérielle, ainsi que leur pourcentage de confiance.
Vérifier votre progression
L'image suivante montre le diagramme en arbre. Vous êtes maintenant prêt à créer un nœud d'analyse.
Tâche 10 : Créer un nœud d'analyse
Suivez les étapes suivantes pour évaluer la précision du modèle à l'aide d'un nœud d'analyse :
- Dans la section Outputs de la palette, faites glisser le nœud Analysis sur le canevas et connectez-le au nugget du modèle Drug (C5.0).
- Survolez le nœud Analyse et cliquez sur l'icône Exécuter "
- Dans le volet Sorties et modèles, cliquez sur la sortie Analysis of [Drug] pour afficher les résultats.
La sortie du nœud Analyse montre qu'avec cet ensemble de données artificielles, le modèle a correctement prédit le choix du médicament pour chaque enregistrement de l'ensemble de données. Avec un ensemble de données réelles, il est peu probable que vous obteniez une précision de 100 %, mais vous pouvez utiliser le nœud d'analyse pour vous aider à déterminer si le modèle est suffisamment précis pour votre application particulière.
Vérifier votre progression
L'image suivante montre le résultat de l'analyse.
Récapitulatif
Cet exemple vous a montré comment créer et explorer des graphiques sur les traitements médicamenteux et les utiliser pour déterminer quel médicament pourrait être approprié pour un futur patient souffrant de la même maladie.
Etapes suivantes
Vous êtes maintenant prêt à essayer d'autres didacticielsSPSS® Modeler.