Aperçu du tutoriel
Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur présentée dans la vidéo. La vidéo est destinée à accompagner le tutoriel écrit. Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Essayez le tutoriel
Dans ce tutoriel, vous exécutez les tâches suivantes :
Exemple de flux de modélisateurs et d'ensembles de données
Ce didacticiel utilise le flux Introduction à la modélisation dans l'exemple de projet. Le fichier de données utilisé est tree_credit.csv. L'image suivante montre un exemple de flux de modélisation.
La capacité à prédire un résultat est l'objectif central de l'analyse prédictive, et la compréhension du processus de modélisation est la clé de l'utilisation des flux de SPSS Modeler.
Le modèle présenté dans cet exemple montre comment une banque peut prévoir si les futurs demandeurs de prêt risquent de ne pas rembourser leurs prêts. Ces clients ont déjà obtenu des prêts de la banque, de sorte que les données des clients sont stockées dans la base de données de la banque. Le modèle utilise les données des clients pour déterminer leur probabilité de défaut.
Une partie importante de tout modèle est les données qui y sont intégrées. La banque tient à jour une base de données d'informations historiques sur les clients, indiquant notamment s'ils ont remboursé les prêts (cote de crédit = bon) ou s'ils ont fait l'objet d'un défaut de paiement (cote de crédit = mauvais). La banque souhaite utiliser ces données existantes pour générer le modèle. Les champs suivants sont utilisés :
Nom de champ | Descriptif |
---|---|
Conditions_crédit | Conditions de crédit : 0=Mauvaises, 1=Bonnes, 9=valeurs manquantes |
Age | Age en années |
Revenu | Niveau de revenu : 1=Bas, 2=Moyen, 3=Elevé |
Cartes_crédit | Nombre de cartes de crédit possédées : 1=Moins de cinq, 2=Cinq ou plus |
Education | Niveau d'éducation : 1=Lycée, 2=Université |
Prêts_voiture | Nombre de prêts voiture en cours : 1=Aucun ou un, 2=Plus de deux |
Cet exemple utilise un modèle d' arbre décision , qui classifie les enregistrements (et prévoit une réponse) à l'aide d'une série de règles de décision.
Par exemple, cette règle de décision classifie un enregistrement comme ayant une bonne cote de crédit lorsque le revenu tombe dans la plage moyenne et que le nombre de cartes de crédit est inférieur à 5.
IF income = Medium
AND cards <5
THEN -> 'Good'
À partir d'un modèle d'arbre de décision, vous pouvez analyser les caractéristiques de deux groupes de clients et prédire les risques de non-remboursement.
Bien que cet exemple utilise un modèle CHAID (Chi-squared Automatic Interaction Detection), il est conçu comme une introduction générale et la plupart des concepts s'appliquent globalement à d'autres types de modélisation dans SPSS Modeler.
Tâche 1 : Ouvrir le projet d'exemple
L'exemple de projet contient plusieurs ensembles de données et des exemples de flux de modélisation. Si vous n'avez pas encore le projet exemple, reportez-vous à la rubrique Tutoriels pour créer le projet exemple. Suivez ensuite les étapes suivantes pour ouvrir l'exemple de projet :
- Dans Cloud Pak for Data, à partir du menu de navigation ', choisissez Projets > Voir tous les projets.
- Cliquez sur SPSS Modeler Project.
- Cliquez sur l'onglet Actifs pour voir les ensembles de données et les flux du modélisateur.
Vérifier votre progression
L'image suivante montre l'onglet Actifs du projet. Vous êtes maintenant prêt à travailler avec l'exemple de flux du modeleur associé à ce tutoriel.
Tâche 2 : Examiner les nœuds Data Asset et Type
Introduction à la modélisation Le flux du modeleur comprend plusieurs nœuds. Procédez comme suit pour examiner les nœuds Data Asset et Type.
- Dans l'onglet Actifs, ouvrez le flux du modeleur Introduction à la modélisation et attendez que le canevas se charge.
- Double-cliquez sur le nœud tree_credit.csv. Ce nœud est un nœud de ressources de données qui pointe vers le fichier tree_credit.csv du projet. Si vous spécifiez des mesures dans le nœud source, il n'est pas nécessaire d'inclure un nœud Type distinct dans le flux.
- Examinez les propriétés du format de fichier.
- Facultatif : cliquez sur "Aperçu des données" pour voir l'ensemble des données : Cliquez sur Aperçu des données pour voir l'ensemble des données.
- Double-cliquez sur le nœud Type. Ce nœud spécifie les propriétés des champs, telles que le niveau de mesure (le type de données que le champ contient), et le rôle de chaque champ en tant que cible ou entrée dans la modélisation. Le niveau de mesure est une catégorie qui indique le type de données du champ. Le fichier de données source utilise trois niveaux de mesure différents :
- Un champ continu (tel que le champ "
Age
) contient des valeurs numériques continues. - Un champ nominal (tel que le champ "
Education
) a deux ou plusieurs valeurs distinctes : dans ce cas, "College
ou "High school
. - Un champ ordinal (tel que le champ "
Income level
) décrit des données comportant plusieurs valeurs distinctes ayant un ordre inhérent : dans ce cas, "Low
, "Medium
et "High
.
Pour chaque champ, le nœud Type spécifie également un rôle afin d'indiquer le rôle que joue chaque champ dans la modélisation. Le rôle est défini sur Cible pour le champ "
Credit rating
, qui indique si un client n'a pas remboursé son prêt. La cible est le champ pour lequel vous souhaitez prédire la valeur.Le rôle des autres champs est défini sur Entrée. Les champs d'entrée sont quelquefois désignés sous le nom de prédicteurs, ou champs dont les valeurs sont utilisées par l'algorithme de modélisation pour prédire la valeur du champ cible.
- Un champ continu (tel que le champ "
- Facultatif : Cliquez sur Aperçu des données pour voir les données avec les propriétés de type appliquées.
Vérifier votre progression
L'image suivante montre le nœud Type. Vous êtes maintenant prêt à configurer le nœud de modélisation.
Tâche 3 : Configurer le nœud de modélisation
Un nœud de modélisation génère une pépite de modèle lorsque le flux s'exécute. Cet exemple utilise un nœud CHAID. CHAID, ou Chi-squared Automatic Interaction Detection, est une méthode de classification qui construit des arbres de décision en utilisant un type particulier de statistiques connues sous le nom de statistiques chi-carré. Le nœud utilise les statistiques du chi-carré pour déterminer les meilleurs endroits où effectuer les divisions dans l'arbre de décision. Procédez comme suit pour configurer le nœud de modélisation:
- Double-cliquez sur le nœud Credit rating (CHAID) pour afficher ses propriétés.
- Dans la section Champs, remarquez l'option Utiliser les paramètres définis dans ce nœud. Cette option indique au nœud d'utiliser la cible et les champs spécifiés ici au lieu d'utiliser les informations de champ dans le nœud Type. Pour ce tutoriel, l'option Utiliser les paramètres définis dans ce nœud n 'est pas activée.
- Développez la section Objectifs. Dans ce cas, les valeurs par défaut sont appropriées. Votre objectif est de construire un nouveau modèle, de créer un modèle standard et de générer un nœud de modèle après exécution.
- Développez la section Règles d'arrêt. Pour que l'arbre reste relativement simple dans cet exemple, limitez sa croissance en augmentant le nombre minimum de cas pour les nœuds parents et enfants.
- Sélectionnez Utiliser la valeur absolue.
- Fixer les enregistrements minimaux de la branche mère à "
400
. - Fixer le nombre minimum d'enregistrements dans la branche enfant à "
200
.
- Cliquez sur Sauvegarder.
- Survolez le nœud Cote de crédit (CHAID) et cliquez sur l'icône d'exécution " .
Vérifier votre progression
L'image suivante montre le flux avec les résultats du modèle. Vous êtes maintenant prêt à explorer le modèle.
Tâche 4 : Explorer le modèle
L'exécution du flux du modeleur ajoute une pépite de modèle au canevas avec un lien vers le nœud de modélisation à partir duquel elle a été créée. Procédez comme suit pour afficher les détails du modèle :
- Dans le volet Sorties et modèles, cliquez sur le modèle portant le nom Cote de crédit pour afficher le modèle.
- Cliquez sur Informations sur le modèle pour afficher des informations de base sur le modèle.
- Cliquez sur Importance des caractéristiques pour connaître l'importance relative de chaque prédicteur dans l'estimation du modèle. Ce graphique montre que le niveau de revenu est de loin le facteur le plus significatif dans ce cas, suivi par le nombre de cartes de crédit.
- Cliquez sur Règles de décision supérieures pour obtenir des détails sous la forme d'un ensemble de règles ; il s'agit essentiellement d'une série de règles qui peuvent être utilisées pour attribuer des enregistrements individuels à des nœuds enfants en fonction des valeurs de différents champs d'entrée. Chaque nœud terminal de l'arbre de décision renvoie une prédiction ( bonne ou mauvaise). Les nœuds terminaux sont les nœuds de l'arbre qui ne sont plus divisés. Dans chaque cas, la prédiction est déterminée par le mode, ou la réponse la plus courante, pour les enregistrements qui relèvent de ce nœud.
- Cliquez sur Diagramme en arbre pour visualiser le même modèle sous la forme d'un arbre, avec un nœud à chaque point de décision. Passez le pointeur sur une branche ou un noeud pour en afficher les détails.
Au début de l'arbre, le premier nœud (nœud 0) présente un résumé de tous les enregistrements de l'ensemble de données. Un peu plus de 40 % des observations de ce jeu de données sont classées comme risquées. 40 % est une proportion assez élevée, mais l'arbre peut donner des indices sur les facteurs qui pourraient être responsables.
La première répartition se fait par niveau de revenu. Les enregistrements dans lesquels le niveau de revenu se trouve dans la catégorie Low (Faible) sont affectés au noeud 2 et il n'est pas surprenant de voir que cette catégorie contient le plus fort pourcentage de non-remboursements de prêts. Il apparaît évident qu'accorder un prêt aux clients de cette catégorie présente un risque élevé. Toutefois, près de 18 % des clients de cette catégorie n 'ont pas manqué à leurs obligations, de sorte que la prédiction n'est pas toujours correcte. Aucun modèle ne peut réellement prédire toutes les réponses, mais un bon modèle doit vous permettre de prédire la réponse la plus problable pour chaque enregistrement, sur la base des données disponibles.
De même, si l'on examine les clients à revenu élevé (nœud 1), on constate que la plupart d'entre eux (plus de 88 %) présentent un bon risque. Mais plus d'un client sur dix est resté en défaut de paiement. Les critères de prêt peuvent-ils être affinés pour minimiser le risque ?
Remarquez que le modèle a divisé ces clients en deux sous-catégories (nœuds 4 et 5), en fonction du nombre de cartes de crédit détenues. Pour les clients à hauts revenus, si la banque ne prête qu'aux clients possédant moins de cinq cartes de crédit, elle peut faire passer son taux de réussite de 88 % à près de 97 %, un résultat encore plus satisfaisant.
Mais qu'en est-il des clients appartenant à la catégorie Revenu moyen (noeud 3) ? Ils se répartissent bien plus équitablement entre les classements Good (Bon) et Bad (Mauvais). Là encore, les sous-catégories (nœuds 6 et 7 dans ce cas) peuvent être utiles. Cette fois, prêter uniquement aux clients à revenus moyens possédant moins de cinq cartes de crédit fait passer le pourcentage de classements Bon de 58 % à 86 %, ce qui constitue une amélioration significative.
Vérifier votre progression
L'image suivante montre les détails du modèle. Vous êtes maintenant prêt à évaluer le modèle.
Tâche 5 : Évaluer le modèle
Vous pouvez parcourir le modèle pour comprendre le fonctionnement du scoring. Cependant, pour évaluer la précision du modèle, vous devez enregistrer quelques données. La notation des enregistrements consiste à comparer les résultats réels aux réponses prévues par le modèle. Pour évaluer le modèle, vous pouvez noter les mêmes enregistrements que ceux qui ont été utilisés pour estimer le modèle. Vous pouvez comparer les réponses observées et prévues en comparant les mêmes enregistrements. Suivez les étapes suivantes pour évaluer le modèle :
- Attachez le nœud Table à la pépite du modèle.
- Survolez le nœud Table et cliquez sur l'icône Run '.
- Dans le volet Sorties et modèles, cliquez sur les résultats de sortie portant le nom Table pour afficher les résultats.
Le tableau affiche les scores prédits dans le champ "
$R-Credit rating
, que le modèle a créé. Vous pouvez comparer ces valeurs au champ original "Credit rating
qui contient les réponses réelles.Par convention, les noms des champs générés lors de la notation sont basés sur le champ cible, mais avec un préfixe standard.$G
et '$GE
sont les préfixes des prédictions générées par le modèle linéaire généralisé$R
est le préfixe des prédictions générées par le modèle CHAID- le
$RC
correspond aux valeurs de confiance - le
$X
est généralement généré par l'utilisation d'un ensemble - les préfixes
$XR
, "$XS
et "$XF
sont utilisés lorsque le champ cible est un champ continu, catégoriel, un ensemble ou un drapeau
Une valeur de confiance est la propre estimation du modèle, sur une échelle de 0,0 à 1,0, de l'exactitude de chaque valeur prédite.
Comme prévu, la valeur prédite correspond aux réponses réelles pour de nombreux enregistrements, mais pas pour tous. La raison à cela est que chaque noeud terminal CHAID comporte un ensemble de réponses. La prédiction correspond à la plus courante, mais elle est fausse pour toutes les autres dans ce nœud. (Rappelez-vous la minorité de 18 % de clients à faibles revenus qui n'ont pas fait défaut).
Pour éviter ce problème, vous pouvez continuer à diviser l'arbre en branches de plus en plus petites jusqu'à ce que chaque nœud soit pur à 100 %, c'est-à-dire qu'il ne contienne que des réponses bonnes ou mauvaises, sans aucun mélange. Mais un tel modèle est compliqué et il est peu probable qu'il puisse être généralisé à d'autres ensembles de données.
Pour savoir exactement combien de prédictions sont correctes, vous pouvez lire le tableau et compter le nombre d'enregistrements où la valeur du champ prédit "
$R-Credit rating
correspond à la valeur de "Credit rating
. Cependant, il est plus facile d'utiliser un nœud d'analyse, qui suit automatiquement les enregistrements où ces valeurs correspondent. - Connecter la pépite du modèle au nœud d'analyse.
- Survolez le nœud Analyse et cliquez sur l'icône Exécuter " .
- Dans le volet Sorties et modèles, cliquez sur les résultats de sortie portant le nom Analyse pour afficher les résultats.
L'analyse montre que pour 1960 enregistrements sur 2464 (plus de 79%), la valeur prédite par le modèle correspond à la réponse réelle.
Ce résultat est limité par le fait que les enregistrements que vous avez notés sont les mêmes que ceux que vous avez utilisés pour estimer le modèle. Dans une situation réelle, vous pouvez utiliser un nœud de partition pour diviser les données en échantillons distincts pour la formation et l'évaluation. En utilisant une partition d'échantillon pour générer le modèle et un autre échantillon pour le tester, vous pouvez obtenir une meilleure indication du degré de généralisation du modèle à d'autres ensembles de données.
Vous pouvez utiliser le nœud d'analyse pour tester le modèle par rapport à des enregistrements dont vous connaissez déjà le résultat réel. L'étape suivante illustre la manière dont vous pouvez utiliser le modèle pour noter les enregistrements dont vous ne connaissez pas le résultat. Par exemple, cet ensemble de données peut inclure des personnes qui ne sont pas actuellement clientes de la banque, mais qui sont des cibles potentielles pour un mailing promotionnel.
Vérifier votre progression
L'image suivante montre le flux et les résultats obtenus. Vous êtes maintenant prêt à évaluer le modèle avec de nouvelles données.
Tâche 6 : évaluer le modèle à l'aide de nouvelles données
Plus tôt, vous avez noté les enregistrements qui ont été utilisés pour estimer le modèle afin de pouvoir évaluer le degré de précision du modèle. Cet exemple marque un jeu d'enregistrements différent de celui utilisé pour créer le modèle. L'évaluation de la précision est l'un des objectifs de la modélisation avec un champ cible. Vous étudiez les dossiers dont vous connaissez le résultat afin d'identifier des modèles qui vous permettront de prédire les résultats que vous ne connaissez pas encore.
Vous pouvez mettre à jour le nœud Data Asset ou Import existant pour qu'il pointe vers un autre fichier de données. Vous pouvez également ajouter un nœud Data Asset ou Import qui lit les données que vous souhaitez évaluer. Dans les deux cas, le nouvel ensemble de données doit contenir les mêmes champs d'entrée que ceux utilisés par le modèle (Age
, " Income level
, " Education
, etc.), mais pas le champ cible " Credit rating
.
Vous pouvez également ajouter la pépite du modèle à n'importe quel flux qui inclut les champs de saisie prévus. Qu'il soit lu à partir d'un fichier ou d'une base de données, le type de source n'a pas d'importance si les noms et les types de champs correspondent à ceux qui sont utilisés par le modèle.
Vérifier votre progression
L'image suivante montre le flux terminé.
Récapitulatif
L'exemple d'introduction à la modélisation présente les étapes de base de la création, de l'évaluation et de la notation d'un modèle.
- Le nœud de modélisation estime le modèle en étudiant les enregistrements pour lesquels le résultat est connu, et crée une pépite de modèle. Ce processus est parfois appelé "formation du modèle".
- Le nugget de modèle peut être ajouté à n'importe quel flux contenant les champs attendus pour évaluer les enregistrements. En effectuant le scoring des enregistrements pour lesquels vous connaissez déjà le résultat (les clients existants par exemple), vous pouvez évaluer la performance du modèle.
- Une fois que vous vous êtes assuré que le modèle fonctionne de manière acceptable, vous pouvez enregistrer de nouvelles données (telles que des clients potentiels) afin de prédire leur réaction.
- Les données utilisées pour former ou estimer le modèle peuvent être appelées données analytiques ou historiques. Les données de notation peuvent également être appelées données opérationnelles.
Etapes suivantes
Vous êtes maintenant prêt à essayer d'autres didacticielsSPSS Modeler.