Ce tutoriel construit un modèle de régression logistique, qui est une technique statistique permettant de classer les enregistrements en fonction des valeurs des champs de saisie. Elle est analogue à la régression linéaire, mais elle utilise un champ cible catégoriel et non pas numérique.
Supposons, par exemple, qu'un fournisseur de télécommunications ait segmenté sa base de clientèle en fonction des habitudes d'utilisation des services, en classant les clients en quatre groupes. Si les données démographiques peuvent être utilisées pour prévoir les groupes d'affectation, vous pouvez personnaliser les offres pour chaque client éventuel.
Aperçu du tutoriel
Copy link to section
Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur présentée dans la vidéo. La vidéo est destinée à accompagner le tutoriel écrit. Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Essayez le tutoriel
Copy link to section
Dans ce tutoriel, vous exécutez les tâches suivantes :
Exemple de flux de modélisateurs et d'ensembles de données
Copy link to section
Ce didacticiel utilise le flux Classifier les clients des télécommunications dans l'exemple de projet. Le fichier de données utilisé est telco.csv. L'image suivante montre un exemple de flux de modélisation.
Figure 1 : Flux du modeleur d'échantillon
L'image suivante montre l'ensemble des données utilisées avec ce flux de modélisation.
Figure 2. Exemple de données
Cet exemple est axé sur l'utilisation des données démographiques dans le but de prévoir des modèles d'utilisation. Le champ cible custcat a quatre valeurs possibles qui correspondent aux quatre groupes de clients suivants :
Tableau 1. Valeurs possibles pour le champ cible
Valeur
Libellé
1
Service de base
2
E-Service
3
Plus Service
4
Total Service
Comme le champ cible contient plusieurs catégories, un modèle multinomial est utilisé. Si l'objectif comporte deux catégories distinctes, telles que oui/non, vrai/faux, ou changement de fournisseur/ne pas changer de fournisseur, un modèle binomial peut être créé à la place.
Tâche 1 : Ouvrir le projet d'exemple
Copy link to section
L'exemple de projet contient plusieurs ensembles de données et des exemples de flux de modélisation. Si vous n'avez pas encore le projet exemple, reportez-vous à la rubrique Tutoriels pour créer le projet exemple. Suivez ensuite les étapes suivantes pour ouvrir l'exemple de projet :
Sur watsonx, dans le menu Navigation, choisissez Projets > Voir tous les projets.
Cliquez sur SPSS Modeler Project.
Cliquez sur l'onglet Actifs pour voir les ensembles de données et les flux du modélisateur.
Vérifiez vos progrès
L'image suivante montre l'onglet Actifs du projet. Vous êtes maintenant prêt à travailler avec l'exemple de flux du modeleur associé à ce tutoriel.
Tâche 2 : Examiner les nœuds Data Asset, Type et Filter
Copy link to section
Classification des clients des télécommunications Le flux du modélisateur comprend plusieurs nœuds. Procédez comme suit pour examiner trois des nœuds :
Dans l'onglet Actifs, ouvrez le flux du modeleur Classifier les clients des télécommunications et attendez que le canevas se charge.
Double-cliquez sur le nœud telco telco.csv. Ce nœud est un nœud de ressources de données qui pointe vers le fichier telco telco.csv dans le projet.
Examinez les propriétés du format de fichier.
Facultatif : cliquez sur "Aperçu des données" pour voir l'ensemble des données : Cliquez sur Aperçu des données pour voir l'ensemble des données.
Double-cliquez sur le nœud Type et cliquez sur Lire les valeurs. Ce nœud spécifie les propriétés des champs, telles que le niveau de mesure (le type de données que le champ contient), et le rôle de chaque champ en tant que cible ou entrée dans la modélisation. Assurez-vous que tous les niveaux de mesure sont correctement réglés. Par exemple, la plupart des champs dont les valeurs possibles sont 0.0 et 1.0 peuvent être considérés comme des indicateurs.
Figure 3 Niveaux de mesure
Notez que le " gender est plus correctement considéré comme un champ avec un ensemble de deux valeurs, au lieu d'un drapeau, et laissez donc sa valeur de mesure à " Nominal".
Réglez le rôle du champ custcat sur Cible. Laissez tous les autres champs avec le rôle Entrée.
Double-cliquez sur le nœud Filtre pour afficher ses propriétés.
Notez que ce nœud ne filtre que les champs pertinents : " region, " age, " marital, " address, " income, " ed, " employ, " retire", " gender, " reside et " custcat). Les autres champs sont exclus de cette analyse.
Vérifiez vos progrès
L'image suivante montre le nœud Filtre. Vous êtes maintenant prêt à visualiser le nœud logistique.
Vous pouvez dès lors explorer les informations du modèle, l'importance des caractéristiques (prédicteurs) et les estimations de paramètres.
Ces résultats sont basés sur les données de formation uniquement. Pour évaluer le degré de généralisation du modèle à d'autres données du monde réel, vous pouvez utiliser un nœud Partition pour conserver un sous-ensemble d'enregistrements à des fins de test et de validation.
Cet exemple vous a montré comment utiliser des données démographiques pour prédire les habitudes d'utilisation en construisant un modèle de régression logistique pour classer les enregistrements en fonction des valeurs des champs de saisie.