Ce tutoriel construit un modèle de régression logistique, qui est une technique statistique permettant de classer les enregistrements en fonction des valeurs des champs de saisie. Elle est analogue à la régression linéaire, mais elle utilise un champ cible catégoriel et non pas numérique.
Supposons, par exemple, qu'un fournisseur de télécommunications ait segmenté sa base de clientèle en fonction des habitudes d'utilisation des services, en classant les clients en quatre groupes. Si les données démographiques peuvent être utilisées pour prévoir les groupes d'affectation, vous pouvez personnaliser les offres pour chaque client éventuel.
Essayez le tutoriel
Dans ce tutoriel, vous exécutez les tâches suivantes :
Exemple de flux de modélisateurs et d'ensembles de données
Ce didacticiel utilise le flux Classifier les clients des télécommunications dans l'exemple de projet. Le fichier de données utilisé est telco.csv. L'image suivante montre un exemple de flux de modélisation.
L'image suivante montre l'ensemble des données utilisées avec ce flux de modélisation.
custcat
a quatre valeurs possibles qui correspondent aux quatre groupes de clients suivants :Valeur | Libellé |
---|---|
1 | Service de base |
2 | E-Service |
3 | Plus Service |
4 | Total Service |
Comme le champ cible contient plusieurs catégories, un modèle multinomial est utilisé. Si l'objectif comporte deux catégories distinctes, telles que oui/non, vrai/faux, ou changement de fournisseur/ne pas changer de fournisseur, un modèle binomial peut être créé à la place.
Tâche 1 : Ouvrir le projet d'exemple
L'exemple de projet contient plusieurs ensembles de données et des exemples de flux de modélisation. Si vous n'avez pas encore le projet exemple, reportez-vous à la rubrique Tutoriels pour créer le projet exemple. Suivez ensuite les étapes suivantes pour ouvrir l'exemple de projet :
- Dans 'watsonx, à partir du menu de navigation ', choisissez Projets > Voir tous les projets.
- Cliquez sur SPSS Modeler Project.
- Cliquez sur l'onglet Actifs pour voir les ensembles de données et les flux du modélisateur.
Vérifier votre progression
L'image suivante montre l'onglet Actifs du projet. Vous êtes maintenant prêt à travailler avec l'exemple de flux du modeleur associé à ce tutoriel.
Tâche 2 : Examiner les nœuds Data Asset, Type et Filter
Classification des clients des télécommunications Le flux du modélisateur comprend plusieurs nœuds. Procédez comme suit pour examiner trois des nœuds :
- Dans l'onglet Actifs, ouvrez le flux du modeleur Classifier les clients des télécommunications et attendez que le canevas se charge.
- Double-cliquez sur le nœud telco telco.csv. Ce nœud est un nœud de ressources de données qui pointe vers le fichier telco telco.csv dans le projet.
- Examinez les propriétés du format de fichier.
- Facultatif : cliquez sur "Aperçu des données" pour voir l'ensemble des données : Cliquez sur Aperçu des données pour voir l'ensemble des données.
- Double-cliquez sur le nœud Type et cliquez sur Lire les valeurs. Ce nœud spécifie les propriétés des champs, telles que le niveau de mesure (le type de données que le champ contient), et le rôle de chaque champ en tant que cible ou entrée dans la modélisation. Assurez-vous que tous les niveaux de mesure sont correctement réglés. Par exemple, la plupart des champs dont les valeurs possibles sont
0.0
et1.0
peuvent être considérés comme des indicateurs.gender
est plus correctement considéré comme un champ avec un ensemble de deux valeurs, au lieu d'un drapeau, et laissez donc sa valeur de mesure à " Nominal". - Réglez le rôle du champ
custcat
sur Cible. Laissez tous les autres champs avec le rôle Entrée. - Double-cliquez sur le nœud Filtre pour afficher ses propriétés.
- Notez que ce nœud ne filtre que les champs pertinents : "
region
, "age
, "marital
, "address
, "income
, "ed
, "employ
, "retire
", "gender
, "reside
et "custcat
). Les autres champs sont exclus de cette analyse.
Vérifier votre progression
L'image suivante montre le nœud Filtre. Vous êtes maintenant prêt à visualiser le nœud logistique.
Tâche 3 : Visualiser le nœud logistique
Suivez les étapes suivantes pour classer les clients à l'aide de la régression logistique multinomiale :
- Double-cliquez sur le nœud custcat (Logistic) pour afficher ses propriétés.
- Dans la section Paramètres du modèle, sélectionnez la procédure multinomiale.
- Un modèle binomial est utilisé lorsque le champ cible est un drapeau ou un champ nominal avec deux valeurs discrètes.
- Un modèle multinomial est utilisé lorsque le champ cible est un champ nominal comportant plus de deux valeurs.
- Sélectionnez ensuite la méthode Stepwise et le type de modèle Main Effects. Cochez également la case Inclure la constante dans l'équation.
- Dans la section Options de l'expert, sélectionnez le mode Expert.
- Cliquez sur Output. Sélectionnez le tableau de classification et cliquez sur OK.
Vérifier votre progression
L'image suivante montre le nœud logistique. Vous êtes maintenant prêt à parcourir le modèle.
Tâche 4 : Parcourir le modèle
Suivez les étapes suivantes pour parcourir le modèle :
- Survolez le nœud custcat (Logistic) et cliquez sur l'icône Run '.
- Dans le volet Sorties et modèles, cliquez sur le modèle custcat pour afficher les résultats.
Vous pouvez dès lors explorer les informations du modèle, l'importance des caractéristiques (prédicteurs) et les estimations de paramètres.
Ces résultats sont basés sur les données de formation uniquement. Pour évaluer le degré de généralisation du modèle à d'autres données du monde réel, vous pouvez utiliser un nœud Partition pour conserver un sous-ensemble d'enregistrements à des fins de test et de validation.
Vérifier votre progression
Récapitulatif
Cet exemple vous a montré comment utiliser des données démographiques pour prédire les habitudes d'utilisation en construisant un modèle de régression logistique pour classer les enregistrements en fonction des valeurs des champs de saisie.
Etapes suivantes
Vous êtes maintenant prêt à essayer d'autres didacticielsSPSS® Modeler.