Réduire la longueur de la chaîne de données d'entrée

Retourner à la version anglaise de la documentation

Dernière mise à jour : 12 déc. 2024

Réduire la longueur de la chaîne de données d'entrée

Ce tutoriel donne un exemple de cas où il peut être nécessaire de réduire la longueur de la chaîne de données d'entrée. Pour les modèles de régression logistique et de Discriminant automatique qui incluent un modèle de régression logistique binomiale, les champs de type chaîne sont limités à 8 caractères maximum. Lorsque les chaînes comportent plus de huit caractères, vous pouvez les recoder à l'aide d'un nœud Reclassifier.

Cet exemple se concentre sur une petite partie d'un flux pour montrer le type d'erreurs qui peuvent être générées avec des chaînes trop longues, et explique comment utiliser le nœud Reclassify pour modifier les détails de la chaîne à une longueur acceptable. Bien que l'exemple utilise un nœud de régression logistique binomiale, vous pouvez également utiliser le nœud Auto Classifier pour générer un modèle de régression logistique binomiale.

Essayez le tutoriel

Dans ce tutoriel, vous exécutez les tâches suivantes :

Tâche 1 : Ouvrir le projet d'exemple
Tâche 2 : Examiner le nœud Data Asset and Type (actif et type de données)
Tâche 3 : Reclasser les valeurs
Tâche 4 : Vérifier le nœud Filtre
Tâche 5 : Définir l'objectif
Tâche 6 : Générer le modèle

Exemple de flux de modélisateurs et d'ensemble de données

Ce tutoriel utilise le flux de réduction de la longueur de la chaîne des données d'entrée dans le projet d'exemple. Le fichier de données utilisé est drug_long_name.csv L'image suivante montre un exemple de flux de modélisation.

Exemple de flux montrant la recodification des chaînes pour une régression logistique binomiale — Figure 1 : Flux du modeleur d'échantillon

L'image suivante montre l'échantillon de données.

Tâche 1 : Ouvrir le projet d'exemple

L'exemple de projet contient plusieurs ensembles de données et des exemples de flux de modélisation. Si vous n'avez pas encore le projet exemple, reportez-vous à la rubrique Tutoriels pour créer le projet exemple. Suivez ensuite les étapes suivantes pour ouvrir l'exemple de projet :

Dans 'watsonx, à partir du menu de navigation ', choisissez Projets > Voir tous les projets.
Cliquez sur SPSS Modeler Project.
Cliquez sur l'onglet Actifs pour voir les ensembles de données et les flux du modélisateur.

Vérifier votre progression

L'image suivante montre l'onglet Actifs du projet. Vous êtes maintenant prêt à travailler avec l'exemple de flux du modeleur associé à ce tutoriel.

Exemple de projet

haut de page

Tâche 2 : Examiner le nœud Data Asset and Type (actif et type de données)

Réduire les données d'entrée La longueur de la chaîne de caractères comprend plusieurs nœuds. Suivez les étapes suivantes pour examiner le nœud Data Asset and Type:

Dans l'onglet Actifs, ouvrez le flux du modeleur Réduire la longueur de la chaîne de données d'entrée et attendez que le canevas se charge.
Double-cliquez sur le nœud drug_long_name.csv. Ce nœud est un nœud de ressources de données qui pointe vers le fichier drug_long_name.csv du projet.
Examinez les propriétés du format de fichier.
Facultatif : cliquez sur "Aperçu des données" pour voir l'ensemble des données : Cliquez sur Aperçu des données pour voir l'ensemble des données.
Double-cliquez sur le nœud Type après le nœud Data Asset. Ce nœud spécifie les propriétés des champs, telles que le niveau de mesure (le type de données que le champ contient), et le rôle de chaque champ en tant que cible ou entrée dans la modélisation. Le niveau de mesure est une catégorie qui indique le type de données du champ. Le fichier de données source utilise trois niveaux de mesure différents :
- Un champ continu (tel que le champ " Age ) contient des valeurs numériques continues.
- Un champ nominal (tel que le champ " Drug ) a deux ou plusieurs valeurs distinctes ; dans ce cas, " drugA ou " drugB.
- Un champ indicateur (tel que le champ " Sex ) décrit des données comportant plusieurs valeurs distinctes ayant un ordre inhérent ; dans ce cas, " F et " M.
Figure 3 Propriétés du noeud type

Pour chaque champ, le nœud Type spécifie également un rôle afin d'indiquer le rôle que joue chaque champ dans la modélisation. Le rôle est défini sur Cible pour le champ " Cholesterol_long, qui indique si un client a un taux de cholestérol normal ou élevé. La cible est le champ pour lequel vous souhaitez prédire la valeur.

Pour les autres champs, le rôle est défini sur Entrée. Les champs d'entrée sont quelquefois désignés sous le nom de prédicteurs, ou champs dont les valeurs sont utilisées par l'algorithme de modélisation pour prédire la valeur du champ cible.
Facultatif : Cliquez sur Aperçu des données pour voir l'ensemble des données filtrées.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre le nœud Type. Vous êtes maintenant prêt à visualiser le nœud logistique.

haut de page

Tâche 3 : Reclasser les valeurs

Dans cette tâche, vous exécutez le modèle et découvrez une erreur. Suivez ces étapes pour reclasser les valeurs afin d'éviter l'erreur :

Dans la section Modélisation de la palette, faites glisser le nœud Logistique sur le canevas et reliez-le au nœud Type existant après le nœud Data Asset.
Double-cliquez sur le nœud Cholesterol_long pour afficher ses propriétés.
Sélectionnez la procédure binomiale (au lieu de la procédure multinomiale par défaut).
- Un modèle binomial est utilisé lorsque le champ cible est un drapeau ou un champ nominal avec deux valeurs discrètes.
- Un modèle multinomial est utilisé lorsque le champ cible est un champ nominal comportant plus de deux valeurs.
Cliquez sur Sauvegarder.
Survolez le nœud Cholesterol_long et cliquez sur l'icône Exécuter " . Un message d'erreur vous avertit que les valeurs (chaînes) du champ Cholesterol_long sont trop longues. Vous pouvez utiliser un nœud Reclassifier pour transformer les valeurs afin de résoudre ce problème. Le nœud Reclassifier est utile pour regrouper des catégories ou des données à des fins d'analyse.

Figure 4 Notifications
Double-cliquez sur le nœud Cholestérol (Reclassification) pour afficher ses propriétés. Remarquez que le champ de reclassement est défini sur " Cholesterol_long et que le nom du nouveau champ est " Cholesterol.
Cliquez sur Obtenir des valeurs, puis développez la section Reclasser automatiquement. Ajoutez les valeurs " Cholesterol_long à la colonne des valeurs d'origine.
Dans la colonne des nouvelles valeurs, pour la valeur originale du taux élevé de cholestérol, tapez " High et pour la valeur originale du taux normal de cholestérol, tapez " Normal". Ces paramètres raccourcissent les valeurs pour éviter le message d'erreur.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre le nœud Reclassifier. Vous êtes maintenant prêt à vérifier le nœud Filtre.

haut de page

Tâche 4 : Vérifier le nœud Filtre

Suivez les étapes suivantes pour voir et vérifier le nœud Filtre:

Double-cliquez sur le nœud Filtre pour afficher ses propriétés.
Notez que ce nœud filtre le champ " Cholesterol_long

Icône de point de contrôle Vérifier votre progression

L'image suivante montre le nœud Filtre. Vous êtes maintenant prêt à définir la cible.

haut de page

Tâche 5 : Définir l'objectif

Vous pouvez spécifier les propriétés d'un champ dans un nœud de type. Suivez les étapes suivantes pour définir la cible dans le nœud Type :

Double-cliquez sur le nœud Type après le nœud Filtre pour afficher ses propriétés.
Cliquez sur Lire les valeurs pour lire les valeurs de votre source de données et définir les types de mesure des champs. Le rôle indique aux nœuds de modélisation si les champs sont des entrées (champs prédicteurs) ou des cibles (champs prédits) pour un processus d'apprentissage automatique. Les rôles Both et None sont également disponibles, ainsi que Partition, qui indique un champ utilisé pour diviser les enregistrements en échantillons distincts à des fins de formation, de test et de validation. La valeur Split spécifie que des modèles distincts sont construits pour chaque valeur possible du champ.
Pour le champ Cholestérol, définissez le rôle sur Cible.
Cliquez sur Sauvegarder.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre le nœud Type. Vous êtes maintenant prêt à générer le modèle.

haut de page

Tâche 6 : Générer le modèle

Procédez comme suit pour afficher les résultats du modèle sous forme de tableau :

Survolez le nœud Cholestérol (logistique) et cliquez sur l'icône Exécuter " .
Dans la section Sorties de la palette, faites glisser le nœud Table sur le canevas et connectez-le à la pépite du modèle.
Survolez le nœud Table connecté au modèle Cholestérol et cliquez sur l'icône Run " .
Dans le volet Sorties et modèles, cliquez sur les résultats de sortie portant le nom Table pour afficher la sortie de la table.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre le résultat du modèle.

haut de page

Récapitulatif

Cet exemple vous a montré le type d'erreurs qui peuvent être générées avec des chaînes trop longues, et explique comment utiliser le nœud Reclassify pour modifier les détails de la chaîne à une longueur acceptable. Bien que l'exemple utilise un nœud de régression logistique binomiale, il s'applique également à l'utilisation du nœud Auto Classifier pour générer un modèle de régression logistique binomiale.

Etapes suivantes

Vous êtes maintenant prêt à essayer d'autres didacticielsSPSS® Modeler.