Ce didacticiel vous aide à analyser du texte en utilisant des nœuds spécialisés dans le traitement du texte. Par exemple, vous pouvez effectuer une analyse des sentiments.
Dans ce tutoriel, un directeur d'hôtel souhaite analyser les avis sur son établissement pour connaître l'opinion des clients. Les avis expriment des opinions sur le personnel de l'hôtel, le confort, la propreté, le prix et d'autres domaines d'intérêt.
Essayez le tutoriel
Dans ce tutoriel, vous exécutez les tâches suivantes :
- Tâche 1 : Ouvrir le projet d'exemple
- Tâche 2 : Examiner le nœud Data Asset
- Tâche 3 : Examiner le nœud de Text Mining
- Tâche 4 : Analyser les résultats dans l'atelier d'analyse de texte
- Tâche 5 : Construire le modèle
- Tâche 6 : Visualiser les commentaires
- Tâche 7 : Examiner le nœud d'analyse des liens textuels
Exemple de flux de modélisateurs et d'ensemble de données
Ce tutoriel utilise le flux Satisfaction hôtelière dans le projet d'exemple. Le flux utilise les noeuds Text Analytics pour analyser les avis fictifs sur l'hôtel. Le fichier de données utilisé est hotelSatisfaction.csv. L'image suivante montre un exemple de flux de modélisation.
Tâche 1 : Ouvrir le projet d'exemple
L'exemple de projet contient plusieurs ensembles de données et des exemples de flux de modélisation. Si vous n'avez pas encore le projet exemple, reportez-vous à la rubrique Tutoriels pour créer le projet exemple. Suivez ensuite les étapes suivantes pour ouvrir l'exemple de projet :
- Dans 'watsonx, à partir du menu de navigation ', choisissez Projets > Voir tous les projets.
- Cliquez sur SPSS Modeler Project.
- Cliquez sur l'onglet Actifs pour voir les ensembles de données et les flux du modélisateur.
Vérifier votre progression
L'image suivante montre l'onglet Actifs du projet. Vous êtes maintenant prêt à travailler avec l'exemple de flux du modeleur associé à ce tutoriel.
Tâche 2 : Examiner le nœud Data Asset
Hotel Satisfaction comprend plusieurs nœuds. Procédez comme suit pour examiner le nœud Data Asset :
- Dans l'onglet Actifs, ouvrez le flux du modeleur Satisfaction hôtelière et attendez que le canevas se charge.
- Double-cliquez sur le nœud hotelSatisfaction.csv. Ce nœud est un nœud de ressources de données qui pointe vers le fichier hotelSatisfaction.csv du projet.
- Examinez les propriétés du format de fichier.
- Facultatif : cliquez sur "Aperçu des données" pour voir l'ensemble des données : Cliquez sur Aperçu des données pour voir l'ensemble des données.
Vérifier votre progression
L'image suivante présente le nœud Data Asset. Vous êtes maintenant prêt à examiner le nœud Text Mining.
Tâche 3 : Examiner le nœud de Text Mining
L'exploration de texte est un processus itératif qui identifie les concepts et les modèles pertinents dans les données textuelles. Lorsque vous exécutez le nœud Text Mining, le moteur d'extraction lit les données textuelles, identifie les concepts pertinents et attribue un type à chacun d'entre eux. Vous pouvez ensuite examiner les résultats de l'extraction en utilisant l'atelier d'analyse de texte pour affiner le processus d'extraction. Vous pouvez réexécuter le nœud Text Mining pour produire de nouveaux résultats, puis évaluer ces derniers. Notez le nœud Type entre le nœud Data Asset et le nœud Text Mining. Le nœud Type est nécessaire pour identifier correctement les champs de l'ensemble de données. Procédez comme suit pour examiner le nœud d'exploration de texte:
- Double-cliquez sur le nœud Commentaires (Text Mining) pour afficher ses propriétés.
- Définissez ces propriétés dans la section Champs :
- Pour le champ Texte, sélectionnez Commentaires.
- Dans le champ ID, sélectionnez id.Note : Seul le champ Texte est obligatoire.
- Dans la section Modèle, vous remarquerez que le logiciel d'analyse de texte sélectionné est Hotel Satisfaction (English)/Topic + Opinion.
Un logiciel d'analyse de texte (TAP) est un ensemble prédéfini de bibliothèques et de ressources linguistiques et non linguistiques avancées, qui sont regroupées dans un ou plusieurs ensembles de catégories prédéfinies. Si aucun logiciel d'analyse de texte ne correspond à votre application, vous pouvez sélectionner un modèle de ressource. Un modèle de ressource est un ensemble prédéfini de bibliothèques et de ressources linguistiques et non linguistiques avancées qui ont été adaptées à un domaine ou à un usage particulier.
- Dans la section Construire des modèles, définissez ces propriétés :
- Vérifiez que le champ Build modes est défini sur Build interactively (catégorie model nugget). Plus tard, lorsque vous exécutez le nœud, cette option lance Text Analytics Workbench, une interface interactive qui vous permet d'explorer et d'affiner les résultats de l'extraction.
- Vérifiez que le champ Commencer la session par est défini sur Extraire les concepts et les liens de texte. L'option Extraction de concepts n'extrait que des concepts, alors que l'extraction TLA produit à la fois des concepts et des liens textuels qui sont des connexions entre les sujets (tels que le service, le personnel et la nourriture) et les opinions.
- Développez la section Expert et vérifiez que l'option Accommoder l'orthographe pour une longueur minimale de caractère de mot est sélectionnée avec une limite d'orthographe de "
5
". Cette option applique une technique de regroupement flou qui permet de regrouper les mots mal orthographiés ou d'orthographe similaire sous un seul concept. L'algorithme de regroupement flou supprime temporairement les consonnes doubles ou triples et toutes les voyelles (sauf la première) des mots extraits. Il les compare ensuite pour voir s'ils sont identiques. Par exemple, "location
et "locattoin
sont regroupés. - Cliquez sur Sauvegarder.
- Survolez le nœud Commentaires (Text Mining) et cliquez sur l'icône Exécuter " ".
- Dans le volet Sorties et modèles, cliquez sur les résultats portant le nom Commentaires pour ouvrir l'Atelier d'analyse de texte.
Vérifier votre progression
L'image suivante montre l'atelier d'analyse de texte. Vous êtes maintenant prêt à accorder les résultats.
Tâche 4 : Analyser les résultats dans l'atelier d'analyse de texte
L'atelier d'analyse de texte contient les résultats de l'extraction et le modèle de catégorie contenu dans le logiciel d'analyse de texte. Il s'agit d'un atelier interactif où vous pouvez explorer et affiner les résultats extraits, créer et affiner des catégories, et construire des pépites de modèles de catégories. Suivez les étapes suivantes pour affiner les résultats dans l'atelier d'analyse de texte :
Concepts
- Cliquez sur l'onglet Concepts.
Au cours du processus d'extraction, les données textuelles sont analysées afin d'identifier les mots isolés intéressants ou pertinents, tels que "
airport
ou "location
, et les expressions verbales, telles que "airport pick-up
. Ces mots et groupes de mots sont collectivement appelés des termes. En utilisant les ressources linguistiques, les termes pertinents sont extraits et les termes similaires sont regroupés sous un terme principal appelé concept.Ainsi, un concept peut représenter plusieurs termes sous-jacents. Cela dépend de la façon dont le terme est utilisé dans votre texte et de l'ensemble des ressources linguistiques que vous utilisez.
- Cliquez sur l'icône du filtre "
- Vous pouvez également utiliser un filtre pour sélectionner un sous-ensemble de concepts. L'image suivante montre les différentes options :
Si vous souhaitez supprimer les filtres et afficher tous les concepts, cliquez sur Effacer le filtre.
Cliquez sur Annuler pour fermer le volet Filtre.
Liens texte
- Cliquez sur l'onglet Liens de texte.
L'analyse des liens textuels (TLA) est une technologie de mise en correspondance de modèles qui compare les règles TLA aux concepts et relations extraits de votre texte. Dans l'onglet Liens de texte, vous pouvez construire et explorer les modèles TLA trouvés dans vos données textuelles.
- Sélectionnez un modèle de type (par exemple, <Services> + <Positif>) pour obtenir un aperçu du texte dans le document. Si le texte de l'aperçu du document est tronqué, cliquez sur l'icône " " pour afficher l'intégralité du texte.
Catégories
- Cliquez sur l'onglet Catégories.
Vous pouvez créer et gérer vos catégories. Une fois les concepts et les types extraits de vos données textuelles, vous pouvez commencer à créer des catégories automatiquement en utilisant des techniques telles que l'inclusion de concepts, le réseau sémantique (en anglais uniquement) ou manuellement.
Étant donné que cet exemple de flux utilise un modèle de paquet d'analyse de texte, le modèle de catégorie est déjà rempli.
- Cliquez sur Tout noter pour noter les documents ou les enregistrements. Chaque fois qu'une catégorie est créée ou mise à jour, vous pouvez voir si un texte correspond à un descripteur dans une catégorie spécifique. Si un document ou un enregistrement correspondant est trouvé, il est affecté à cette catégorie. Il en résulte que la plupart, sinon la totalité, des documents ou des enregistrements sont affectés à des catégories sur la base des descripteurs contenus dans ces catégories.
- Développez une catégorie, par exemple, Commodités de l'hôtel > Propreté > Nég > non nettoyé.
- Consultez les documents dans l'onglet Aperçu et dans l'onglet Descripteurs pour voir les données sources.
Vérifier votre progression
L'image suivante montre l'aperçu du document pour la catégorie Propreté. Vous êtes maintenant prêt à construire le modèle.
Tâche 5 : Construire le modèle
Une fois que vous avez fini de régler le processus d'extraction, vous pouvez générer un modèle de catégorie à partir des personnalisations et des catégories que vous avez créées. Suivez les étapes suivantes pour construire et déployer le modèle :
- Cliquez sur Générer un modèle pour générer un modèle de catégorie.
- Cliquez sur Construire pour confirmer que vous souhaitez générer un modèle de catégorie.
- Lorsque vous verrez le succès ! cliquer sur Retour au flux.
- Cliquez sur Enregistrer et quitter pour enregistrer vos modifications et le nœud Text Mining dans le flux.La pépite du modèle de catégorie générée est affichée sur votre canevas de flux.
- Remarquez les deux nœuds du modèle de satisfaction dans l'exemple de flux. Maintenant que Text Analytics Workbench a validé et généré un modèle de catégorie, vous pouvez le déployer dans votre flux et évaluer le même ensemble de données ou de nouvelles données. Chaque modèle utilise un mode de notation différent.
- Double-cliquez sur le premier nœud du modèle de satisfaction.
- Développez la section Paramètres pour voir que ce nœud utilise le mode de notation Catégories comme champs. Avec ce mode de notation, il y a autant d'enregistrements en sortie qu'il y en avait en entrée.
- Cliquez sur Aperçu des données. Vous pouvez constater que chaque enregistrement contient désormais un nouveau champ pour chaque catégorie sélectionnée dans l'onglet Modèle. Pour chaque champ, saisissez une valeur d'indicateur pour vrai et pour faux, telle que "
True/False
ou "1/0
. Dans ce flux, les valeurs seront converties respectivement en1
et en0
pour agréger les résultats et compter le nombre de réponses positives, de réponses négatives, de réponses mixtes (à la fois positives et négatives) et sans score (sans opinion). - Fermez la fenêtre d'aperçu.
- Cliquez sur Annuler.
- Double-cliquez sur le deuxième nœud du modèle de satisfaction.
- Développez la section Paramètres pour voir que ce nœud utilise le mode de notation Catégories comme enregistrements. Un nouvel enregistrement est créé pour chaque paire "
category, document
. Généralement, la sortie comporte plus d'enregistrements que n'en comportait l'entrée. - Cliquez sur Aperçu des données. Vous pouvez constater qu'en plus des champs de saisie, de nouveaux champs sont également ajoutés aux données en fonction du type de modèle.
- Fermez la fenêtre d'aperçu.
- Cliquez sur Annuler.
- Développez la section Paramètres pour voir que ce nœud utilise le mode de notation Catégories comme enregistrements. Un nouvel enregistrement est créé pour chaque paire "
Vérifier votre progression
L'image suivante montre le modèle de satisfaction avec un aperçu du document. Vous êtes maintenant prêt à visualiser les commentaires.
Tâche 6 : Visualiser les commentaires
En visualisant les commentaires, vous pouvez rapidement savoir ce que les clients apprécient dans l'hôtel. Suivez les étapes suivantes pour créer un nuage de mots :
- Sélectionnez les commentaires positifs :
- Dans la palette, développez la section Opérations d'enregistrement.
- Faites glisser le nœud Select sur le canevas.
- Connectez le supernœud Derive Sentiment au nœud Select.
- Double-cliquez sur le nœud Select pour afficher ses propriétés.
- Pour le Mode, sélectionnez Inclure.
- Pour la condition, tapez "
Sentiment = "Pos"
. - Cliquez sur Sauvegarder.
- Ajouter un graphique :
- Dans la palette, développez la section Graphiques.
- Faites glisser le nœud Charts sur le canevas.
- Connectez le nœud Select au nœud Charts.
- Construire un nuage de mots :
- Double-cliquez sur le nœud Graphiques pour afficher ses propriétés.
- Cliquez sur Lancer le générateur de graphiques.
- Dans les colonnes à visualiser, sélectionnez Commentaires.
- Affichez la liste de tous les types de graphiques et sélectionnez Nuage de mots.
- Lorsque vous avez terminé, cliquez sur Retour au flux.
Vérifier votre progression
L'image suivante montre un nuage de mots. Vous êtes maintenant prêt à examiner le nœud Analyse des liens textuels.
Tâche 7 : Examiner le nœud d'analyse des liens textuels
- Double-cliquez sur le nœud Analyse des liens textuels pour afficher ses propriétés.
- Définissez ces propriétés dans la section Champs :
- Pour le champ Texte, sélectionnez Commentaires.
- Dans le champ ID, sélectionnez id.Note : Seul le champ Texte est obligatoire.
- Dans la section Copier les ressources à partir de, remarquez que le modèle de ressource sélectionné est Satisfaction hôtelière (anglais).
Un modèle de ressource est un ensemble prédéfini de bibliothèques et de ressources linguistiques et non linguistiques avancées qui ont été adaptées à un domaine ou à un usage particulier.
- Développez la section Expert et vérifiez que l'option Accommoder l'orthographe pour une longueur minimale de caractère de mot est sélectionnée avec une limite d'orthographe de "
5
". - Cliquez sur Sauvegarder.
- Survolez le nœud de sortie Raw TLA et cliquez sur l'icône Run " .
- Dans le volet Sorties et modèles, cliquez sur les résultats portant le nom Sortie TLA brute pour afficher les résultats.
Vérifier votre progression
L'image suivante montre le flux terminé.
Récapitulatif
Ce flux sur la satisfaction des hôtels vous a montré comment un directeur d'hôtel pouvait analyser les commentaires sur les hôtels pour connaître les opinions exprimées par les clients sur le personnel de l'hôtel, le confort, la propreté, le prix et d'autres domaines d'intérêt. Ce flux illustre deux façons d'analyser des données textuelles, en utilisant un nœud d'exploration de texte ou un nœud d'analyse de liens textuels.
Etapes suivantes
Vous êtes maintenant prêt à essayer d'autres didacticielsSPSS® Modeler.