0 / 0
Retourner à la version anglaise de la documentation
Analyser le texte pour déterminer la satisfaction des hôtels
Dernière mise à jour : 11 déc. 2024
Analyser le texte pour déterminer la satisfaction des hôtels

Ce didacticiel vous aide à analyser du texte en utilisant des nœuds spécialisés dans le traitement du texte. Par exemple, vous pouvez effectuer une analyse des sentiments.

Dans ce tutoriel, un directeur d'hôtel souhaite analyser les avis sur son établissement pour connaître l'opinion des clients. Les avis expriment des opinions sur le personnel de l'hôtel, le confort, la propreté, le prix et d'autres domaines d'intérêt.

Figure 1 : Graphique des opinions positives
Tableau des opinions positives. Il affiche des termes et des phrases, tels que l'emplacement, le budget et les équipements de l'hôtel. Ces termes varient en fonction de leur importance. Ils ont arrangé le terme central le plus important qui est dans le centre et est le plus grand.
Figure 2. Graphique des opinions négatives
Graphique des opinions négatives. Il affiche des termes et des phrases, tels que l'emplacement, le budget et les équipements de l'hôtel. Ces termes varient en fonction de leur importance. Ils ont arrangé le terme central le plus important qui est dans le centre et est le plus grand.

Essayez le tutoriel

Dans ce tutoriel, vous exécutez les tâches suivantes :

Exemple de flux de modélisateurs et d'ensembles de données

Ce tutoriel utilise le flux Satisfaction hôtelière dans le projet d'exemple. Le flux utilise les noeuds Text Analytics pour analyser les avis fictifs sur l'hôtel. Le fichier de données utilisé est hotelSatisfaction.csv. L'image suivante montre un exemple de flux de modélisation.

Flux terminé
L'image suivante montre l'échantillon de données.
Exemple de données

Tâche 1 : Ouvrir le projet d'exemple

L'exemple de projet contient plusieurs ensembles de données et des exemples de flux de modélisation. Si vous n'avez pas encore le projet exemple, reportez-vous à la rubrique Tutoriels pour créer le projet exemple. Suivez ensuite les étapes suivantes pour ouvrir l'exemple de projet :

  1. Dans Cloud Pak for Data, à partir du menu de navigation 'Menu de navigation, choisissez Projets > Voir tous les projets.
  2. Cliquez sur SPSS Modeler Project.
  3. Cliquez sur l'onglet Actifs pour voir les ensembles de données et les flux du modélisateur.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre l'onglet Actifs du projet. Vous êtes maintenant prêt à travailler avec l'exemple de flux du modeleur associé à ce tutoriel.

Texte de remplacement

haut de page

Tâche 2 : Examiner le nœud Data Asset

Hotel Satisfaction comprend plusieurs nœuds. Procédez comme suit pour examiner le nœud Data Asset :

  1. Dans l'onglet Actifs, ouvrez le flux du modeleur Satisfaction hôtelière et attendez que le canevas se charge.
  2. Double-cliquez sur le nœud hotelSatisfaction.csv. Ce nœud est un nœud de ressources de données qui pointe vers le fichier hotelSatisfaction.csv du projet.
  3. Examinez les propriétés du format de fichier.
  4. Facultatif : cliquez sur "Aperçu des données" pour voir l'ensemble des données : Cliquez sur Aperçu des données pour voir l'ensemble des données.

Icône de point de contrôle Vérifier votre progression

L'image suivante présente le nœud Data Asset. Vous êtes maintenant prêt à examiner le nœud Text Mining.

Noeud Filtrer

haut de page

Tâche 3 : Examiner le nœud de Text Mining

L'exploration de texte est un processus itératif qui identifie les concepts et les modèles pertinents dans les données textuelles. Lorsque vous exécutez le nœud Text Mining, le moteur d'extraction lit les données textuelles, identifie les concepts pertinents et attribue un type à chacun d'entre eux. Vous pouvez ensuite examiner les résultats de l'extraction en utilisant l'atelier d'analyse de texte pour affiner le processus d'extraction. Vous pouvez réexécuter le nœud Text Mining pour produire de nouveaux résultats, puis évaluer ces derniers. Notez le nœud Type entre le nœud Data Asset et le nœud Text Mining. Le nœud Type est nécessaire pour identifier correctement les champs de l'ensemble de données. Procédez comme suit pour examiner le nœud d'exploration de texte:

  1. Double-cliquez sur le nœud Commentaires (Text Mining) pour afficher ses propriétés.
  2. Définissez ces propriétés dans la section Champs :
    1. Pour le champ Texte, sélectionnez Commentaires.
    2. Dans le champ ID, sélectionnez id.
      Note : Seul le champ Texte est obligatoire.
      Figure 3 Propriétés du noeud Exploration de texte
      Propriétés de construction des nœuds de Text Mining. Il montre quelques paramètres de champ dans la fenêtre, comme le champ Texte et le champ ID.
  3. Dans la section Modèle, vous remarquerez que le logiciel d'analyse de texte sélectionné est Hotel Satisfaction (English)/Topic + Opinion.

    Un logiciel d'analyse de texte (TAP) est un ensemble prédéfini de bibliothèques et de ressources linguistiques et non linguistiques avancées, qui sont regroupées avec un ou plusieurs ensembles de catégories prédéfinies. Si aucun logiciel d'analyse de texte ne correspond à votre application, vous pouvez sélectionner un modèle de ressource. Un modèle de ressource est un ensemble prédéfini de bibliothèques et de ressources linguistiques et non linguistiques avancées qui ont été adaptées à un domaine ou à un usage particulier.

  4. Dans la section Construire des modèles, définissez ces propriétés :
    1. Vérifiez que le champ Build modes est défini sur Build interactively (catégorie model nugget). Plus tard, lorsque vous exécutez le nœud, cette option lance Text Analytics Workbench, une interface interactive qui vous permet d'explorer et d'affiner les résultats de l'extraction.
    2. Vérifiez que le champ Commencer la session par est défini sur Extraire les concepts et les liens de texte. L'option Extraction de concepts n'extrait que des concepts, alors que l'extraction TLA produit à la fois des concepts et des liens textuels qui sont des connexions entre les sujets (tels que le service, le personnel et la nourriture) et les opinions.
  5. Développez la section Expert et vérifiez que l'option Accommoder l'orthographe pour une longueur minimale de caractère de mot est sélectionnée avec une limite d'orthographe de " 5". Cette option applique une technique de regroupement flou qui permet de regrouper les mots mal orthographiés ou d'orthographe similaire sous un seul concept. L'algorithme de regroupement flou supprime temporairement les consonnes doubles ou triples et toutes les voyelles (sauf la première) des mots extraits. Il les compare ensuite pour voir s'ils sont identiques. Par exemple, " location et " locattoin sont regroupés.

    Figure 4 Propriétés des experts en nœuds de Text Mining.
    Propriétés des experts en nœuds de Text Mining. Elle montre les paramètres de propriété du nœud Text Mining. Les principaux groupes de paramètres sont les suivants : Paramètres, Construire des modèles et Expert. Dans le groupe Expert se trouvent des cases à cocher pour des paramètres tels que Accommoder l'orthographe pour une limite minimale de caractères racine, Extraire les unitermes, Extraire les entités non linguistiques, Algorithme majuscule, Grouper les noms de personnes partiels et complets ensemble lorsque c'est possible, et Utiliser la dérivation lors du regroupement des noms composés.
  6. Cliquez sur Sauvegarder.
  7. Survolez le nœud Commentaires (Text Mining) et cliquez sur l'icône Exécuter " Icône d'exécution".
  8. Dans le volet Sorties et modèles, cliquez sur les résultats portant le nom Commentaires pour ouvrir l'Atelier d'analyse de texte.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre l'atelier d'analyse de texte. Vous êtes maintenant prêt à accorder les résultats.

Text Analytics Workbench

haut de page

Tâche 4 : Analyser les résultats dans l'atelier d'analyse de texte

L'atelier d'analyse de texte contient les résultats de l'extraction et le modèle de catégorie contenu dans le logiciel d'analyse de texte. Il s'agit d'un atelier interactif où vous pouvez explorer et affiner les résultats extraits, créer et affiner des catégories, et construire des pépites de modèles de catégories. Suivez les étapes suivantes pour affiner les résultats dans l'atelier d'analyse de texte :

Concepts

  1. Cliquez sur l'onglet Concepts.

    Au cours du processus d'extraction, les données textuelles sont analysées afin d'identifier les mots isolés intéressants ou pertinents, tels que " airport ou " location, et les expressions verbales, telles que " airport pick-up. Ces mots et groupes de mots sont collectivement appelés des termes. En utilisant les ressources linguistiques, les termes pertinents sont extraits et les termes similaires sont regroupés sous un terme principal appelé concept.

    Ainsi, un concept peut représenter plusieurs termes sous-jacents. Cela dépend de la façon dont le terme est utilisé dans votre texte et de l'ensemble des ressources linguistiques que vous utilisez.

  2. Cliquez sur l'icône du filtre " Icône Filtrer
  3. Vous pouvez également utiliser un filtre pour sélectionner un sous-ensemble de concepts. L'image suivante montre les différentes options :

    Figure 5. Text Analytics Workbench - options de filtrage
    Text Analytics Workbench - options de filtrage

    Si vous souhaitez supprimer les filtres et afficher tous les concepts, cliquez sur Effacer le filtre.

    Cliquez sur Annuler pour fermer le volet Filtre.

Liens texte

  1. Cliquez sur l'onglet Liens de texte.

    L'analyse des liens textuels (TLA) est une technologie de mise en correspondance de modèles qui compare les règles TLA aux concepts et relations extraits de votre texte. Dans l'onglet Liens de texte, vous pouvez construire et explorer les modèles TLA trouvés dans vos données textuelles.

  2. Sélectionnez un modèle de type (par exemple, <Services> + <Positif>) pour obtenir un aperçu du texte dans le document. Si le texte de l'aperçu du document est tronqué, cliquez sur l'icône " Icône de visualisation de l'ensemble du document " pour afficher l'intégralité du texte.
    Text Analytics Workbench - Onglet Liens de texte. Affiche les modèles de type dans l'onglet Lien de texte. Sur le côté se trouve le volet de prévisualisation, qui comporte un tableau à trois colonnes. Les trois colonnes sont Entrée, Aperçu du document et Chemin de catégorie.

Catégories

  1. Cliquez sur l'onglet Catégories.

    Vous pouvez créer et gérer vos catégories. Une fois les concepts et les types extraits de vos données textuelles, vous pouvez commencer à créer des catégories automatiquement en utilisant des techniques telles que l'inclusion de concepts, le réseau sémantique (en anglais uniquement) ou manuellement.

    Étant donné que cet exemple de flux utilise un modèle de paquet d'analyse de texte, le modèle de catégorie est déjà rempli.

  2. Cliquez sur Tout noter pour noter les documents ou les enregistrements. Chaque fois qu'une catégorie est créée ou mise à jour, vous pouvez voir si un texte correspond à un descripteur dans une catégorie spécifique. Si un document ou un enregistrement correspondant est trouvé, il est affecté à cette catégorie. Il en résulte que la plupart, sinon la totalité, des documents ou des enregistrements sont affectés à des catégories sur la base des descripteurs contenus dans ces catégories.
  3. Développez une catégorie, par exemple, Commodités de l'hôtel > Propreté > Nég > non nettoyé.
  4. Consultez les documents dans l'onglet Aperçu et dans l'onglet Descripteurs pour voir les données sources.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre l'aperçu du document pour la catégorie Propreté. Vous êtes maintenant prêt à construire le modèle.

Noeud Remplacer

haut de page

Tâche 5 : Construire le modèle

Une fois que vous avez fini de régler le processus d'extraction, vous pouvez générer un modèle de catégorie à partir des personnalisations et des catégories que vous avez créées. Suivez les étapes suivantes pour construire et déployer le modèle :

  1. Cliquez sur Générer un modèle pour générer un modèle de catégorie.
    Image montrant le bouton permettant de générer un modèle
  2. Cliquez sur Construire pour confirmer que vous souhaitez générer un modèle de catégorie.
  3. Lorsque vous verrez le succès ! cliquer sur Retour au flux.
  4. Cliquez sur Enregistrer et quitter pour enregistrer vos modifications et le nœud Text Mining dans le flux.
    La pépite du modèle de catégorie générée est affichée sur votre canevas de flux.
    Figure 6 Modèle de catégorie généré
    Modèle de catégorie généré. Montre un flux avec un nœud de Text Mining et une pépite de modèle de catégorie.
  5. Remarquez les deux nœuds du modèle de satisfaction dans l'exemple de flux. Maintenant que Text Analytics Workbench a validé et généré un modèle de catégorie, vous pouvez le déployer dans votre flux et évaluer le même ensemble de données ou de nouvelles données. Chaque modèle utilise un mode de notation différent.
    Figure 7 Exemple de flux avec deux modes de scoring
    Exemple de flux avec deux modes de scoring
  6. Double-cliquez sur le premier nœud du modèle de satisfaction.
    1. Développez la section Paramètres pour voir que ce nœud utilise le mode de notation Catégories comme champs. Avec ce mode de notation, il y a autant d'enregistrements en sortie qu'il y en avait en entrée.
    2. Cliquez sur Aperçu des données. Vous pouvez constater que chaque enregistrement contient désormais un nouveau champ pour chaque catégorie sélectionnée dans l'onglet Modèle. Pour chaque champ, saisissez une valeur d'indicateur pour vrai et pour faux, telle que " True/False ou " 1/0. Dans ce flux, les valeurs seront converties respectivement en 1 et en 0 pour agréger les résultats et compter le nombre de réponses positives, de réponses négatives, de réponses mixtes (à la fois positives et négatives) et sans score (sans opinion).

      Figure 8 Résultats du modèle - catégories comme champs (1).
      Résultats du modèle - catégories comme champs. Il s'agit d'un tableau comportant les colonnes ID, Commentaires, Sexe, Raison, Nég, Pos, Cont et Sentiment. Les entrées de la colonne ID sont des nombres. Les entrées de la colonne Commentaires présentent de courtes phrases extraites du texte. Par exemple, l'une des entrées indique "très silencieux, mais très cher". Les entrées de la colonne Motif indiquent si le voyage était pour affaires ou pour loisirs. Neg et Pos indiquent le nombre de sentiments négatifs et positifs pour chaque phrase courte. Le sentiment indique si l'avis est positif (uniquement les chiffres de la colonne Pos), négatif (uniquement les chiffres de la colonne Neg) ou mixte (les chiffres des colonnes Neg et Pos).
    3. Fermez la fenêtre d'aperçu.
    4. Cliquez sur Annuler.
  7. Double-cliquez sur le deuxième nœud du modèle de satisfaction.
    1. Développez la section Paramètres pour voir que ce nœud utilise le mode de notation Catégories comme enregistrements. Un nouvel enregistrement est créé pour chaque paire " category, document. Généralement, la sortie comporte plus d'enregistrements que n'en comportait l'entrée.
    2. Cliquez sur Aperçu des données. Vous pouvez constater qu'en plus des champs de saisie, de nouveaux champs sont également ajoutés aux données en fonction du type de modèle.

      Figure 9 Résultats du modèle - catégories comme enregistrements (2).
      Résultats du modèle - catégories comme enregistrements. Il s'agit d'un tableau comportant les colonnes ID, Commentaires, Sexe, Raison, Catégorie et Sentiment. Les entrées de la colonne ID sont des nombres. Les entrées de la colonne Commentaires présentent de courtes phrases extraites du texte. Par exemple, l'une des entrées indique "très silencieux, mais très cher". Les entrées de la colonne Motif indiquent si le voyage était pour affaires ou pour loisirs. Neg et Pos indiquent le nombre de sentiments négatifs et positifs pour chaque phrase courte. Le sentiment indique si l'avis est positif (uniquement les chiffres de la colonne Pos), négatif (uniquement les chiffres de la colonne Neg) ou mixte (les chiffres des colonnes Neg et Pos).
    3. Fermez la fenêtre d'aperçu.
    4. Cliquez sur Annuler.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre le modèle de satisfaction avec un aperçu du document. Vous êtes maintenant prêt à visualiser les commentaires.

Noeud de modèle

haut de page

Tâche 6 : Visualiser les commentaires

En visualisant les commentaires, vous pouvez rapidement savoir ce que les clients apprécient dans l'hôtel. Suivez les étapes suivantes pour créer un nuage de mots :

  1. Sélectionnez les commentaires positifs :
    1. Dans la palette, développez la section Opérations d'enregistrement.
    2. Faites glisser le nœud Select sur le canevas.
    3. Connectez le supernœud Derive Sentiment au nœud Select.
    4. Double-cliquez sur le nœud Select pour afficher ses propriétés.
    5. Pour le Mode, sélectionnez Inclure.
    6. Pour la condition, tapez " Sentiment = "Pos".
    7. Cliquez sur Sauvegarder.
  2. Ajouter un graphique :
    1. Dans la palette, développez la section Graphiques.
    2. Faites glisser le nœud Charts sur le canevas.
    3. Connectez le nœud Select au nœud Charts.
  3. Construire un nuage de mots :
    1. Double-cliquez sur le nœud Graphiques pour afficher ses propriétés.
    2. Cliquez sur Lancer le générateur de graphiques.
    3. Dans les colonnes à visualiser, sélectionnez Commentaires.
    4. Affichez la liste de tous les types de graphiques et sélectionnez Nuage de mots.

      Figure 10. Tous les types de cartes
      Tous les types de cartes
  4. Lorsque vous avez terminé, cliquez sur Retour au flux.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre un nuage de mots. Vous êtes maintenant prêt à examiner le nœud Analyse des liens textuels.

Nuage de mots

haut de page

Tâche 7 : Examiner le nœud d'analyse des liens textuels

Parfois, il n'est pas nécessaire de créer un modèle de catégorie pour obtenir un score. Le nœud d'analyse des liens textuels ajoute une technologie de mise en correspondance de motifs à l'extraction de concepts de l'exploration de texte. Le nœud d'analyse des liens textuels identifie les relations entre les concepts dans les données textuelles sur la base de modèles connus. Ces relations peuvent décrire l'impression d'un client vis-à-vis d'un produit, les organisations qui travaillent ensemble et même les relations entre des gènes ou des agents pharmaceutiques. Procédez comme suit pour examiner le nœud Analyse des liens textuels:
Noeud Analyse des liens du texte
  1. Double-cliquez sur le nœud Analyse des liens textuels pour afficher ses propriétés.
  2. Définissez ces propriétés dans la section Champs :
    1. Pour le champ Texte, sélectionnez Commentaires.
    2. Dans le champ ID, sélectionnez id.
      Note : Seul le champ Texte est obligatoire.

      Figure 11. Propriétés du champ du nœud d'analyse des liens textuels.
      Propriétés du champ du nœud d'analyse des liens textuels. Il montre les paramètres des champs tels que le champ ID, le champ Texte, le champ Langue, le type de document, l'unité textuelle et les paramètres du mode Paragraphe.
  3. Dans la section Copier les ressources à partir de, remarquez que le modèle de ressource sélectionné est Satisfaction hôtelière (anglais).

    Un modèle de ressource est un ensemble prédéfini de bibliothèques et de ressources linguistiques et non linguistiques avancées qui ont été adaptées à un domaine ou à un usage particulier.

  4. Développez la section Expert et vérifiez que l'option Accommoder l'orthographe pour une longueur minimale de caractère de mot est sélectionnée avec une limite d'orthographe de " 5".

    Figure 12. Nœud d'analyse des liens textuels Propriétés de l'expert.
    Nœud d'analyse des liens textuels Propriétés de l'expert. Il présente des cases à cocher pour des paramètres tels que Accommoder l'orthographe pour une limite minimale de caractères racine, Extraire les unitermes, Extraire les entités non linguistiques, Algorithme de majuscules, Regrouper les noms de personnes partiels et complets lorsque c'est possible, et Utiliser la dérivation pour regrouper les noms composés.
  5. Cliquez sur Sauvegarder.
  6. Survolez le nœud de sortie Raw TLA et cliquez sur l'icône Run " Icône d'exécution.
  7. Dans le volet Sorties et modèles, cliquez sur les résultats portant le nom Sortie TLA brute pour afficher les résultats.

    Figure 13. Sortie TLA brute.
    Sortie TLA brute. Il s'agit d'un tableau comportant des colonnes telles que Concept1, Type1, Concept2, Type2, ID et Texte correspondant. Les entrées des colonnes conceptuelles sont des mots tels que chambre ou parking. Les entrées des colonnes de type sont des mots tels que Budget ou Services. Les lignes montrent comment un concept est lié à un type ou à d'autres concepts. Chaque ligne indique également comment ces mots apparaissent dans le texte.

    Figure 14. Compter les sentiments sur un nœud TLA.
    Compter les sentiments sur un nœud TLA. Il s'agit d'un tableau comportant les colonnes ID, Commentaires, Somme_Pos et Somme_Nég. Les entrées de la colonne ID sont des numéros pour chaque ligne. Les entrées de la colonne Commentaires présentent de courtes phrases extraites du texte. Par exemple, une entrée indique Chambres confortables, petit déjeuner exceptionnel et service agréable. Les colonnes Pos_Count_Sum et Neg_Count_Sum indiquent le nombre de sentiments positifs ou négatifs pour chaque phrase courte. Par exemple, pour la phrase précédente, il a compté trois sentiments positifs.

Icône de point de contrôle Vérifier votre progression

L'image suivante montre le flux terminé.

Flux terminé

haut de page

Récapitulatif

Ce flux sur la satisfaction des hôtels vous a montré comment un directeur d'hôtel pouvait analyser les commentaires sur les hôtels pour connaître les opinions exprimées par les clients sur le personnel de l'hôtel, le confort, la propreté, le prix et d'autres domaines d'intérêt. Ce flux illustre deux façons d'analyser des données textuelles, en utilisant un nœud d'exploration de texte ou un nœud d'analyse de liens textuels.

Etapes suivantes

Vous êtes maintenant prêt à essayer d'autres didacticielsSPSS® Modeler.

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus