Le noeud Text Mining applique des techniques linguistiques et de fréquence pour extraire les principaux concepts du texte et créer des catégories avec ces concepts et d'autres données. Utilisez le noeud pour explorer le contenu des données texte ou pour générer un nugget de modèle de concept ou un nugget de modèle de catégorie.
- Le mode Générer directement (nugget de modèle de concept) génère automatiquement un nugget de modèle de concept ou de catégorie lorsque vous exécutez le noeud.
- La génération interactive (nugget de modèle de catégories) est une approche plus pratique et exploratoire. Vous pouvez utiliser ce mode pour non seulement extraire des concepts, créer des catégories et affiner vos ressources linguistiques, mais également exécuter une analyse des liens du texte et explorer des clusters. Ce mode de génération lance le plan de travail Text Analytics.
Vous pouvez également utiliser le noeud Text Mining pour générer l'un des deux nuggets de modèle Text Mining:
- Les nuggets de modèle de concept permettent de découvrir et d'extraire des concepts importants de vos données textuelles structurées ou non structurées.
- Les nuggets de modèles de catégorie évaluent et attribuent des documents et des enregistrements à des catégories, qui sont constitués des concepts (et des motifs) extraits.
Les concepts extraits, les motifs et les catégories de vos nuggets de modèle peuvent tous être combinés à des données structurées existantes, telles que les données démographiques, afin de prendre des décisions plus efficaces et plus ciblées. Par exemple, si les clients répertorient fréquemment les problèmes de connexion comme principal obstacle à l'exécution des tâches de gestion de compte en ligne, vous souhaiterez peut-être incorporer des "problèmes de connexion" dans vos modèles.
Sources de données et ressources linguistiques
Les noeuds modélisation Text Mining acceptent les données texte des noeuds d'importation.
Vous pouvez également télécharger des modèles personnalisés et des packs d'analyse de texte directement dans le noeud Text Mining à utiliser dans le processus d'extraction.
Concepts et nuggets de modèle de concept
Au cours du processus d'extraction, les données texte sont analysées et analysées pour identifier des mots uniques importants, tels que election
ou peace
, et des phrases telles que presidential election
, election of the president
ou peace treaties
. Ces mots et groupes de mots sont collectivement appelés des termes. A l'aide des ressources linguistiques, les termes pertinents sont extraits et les termes similaires sont regroupés sous un terme principal appelé concept.
Ce regroupement signifie qu'un concept peut représenter plusieurs termes sous-jacents. Par exemple, le concept salary
a été extrait d'une enquête de satisfaction des employés. Lorsque vous avez examiné les enregistrements associés à salary
, vous avez remarqué que salary
n'est pas toujours présent dans le texte, mais que certains enregistrements contiennent quelque chose de similaire, comme les termes wage
, wages
et salaries
. Ces termes sont regroupés sous salary
car le moteur du programme d'extraction a déterminé qu'ils étaient similaires ou qu'il s'agissait de synonymes en fonction des règles de traitement ou des ressources linguistiques. Dans ce cas, tous les documents ou enregistrements contenant l'un de ces termes seront traités comme s'ils contenaient le mot salary
.
Si vous souhaitez voir quels termes sont regroupés sous un concept, vous pouvez explorer le concept dans le plan de travail Text Analytics ou examiner les synonymes affichés dans le modèle de concept.
- Pour explorer et analyser les concepts qui ont été reconnus dans le texte source d'origine ou pour identifier rapidement les documents qui vous intéressent.
- Pour appliquer ce modèle à de nouveaux enregistrements de texte ou de nouveaux documents afin d'identifier rapidement les mêmes concepts clés dans les nouveaux documents / enregistrements. Par exemple, vous pouvez appliquer le modèle à la reconnaissance en temps réel des concepts clés dans les données de bloc-notes à partir d'un centre d'appels.
Catégories et nuggets de modèle de catégorie
Vous pouvez créer des catégories qui représentent des concepts ou des rubriques de niveau supérieur pour capturer les principales idées, connaissances et attitudes exprimées dans le texte. Les catégories sont composées d'un ensemble de descripteurs, tels que des concepts, des types et des règles. Ensemble, ces descripteurs sont utilisés pour identifier si un enregistrement ou un document appartient ou non à une catégorie. Un document ou un enregistrement peut être analysé afin de déterminer si un texte qu'il contient correspond à un descripteur. Si une correspondance est trouvée, le document est affecté à cette catégorie. Ce processus est appelé catégorisation.
Les catégories peuvent être générées automatiquement à l'aide de l'ensemble robuste de techniques automatisées de SPSS Modeler. Vous pouvez également les générer manuellement à l'aide de toutes les informations supplémentaires que vous pourriez avoir concernant les données, ou d'une combinaison des deux. Vous pouvez également charger un ensemble de catégories prégénérées à partir d'un package d'analyse de texte via les paramètres de modèle de ce noeud. La création manuelle de catégories ou l'affinage de catégories ne peut être effectuée que via Text Analytics Workbench.
Un nugget de modèle de catégorie contient un ensemble de catégories et les descripteurs associés. Le modèle peut être utilisé pour catégoriser un ensemble de documents ou d'enregistrements en fonction du texte de chaque document ou enregistrement. Chaque document ou enregistrement est lu et affecté à chaque catégorie pour laquelle une correspondance de descripteur a été identifiée. De cette manière, il est possible d'attribuer un document ou un enregistrement à plus d'une catégorie. Par exemple, vous pouvez utiliser des nuggets de modèles de catégories pour voir les idées essentielles dans les réponses ouvertes à une enquête ou dans un ensemble d'entrées de blogue.