Au cours de l'extraction des concepts et des idées clés de vos réponses, Text Analytics s'appuie sur une analyse de texte basée sur la linguistique. Cette approche offre la rapidité et la rentabilité des systèmes basés sur des statistiques. Mais elle offre un plus grand degré d'exactitude tout en ne nécessitant que peu d'intervention humaine. L'analyse de texte linguistique se base sur un domaine d'étude appelé processus de langage naturel, également connu sous le nom de linguistique computationnelle.
Si vous comprenez le fonctionnement du processus d'extraction, vous êtes plus à même de prendre les décisions-clés lorsque vous affinez vos ressources linguistiques (bibliothèques, types, synonymes, etc.). Les principales étapes du processus d'extraction sont les suivantes :
- Conversion des données source en un format standard
- Identification des termes susceptibles d'être extraits
- Identification des classes d'équivalence et intégration des synonymes
- Affectation d'un type
- Indexation
- Mise en correspondance de l'extraction des motifs et des événements
Etape 1. Conversion des données source en un format standard
Au cours de cette première étape, les données que vous importez sont converties dans un format uniforme pouvant être utilisé pour effectuer d'autres analyses. Cette conversion, qui s'effectue en interne, ne modifie pas les données d'origine.
Étape 2. Identification des termes susceptibles d'être extraits
Il est important de comprendre le rôle des ressources linguistiques dans l'identification des termes susceptibles d'être extraits lors de l'extraction linguistique. Les ressources linguistiques sont utilisées lors de chaque exécution d'une extraction. Elles se présentent sous la forme de ressources compilées, de bibliothèques et de modèles. Les bibliothèques comportent des listes de mots, des relations et des informations complémentaires qui permettent de spécifier ou d'affiner l'extraction. Vous ne pouvez pas afficher ni éditer les ressources compilées. Toutefois, les ressources restantes (modèles) peuvent être éditées dans l'éditeur de modèle ou, si vous vous trouvez dans une session Text Analytics Workbench, dans l'éditeur de ressource.
Les ressources compilées sont des composants internes de base du moteur d'extraction. Ces ressources comportent un dictionnaire général qui liste les formes de base avec un code concernant la catégorie grammaticale (nom, verbe, adjectif, adverbe, participe, conjonction de coordination, déterminant ou préposition). Les ressources comprennent également des types intégrés et réservés qui permettent d'affecter de nombreux termes extraits aux types suivants : <Location>
, <Organization>
ou <Person>
.
Outre ces ressources compilées, plusieurs bibliothèques sont fournies avec le produit et peuvent être utilisées pour compléter les types et les définitions de concept figurant dans les ressources compilées, ainsi que pour proposer d'autres types et synonymes. Ces bibliothèques et celles que vous pouvez créer sont constituées de plusieurs dictionnaires : il s'agit de dictionnaires de types, de dictionnaires de substitutions (synonymes et éléments optionnels) et de dictionnaires d'exclusions.
Une fois les données importées et converties, le moteur d'extraction commence à identifier les termes candidats à l'extraction. Ces termes sont des mots ou des groupes de mots qui permettent d'identifier des concepts du texte. Lors du traitement du texte, les mots uniques (uni-terms) qui ne figurent pas dans les ressources compilées sont considérés comme des termes candidats à l'extraction. Les mots composés candidats (termes multiples) sont identifiés à l'aide d'extracteurs de motifs de partie du discours. Par exemple, le terme multiple sports car
, qui suit le motif de partie du discours adjectif nom , comporte deux composants. Le terme multiple fast
sports car
, qui suit le motif de partie du discours adjectif adjectif nom , comporte trois composants.
Enfin, un algorithme spécial est appliqué pour traiter les chaînes en majuscules (intitulés de postes, par exemple), de telle sorte que ces motifs puissent être extraits.
Étape 3. Identification des classes d'équivalence et intégration des synonymes
Une fois que les uni-termes et les multi-termes candidats sont identifiés, le logiciel utilise un ensemble d'algorithmes pour les comparer et identifier les classes d'équivalence. Une classe d'équivalence désigne la forme de base d'une phrase ou la forme unique de deux variantes d'une même phrase. L'attribution de phrases aux classes d'équivalence a pour but de garantir que, par exemple, president of the
company
et company president
ne sont pas traités comme des concepts distincts. Pour déterminer le concept à utiliser pour la classe d'équivalence, c'est-à-dire si president of the
company
ou company president
est utilisé comme terme principal, le moteur d'extraction applique les règles suivantes dans l'ordre indiqué :
- Forme définie par l'utilisateur dans une bibliothèque.
- Forme la plus fréquente dans l'ensemble du corps du texte.
- Forme la plus courte dans l'ensemble du corps du texte (ce qui correspond généralement à la forme de base).
Étape 4 : Type d'affectation
Des types sont ensuite affectés aux concepts extraits. Un type correspond à un regroupement sémantique de concepts. Les ressources compilées et les bibliothèques sont utilisées au cours de cette étape. Les types comprennent des éléments tels que des concepts de niveau supérieur, des mots positifs et négatifs, des prénoms, des lieux, des organisations, etc. Vous pouvez définir d'autres types.
Étape 5. Indexation
La totalité des enregistrements ou des documents est indexée via la mise en place d'un pointeur entre une position de texte et le terme représentatif pour chaque classe d'équivalence. Cela suppose que toutes les instances de forme infléchies d'un concept candidat sont indexées en tant que forme de base candidate. La fréquence globale est calculée pour chaque forme de base.
Étape 6. Mise en correspondance de l'extraction des motifs et des événements
Text Analytics peut découvrir non seulement des types et des concepts mais également des relations entre eux. Plusieurs algorithmes et bibliothèques sont disponibles avec cet outil et permettent d'extraire des modèles de relation entre les types et les concepts. Ils s'avèrent particulièrement utiles lorsque vous tentez de détecter des opinions spécifiques (relations entre des produits, par exemple) ou les liens relationnels entre des personnes ou des objets (liens entre des groupes politiques ou des génomes, par exemple).