Aujourd'hui, une quantité croissante d'informations est détenue dans des formats non structurés et semi-structurés, tels que les courriers électroniques des clients, les notes des centres d'appels, les réponses aux enquêtes ouvertes, les flux de nouvelles, les formulaires Web, etc. Cette abondance d'informations pose un problème à de nombreuses organisations qui se demandent: comment pouvons-nous recueillir, explorer et exploiter ces informations?
Le processus de Text Mining consiste à analyser des ensembles de documents textuels afin de capturer les concepts et thèmes-clés, et de découvrir les relations et les tendances cachées. Il ne nécessite pas que vous connaissiez les mots ou les termes précis utilisés par les auteurs pour exprimer ces concepts. Bien qu'il s'agisse de processus très différents, l'exploration de texte est parfois confondue avec la récupération d'informations. Si l'extraction et le stockage précis des informations représentent un défi considérable, l'extraction et la gestion efficaces du contenu, de la terminologie et des relations compris dans ces informations jouent un rôle vital.
Text Mining et Data Mining
Pour chaque élément du texte, le système de Text Mining linguistique renvoie un index de concepts, ainsi que des informations à propos de ces concepts. Ces informations simplifiées et structurées peuvent être combinées à d'autres sources de données afin de répondre aux questions du type :
- Quels concepts sont associés ?
- A quel autre élément sont-ils liés ?
- Quelles sont les catégories de niveau supérieur pouvant découler des informations extraites ?
- Quels résultats les catégories ou les concepts permettent-ils de prédire ?
- De quelle façon les catégories ou les concepts prédisent-ils les comportements ?
Par une utilisation conjointe de Text Mining et de Data mining, vous obtenez des résultats plus probants que sur la base des données structurées ou non structurées seules. Ce processus comprend généralement les étapes suivantes :
- Identification du texte à explorer. Préparation du texte avant exploration. Si le texte apparaît dans plusieurs fichiers, sauvegardez-les tous au même endroit. Dans le cas de bases de données, déterminez le champ contenant le texte.
- Analyse et extraction des données structurées. Appliquez les algorithmes de Text Mining au texte source.
- Génération de modèles de concept et de catégorie. Identifiez les principaux concepts et/ou créez des catégories. Généralement, le système renvoie de nombreux concepts à partir de données non structurées. Identifiez les meilleurs concepts et catégories en vue du scoring des catégories.
- Analyse des données structurées. Utilisez les techniques standard du Data mining (comme le clustering, la classification et la modélisation prédictive) pour connaître les relations unissant les concepts. Fusionnez les concepts extraits avec d'autres données structurées afin de prévoir le comportement sur la base des concepts.
Analyse de texte et catégorisation
L'analyse de texte, une forme d'analyse qualitative, est l'extraction d'informations utiles à partir de texte afin que les idées ou concepts clés contenus dans ce texte puissent être regroupés dans un nombre approprié de catégories. Vous pouvez effectuer une analyse de texte sur tout type et toute longueur de texte, bien que l'approche analytique varie quelque peu.
Les enregistrements ou les documents plus courts sont plus facilement catégorisés, car ils ne sont pas aussi complexes et contiennent généralement moins de mots et de réponses ambigus. Par exemple, si nous posons des questions ouvertes et courtes au cours d'une enquête sur les trois activités préférées des personnes interrogées lorsqu'elles sont en vacances, leurs réponses seront pour la plupart courtes : aller à la plage, visiter des parcs nationaux ou ne rien faire. Des réponses ouvertes plus longues risquent, par contre, d'être plutôt complexes et démesurées, en particulier si les personnes interrogées sont instruites, motivées et qu'elles disposent de suffisamment de temps pour remplir un questionnaire. Si nous interrogeons des personnes sur leurs opinions politiques dans le cadre d'une enquête ou si nous mettons au point un flux de blogue concernant la politique, nous nous attendons à recevoir de très longs commentaires sur une grande variété de problèmes et de prises de position.
La possibilité d'extraire des concepts clés et de créer des catégories pertinentes à partir de ces sources de texte plus longues en très peu de temps est un avantage clé de l'utilisation de Text Analytics. Pour obtenir les résultats les plus fiables à chacune des étapes du processus d'analyse de texte, des techniques statistiques et linguistiques automatiques sont associées.
Traitement linguistique et traitement du langage naturel
Le principal problème lié à la gestion de ces données textuelles non structurées est l'absence de règles standard de rédaction permettant aux ordinateurs de comprendre les textes. La langue, et par conséquent le sens des mots, varie d'un document à l'autre et même au sein d'un même document. Pour pouvoir récupérer et organiser efficacement ces données non structurées, vous devez analyser la langue et découvrir la signification du texte. Il existe plusieurs méthodes automatisées permettant l'extraction des concepts d'informations non structurées. Ces méthodes peuvent être réparties en deux types : linguistiques et non linguistiques.
Certaines entreprises ont tenté d'employer des solutions non linguistiques automatisées basées sur des statistiques et des réseaux de neurones. Grâce aux technologies informatiques, ces solutions permettent d'analyser et de catégoriser les principaux concepts plus rapidement qu'un être humain. Le degré d'exactitude de ces solutions est malheureusement relativement faible. La plupart des systèmes basés sur les statistiques comptent simplement le nombre d'occurrences des mots et calculent leur proximité statistiques vis-à-vis des concepts associés. Ils produisent un grand nombre de résultats non pertinents (« bruit ») et passent à côté de ceux qu'ils doivent trouver. On parle alors de « silence ».
Pour compenser leur exactitude limitée, certaines solutions intègrent des règles non linguistiques complexes permettant de distinguer les résultats pertinents des résultats non pertinents. Cette technique est appelée Text Mining basé sur des règles.
La technique du Text Mining basé sur la linguistique associe les principes de traitement du langage naturel (analyse assistée par ordinateur des langues humaines) et l'analyse des mots, des phrases, de la syntaxe et de la structure du texte. Les systèmes dotés du traitement du langage naturel extraient les concepts de manière intelligente, y compris les mots composés. En outre, grâce à la maîtrise du langage sous-jacent, ils classent les concepts en groupes d'informations similaires (produits, organisations ou personnes, par exemple), s'aidant du sens et du contexte.
Le Text Mining basé sur la linguistique détermine la signification d'un texte à la manière d'une personne humaine, en reconnaissant un certain nombre de formes de mots comme ayant une signification semblable et en analysant la structure de la phrase de manière à fournir un canevas permettant de comprendre le texte. Tout en garantissant la rapidité et la rentabilité des systèmes statistiques, cette méthode offre un degré d'exactitude nettement supérieur et exige une intervention considérablement moindre de l'utilisateur.
Pour illustrer la différence entre les approches basées sur les statistiques et les approches basées sur la linguistique au cours du processus d'extraction, réfléchissez à la manière dont chacune d'elles répondrait à une requête sur reproduction of documents
. Les solutions basées sur les statistiques et sur la linguistique doivent développer le mot reproduction
pour inclure les synonymes, tels que copy
et duplication
. Sinon, des informations pertinentes risquent d'être ignorées. Mais si une solution basée sur des statistiques tente de faire ce type de synonyme-en recherchant d'autres termes ayant la même signification-elle est susceptible d'inclure également le terme birth
, générant un certain nombre de résultats non pertinents. Comme la compréhension de la langue permet de lever toute ambiguïté dans le texte, l'exploration de texte linguistique reste par définition la méthode la plus fiable.
Si vous comprenez le fonctionnement du processus d'extraction, vous êtes plus à même de prendre les décisions-clés lorsque vous affinez vos ressources linguistiques (bibliothèques, types, synonymes, etc.). Les principales étapes du processus d'extraction sont les suivantes :
- Conversion des données source en un format standard
- Identification des termes susceptibles d'être extraits
- Identification des classes d'équivalence et intégration des synonymes
- Affectation d'un type
- Indexation et, si nécessaire, mise en correspondance de motifs avec un deuxième analyseur
Étape 1. Conversion des données source en un format standard
Au cours de cette première étape, les données que vous importez sont converties dans un format uniforme pouvant être utilisé pour effectuer d'autres analyses. Cette conversion, qui s'effectue en interne, ne modifie pas les données d'origine.
Étape 2. Identification des termes susceptibles d'être extraits
Il est important de comprendre le rôle des ressources linguistiques dans l'identification des termes susceptibles d'être extraits lors de l'extraction linguistique. Les ressources linguistiques sont utilisées lors de chaque exécution d'une extraction. Elles se présentent sous la forme de ressources compilées, de bibliothèques et de modèles. Les bibliothèques comportent des listes de mots, des relations et des informations complémentaires qui permettent de spécifier ou d'affiner l'extraction. Vous ne pouvez pas afficher ni éditer les ressources compilées. Toutefois, les ressources restantes peuvent être éditées dans l'éditeur de modèle ou, si vous êtes dans une session Text Analytics Workbench, dans l'éditeur de ressources.
Les ressources compilées sont des composants internes de base du moteur d'extraction au sein de Text Analytics. Ces ressources comprennent un dictionnaire général contenant une liste de formes de base avec un code de partie du discours (nom, verbe, adjectif, etc.).
Outre ces ressources compilées, plusieurs bibliothèques sont fournies avec le produit et peuvent être utilisées pour compléter les types et les définitions de concept figurant dans les ressources compilées, ainsi que pour proposer des synonymes. Ces bibliothèques et celles que vous pouvez créer sont constituées de plusieurs dictionnaires : dictionnaires de types, dictionnaires de synonymes et dictionnaires d'exclusions.
Une fois les données importées et converties, le moteur d'extraction commence à identifier les termes candidats à l'extraction. Ces termes sont des mots ou des groupes de mots qui permettent d'identifier des concepts du texte. Pendant le traitement du texte, les mots uniques (unitermes) et les mots composés (multitermes) sont identifiés à l'aide d'extracteurs de motifs de catégorie grammaticale. Par conséquent, les mots-clés de sentiment susceptibles d'être extraits sont identifiés à l'aide de l'analyse des liens du texte de sentiment.
Étape 3. Identification des classes d'équivalence et intégration des synonymes
Une fois les expressions unitermes et multitermes susceptibles d'être extraites identifiées, le logiciel utilise un dictionnaire de normalisation afin d'identifier des classes d'équivalence. Une classe d'équivalence est une expression de base ou une forme unique de deux variantes de la même phrase.L'attribution de phrases aux classes d'équivalence a pour but de garantir que, par exemple, side effect
et 副作用
ne sont pas traités comme des concepts distincts. Pour déterminer le concept adapté à la classe d'équivalence — c' est-à-dire si side effect
ou 副作用
est utilisé comme terme principal — , le moteur d'extraction applique les règles suivantes dans l'ordre indiqué :
- Forme définie par l'utilisateur dans une bibliothèque.
- La forme la plus fréquente, comme définie par les ressources précompilées.
Étape 4. Type d'affectation
Des types sont ensuite affectés aux concepts extraits. Un type correspond à un regroupement sémantique de concepts. Les ressources compilées et les bibliothèques sont utilisées au cours de cette étape. Les types comprennent des éléments tels que des concepts de niveau supérieur, des mots positifs et négatifs, des prénoms, des lieux, des organisations, etc.
Les systèmes linguistiques sont sensibles à la connaissance. Plus leurs dictionnaires contiennent d'informations, plus la qualité des résultats obtenus est élevée. Modifier le contenu du dictionnaire, les définitions de synonyme par exemple, permet de simplifier les informations obtenues. Souvent itératif, ce processus est nécessaire pour obtenir une extraction précise des concepts. NLP est un élément de base de Text Analytics.