Extraction de données textuelles à l'aide de l'analyse de texte
Dernière mise à jour : 12 févr. 2025
Extraction de données textuelles avec Text Analytics dans SPSS Modeler
SPSS Modeler propose des nœuds spécialisés dans le traitement du texte. Les nœuds d'analyse de texte offrent de puissantes capacités d'analyse de texte qui utilisent des technologies linguistiques avancées et le traitement du langage naturel (NLP). Ils peuvent traiter rapidement une grande variété de données textuelles non structurées et en extraire les concepts clés. L'analyse de texte permet également d'organiser et de regrouper ces concepts en catégories.
Environ 80 % des données conservées au sein d'une organisation se trouvent sous la forme de documents texte - par exemple, des rapports, des pages Web, des courriers électroniques et des notes de centre d'appels. Le texte est un facteur clé qui permet à une organisation de mieux comprendre le comportement de ses clients. Les systèmes dotés du traitement du langage naturel extraient les concepts de manière intelligente, y compris les mots composés. En outre, grâce à la maîtrise du langage sous-jacent, ils classent les termes en groupes d'informations similaires (produits, entreprises ou personnes, par exemple), s'aidant du sens et du contexte. Par conséquent, vous pouvez rapidement savoir si les informations du document présentent un intérêt pour vous. Ces concepts et catégories extraits peuvent être combinés avec des données structurées existantes, telles que des données démographiques, et appliqués à la modélisation dans SPSS Modeler afin de produire des décisions meilleures et plus ciblées.
Les systèmes linguistiques sont sensibles à la connaissance. Plus leurs dictionnaires contiennent d'informations, plus la qualité des résultats obtenus est élevée. Text Analytics fournit un ensemble de ressources linguistiques, telles que des dictionnaires de termes et de synonymes, des bibliothèques et des modèles. Ces noeuds vous permettent également de développer et d'affiner ces ressources linguistiques dans votre contexte. La mise au point des ressources linguistiques est souvent un processus itératif nécessaire pour assurer avec précision l'extraction et la catégorisation des concepts. Enfin, des modèles personnalisés, des bibliothèques et des dictionnaires spécialisés dans des domaines précis, tels que la gestion de la relation client et la génomique, sont fournis.
Conseils pour démarrer :
La vidéo suivante présente une vue d'ensemble de l'analyse de texte.
En général, toute personne qui doit régulièrement examiner de gros volumes de documents pour identifier les éléments clés à explorer plus avant peut bénéficier de l'utilisation de Text Analytics. Voici quelques exemples d'applications spécifiques :
Recherche scientifique et médicale. Explorer des documents de recherche divers, tels que des rapports sur les brevets, des articles et des publications relatives aux protocoles. Identifier des associations jusque-là inconnues (par exemple, l'association d'un docteur à un produit particulier), ouvrant la voie à de nouvelles explorations. Réduire le délai nécessaire au processus de découverte de médicaments. Utiliser le programme dans le cadre de recherches en génomique.
Recherche dans le domaine des investissements. Passer en revue les rapports d'analyse quotidiens et les articles des journaux afin d'identifier les changements de stratégie et les évolutions du marché. A partir de ces informations, il est possible d'analyser les tendances, et de détecter les problèmes et opportunités que rencontre une société ou un secteur sur une période donnée.
Détection des fraudes. Dans le secteur bancaire et dans le domaine de la santé, ce logiciel peut servir à détecter les anomalies et les alertes dans de gros volumes de texte.
Etude de marché. Dans le domaine de l'étude de marché, cette application permet d'identifier les rubriques essentielles contenues dans les réponses ouvertes formulées à l'occasion d'enquêtes.
Analyse de flux de nouvelles et de blogues. Cette application permet de générer et d'explorer des modèles en s'appuyant sur les principales idées figurant dans l'actualité, les blogues, etc.
CRM. Créer des modèles sur la base des données issues de l'ensemble des points de communication avec la clientèle (messages électroniques, transactions et enquêtes).
Noeuds
Copy link to section
Outre les nombreux nœuds standard de SPSS Modeler, vous pouvez également travailler avec des nœuds de text mining pour intégrer la puissance de l'analyse de texte dans vos flux. Ces noeuds sont disponibles dans la palette de noeuds, sous Text Analytics :
Le noeud Identificateur de langue est un noeud de processus qui analyse le texte source pour déterminer dans quelle langue humaine il est écrit, puis le balise dans un nouveau champ. Initialement conçu pour être utilisé avec de grandes quantités de données, ce noeud est particulièrement utile si vous disposez de sources de données multilingues et que vous voulez traiter une langue seulement.
Le noeud Analyse des liens du texte extrait des concepts et identifie également les relations existant entre les concepts en fonction de motifs connus dans le texte. Vous pouvez utiliser l'extraction de motifs pour découvrir les relations entre vos concepts, ainsi que les opinions ou les qualificateurs associés à ces concepts. Le noeud Analyse des liens du texte (TLA) offre un moyen plus direct d'identifier et d'extraire des motifs à partir de votre texte, puis d'ajouter les résultats des motifs au jeu de données dans le flux. Mais vous pouvez également effectuer un TLA à l'aide d'une session Text Analytics Workbench via le nœud de modélisation Text Mining.
Le noeud Text Mining applique des méthodes linguistiques pour extraire les principaux concepts du texte, permet de créer des catégories avec ces concepts et d'autres données, et offre la possibilité d'identifier les relations et les associations existant entre les concepts en fonction de motifs connus (analyse des liens du texte). Vous pouvez utiliser ce noeud pour explorer le contenu des données de texte ou pour générer un modèle de concept ou un modèle de catégorie. Les concepts et les catégories peuvent être combinés avec les données structurées existantes, telles que des données démographiques, et appliqués à la modélisation.
À propos des cookies sur ce sitePour fonctionner correctement, nos sites Internet nécessitent certains cookies (requis). En outre, d'autres cookies peuvent être utilisés avec votre consentement pour analyser l'utilisation d'un site, améliorer l'expérience des utilisateurs et à des fins publicitaires.Pour plus informations, passez en revue vos options de préférences en préférences en matière de cookies. En visitant notre site Web, vous acceptez que nous traitions les informations comme décrit dans ladéclaration de confidentialité d’IBM.Pour faciliter la navigation, vos préférences en matière de cookie seront partagées dans les domaines Web d'IBM énumérés ici.