0 / 0
Retourner à la version anglaise de la documentation
Fonctionnement de la catégorisation
Dernière mise à jour : 20 déc. 2024
Fonctionnement de la catégorisation (SPSS Modeler)

Lors de la création de modèles de catégorie dans Text Analytics, il existe plusieurs techniques différentes que vous pouvez choisir pour créer des catégories. Etant donné que chaque ensemble de données est unique, le nombre de techniques et leur ordre d'application peuvent varier.

Dans la mesure où votre interprétation des résultats peut être différente de celle d'une autre personne, vous pouvez tester les différentes techniques afin de déterminer celle qui génère les meilleurs résultats pour vos données texte. Dans Text Analytics, vous pouvez créer des modèles de catégorie dans une session de plan de travail dans laquelle vous pouvez explorer et affiner davantage vos catégories.

Dans cette documentation, l'expression génération de catégories fait référence à la génération des définitions de catégorie et à la classification via l'utilisation d'une ou de plusieurs techniques intégrées, et le terme catégorisation fait référence au scoring, ou à l'étiquetage, processus par lequel des identificateurs uniques (nom/ID/valeur) sont affectés aux définitions de catégorie pour chaque enregistrement ou document.

Pendant la génération de catégories, les concepts et les types qui ont été extraits sont utilisés en tant que blocs de construction de vos catégories. Lorsque vous générez des catégories, les enregistrements ou les documents sont automatiquement affectés à des catégories s'ils contiennent du texte qui correspond à un élément de la définition d'une catégorie.

Text Analytics vous propose plusieurs techniques de génération de catégories automatisées pour vous aider à catégoriser vos documents ou vos enregistrements rapidement.

Techniques de regroupement

Chacune des techniques disponibles est bien adaptée à certains types de données et de situations, mais il est souvent utile de combiner des techniques dans la même analyse pour capturer la gamme complète des enregistrements de documents. Aussi est-il possible de voir un concept figurer dans plusieurs catégories ou de rencontrer des catégories redondantes.

Réseau sémantique. Cette technique commence en identifiant les sens possibles de chaque concept à partir de son index complet de relations existant entre les mots puis crée des catégories en regroupant les concepts associés. Cette technique est plus performante lorsque les concepts sont connus dans le réseau sémantique et qu'ils ne sont pas trop ambigus. Son efficacité est cependant amoindrie lorsque le texte contient des termes spécialisés dont le réseau n'a pas connaissance. Dans un exemple, le concept granny smith apple peut être regroupé avec gala apple et winesap apple, car ils sont apparentés à la pomme Granny Smith. Dans un autre exemple, le concept animal peut être regroupé avec cat et kangaroo car ils sont des hyponymes de animal. Cette technique est disponible pour le texte anglais uniquement.

Inclusion de concept. Cette technique crée des catégories en regroupant les concepts multitermes (mots composés) selon qu'ils contiennent ou non des mots qui sont des sous-ensembles ou des super-ensembles d'un mot dans l'autre. Par exemple, le concept seat serait regroupé avec safety seat, seat belt et seat belt buckle.

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus