Lorsque vous générez des catégories, vous pouvez effectuer une sélection parmi un certain nombre de techniques de génération de catégories linguistiques avancées, telles que inclusion de concept et réseaux sémantiques (texte en anglais uniquement). Ces techniques peuvent être utilisées individuellement ou conjointement pour créer des catégories.
Notez que puisque chaque ensemble de données est unique, le nombre de méthodes et l'ordre dans lequel vous les appliquez peut varier. Dans la mesure où vos objectifs d'exploration de texte peuvent être différents d'un ensemble de données à un autre, vous pouvez tester les différentes techniques afin de déterminer celle qui génère les meilleurs résultats pour les données textuelles en question. Aucune technique automatique ne permet de catégoriser parfaitement vos données ; nous vous recommandons de rechercher et d'appliquer la ou les techniques qui sont les mieux adaptées à vos données.
Les paramètres avancés suivants sont disponibles pour l'option Utiliser les techniques linguistiques pour créer les catégories dans les paramètres de catégorie.
Entrée de la catégorie
Sélectionnez à partir de quels éléments les catégories seront générées :
- Résultats d'extraction non utilisés. Cette option permet de construire des catégories à partir de résultats d'extraction qui ne sont pas utilisés dans des catégories existantes. Ceci réduit la tendance des enregistrements à correspondre à plusieurs catégories et limite le nombre de catégories produites.
- Tous les résultats d'extraction. Cette option permet aux catégories d'êtres créées à l'aide de tous les résultats d'extraction. Ceci est particulièrement utile quand aucune ou peu de catégories existent déjà.
Sortie de la catégorie
Sélectionnez la structure générale des catégories qui seront créées :
- Hiérarchique avec des sous-catégories. Cette option crée des sous-catégories et des sous-sous-catégories. Vous pouvez définir la profondeur de vos catégories en sélectionnant le nombre maximal de niveaux pouvant être créés. Par exemple, si vous choisissez 3, les catégories peuvent contenir des sous-catégories et ces sous-catégories peuvent également comporter des sous-catégories.
- Catégories plates (niveau unique seulement). Cette option ne génère qu'un seul niveau de catégories, ce qui signifie qu'aucune sous-catégorie ne sera générée.
Techniques de regroupement
Chacune des techniques disponibles est bien adaptée à certains types de données et de situations, mais il est souvent utile de combiner des techniques dans la même analyse pour capturer la gamme complète des documents ou des enregistrements. Aussi est-il possible de voir un concept figurer dans plusieurs catégories ou de rencontrer des catégories redondantes.
- Regrouper par concept d'inclusion. Cette technique crée des catégories en regroupant les concepts multitermes (mots composés) selon qu'ils contiennent ou non des mots qui sont des sous-ensembles ou des super-ensembles d'un mot dans l'autre. Par exemple, le concept
seat
serait regroupé avecsafety seat
,seat belt
etseat belt buckle
. - Regrouper par réseau sémantique. Cette technique commence en identifiant les sens possibles de chaque concept à partir de son index complet de relations existant entre les mots puis crée des catégories en regroupant les concepts associés. Cette technique est plus performante lorsque les concepts sont connus dans le réseau sémantique et qu'ils ne sont pas trop ambigus. Son efficacité est cependant amoindrie lorsque le texte contient des termes spécialisés dont le réseau n'a pas connaissance. Dans un exemple, le concept
granny smith apple
peut être regroupé avecgala apple
etwinesap apple
, car ils sont apparentés à la pomme Granny Smith. Dans un autre exemple, le conceptanimal
peut être regroupé aveccat
etkangaroo
car ils sont des hyponymes deanimal
. Cette technique est disponible pour le texte anglais uniquement. - Distance de recherche maximale. Ce paramètre n'est disponible que si vous sélectionnez l'option Regrouper par réseau sémantique. Sélectionnez jusqu'où vous souhaitez que les techniques effectuent la recherche avant de créer des catégories. Plus cette valeur est faible, moins les résultats seront nombreux ; toutefois, ils seront plus précis et liés ou associés entre eux de manière significative. Plus cette valeur est élevée, plus les résultats seront nombreux ; toutefois ils seront moins précis et moins fiables. Bien que cette option soit généralement appliquée à toutes les techniques, son effet est maximal sur les occurrences et les réseaux sémantiques.
- Empêcher l'appariement de concepts spécifiques. Sélectionnez cette option pour arrêter le regroupement ou l'appariement de deux concepts dans la sortie. Pour créer ou gérer des paires de concepts, cliquez sur Gérer les paires.
- Généraliser avec des caractères génériques lorsque cela est possible. Sélectionnez cette option pour permettre à Modeler de générer des règles génériques dans des catégories à l'aide du caractère générique astérisque. Par exemple, au lieu de produire plusieurs descripteurs tels que
[apple tart + .]
et[apple sauce + .]
, l'utilisation de caractères génériques peut produire[apple * + .]
. Si vous généralisez avec des caractères génériques, vous obtiendrez souvent exactement le même nombre d'enregistrements ou de documents que vous l'avez fait auparavant. Toutefois, cette option a l'avantage de réduire le nombre de descripteurs de catégorie et de les simplifier. De plus, cette option augmente les possibilités de catégoriser davantage d'enregistrements ou de documents en utilisant ces catégories sur de nouvelles données textuelles (par exemple dans les enquêtes longitudinales/par vagues).
Autres options pour créer des catégories
Nombre maximal de catégories de niveau supérieur créées. Utilisez cette option pour limiter le nombre de catégories pouvant être générées la prochaine fois que vous cliquez sur Génération dans le panneau des catégories. Dans certains cas, vous pouvez obtenir de meilleurs résultats si vous réglez cette valeur élevée puis supprimez les catégories sans intérêt.
Nombre minimum de descripteurs et/ou de sous-catégories par descripteur. Utilisez cette option pour définir le nombre minimum de descripteurs et de sous-catégories qu'une catégorie doit contenir pour être créée. Cette option permet de limiter la création de catégories qui ne capturent pas un nombre significatif d'enregistrements ou de documents.
Permettre aux descripteurs d'apparaître dans plus d'une catégorie. Lorsqu'elle est sélectionnée, cette option permet aux descripteurs d'être utilisés dans plusieurs des catégories qui seront créées ensuite. Cette option est généralement choisie car les éléments se classent généralement ou "naturellement" en deux catégories ou plus, et autoriser ce mécanisme conduit généralement à des catégories de meilleure qualité. Si vous ne sélectionnez pas cette option, vous réduisez le chevauchement des enregistrements dans plusieurs catégories et, selon le type de données dont vous disposez, cela peut être souhaitable. Toutefois, avec la plupart des types de données, le fait de limiter les descripteurs à une seule catégorie entraîne une perte de la qualité ou de la diversité des catégories. Par exemple, supposons que vous ayez le concept car seat manufacturer
. Avec cette option, ce concept peut apparaître dans une catégorie basée sur le texte car seat
et dans une autre basée sur manufacturer
. Mais si cette option n'est pas sélectionnée, même si vous pouvez toujours obtenir les deux catégories, le concept car seat manufacturer
apparaît uniquement en tant que descripteur dans la catégorie à laquelle il correspond le mieux en fonction de plusieurs facteurs, y compris le nombre d'enregistrements dans lesquels car seat
et manufacturer
se produisent.
Résoudre les noms de catégories en double en. Choisissez la manière de manipuler les nouvelles catégories ou sous-catégories dont le nom sera identique dans des catégories existantes. Vous pouvez fusionner les nouvelles catégories (et leurs descripteurs) avec les catégories existantes avec le même nom, ou vous pouvez choisir d'ignorer la création des catégories si un nom en double est trouvé dans les catégories existantes.