0 / 0
Retourner à la version anglaise de la documentation
Options de configuration
Dernière mise à jour : 22 nov. 2024
Définition des options de Text Analytics Workbench (SPSS Modeler)

Vous pouvez personnaliser différentes parties du processus d'extraction dans Text Analytics Workbench. Dans les onglets Concepts, Liens texteet Catégories , vous pouvez accéder à plusieurs paramètres du plan de travail pour modifier la façon dont les termes sont extraits des données texte.

Paramètres des résultats d'extraction

Lorsque vous exécutez le noeud Text Mining, le moteur d'extraction lit les données textuelles, identifie les concepts pertinents et affecte un type à chacun d'eux. Vous pouvez modifier les paramètres du processus d'extraction pour optimiser la création des résultats d'extraction.

Dans l'onglet Concepts ou Liens de texte , cliquez sur l'icône Paramètres pour modifier les paramètres d'extraction des concepts, des motifs et des liens de texte.

Activer l'extraction d'analyse des liens du texte
Si vous avez des règles d'analyse des liens du texte (TLA) dans l'une de vos bibliothèques, cochez la case pour extraire les motifs TLA de vos données texte. Cette option peut augmenter considérablement le temps d'extraction.
Limiter l'extraction aux concepts dont la fréquence globale est d'au moins :
Vous pouvez utiliser cette option pour extraire un terme en tant que concept uniquement si le terme apparaît un nombre défini de fois dans les données textuelles.
Adapter les erreurs de ponctuation
Cette option normalise temporairement le texte comportant des erreurs de ponctuation afin d'améliorer l'extractibilité des concepts lors du processus d'extraction. Cette option est utile lorsqu'un texte est court et de mauvaise qualité. Par exemple, les données textuelles provenant de réponses d'enquête ouvertes, d'e-mails et de données CRM peuvent présenter une ponctuation incorrecte. Il est également utile lorsque le texte contient de nombreuses abréviations.
Regroupement flou - Nombre minimal de caractères
Cette option applique une technique de regroupement flou qui permet de regrouper des mots mal orthographiés ou des mots étroitement orthographiés sous un seul concept. L'algorithme de regroupement flou supprime temporairement toutes les voyelles (sauf la première) et supprime les consonnes doubles / triples des mots extraits. Il compare ensuite les mots extraits pour voir s'ils sont identiques. Exemple :modelingetmodellingsont regroupés. Toutefois, si chaque terme est affecté à un type différent, à l'exclusion des<Unknown>, la technique de regroupement flou n'est pas appliquée.
Remarque : cette technique ne fonctionne pas avec les données textuelles écrites en japonais. Le japonais écrit s'appuie sur le contexte pour les fonctions grammaticales telles que le nombre et le genre, de sorte que les mots ont souvent la même forme malgré des utilisations différentes. Par conséquent, cette technique n'est pas efficace.
Extraire les mots simples
Vous pouvez utiliser cette option pour extraire des mots uniques (unitermes) en tant que concepts lorsqu'ils répondent aux critères suivants:
  • Le mot ne fait pas déjà partie d'un mot composé
  • Le mot est un nom ou une partie du discours non reconnue
Extraire les entités non linguistiques
Cette option extrait les entités non linguistiques, telles que les entités suivantes:
  • Numéros de téléphone
  • Numéros de sécurité sociale
  • Horaires :
  • Dates
  • Devises
  • Pourcentages
  • Adresses e-mail
  • Adresses HTTP

Vous pouvez inclure ou exclure certains types d'entités non linguistiques. En désactivant les entités inutiles, le moteur d'extraction économise du temps de traitement.

Algorithme des majuscules
Cette option extrait des termes simples et composés qui ne figurent pas dans les dictionnaires intégrés tant que la première lettre du terme est en majuscules. Cette option peut être utile si vous souhaitez extraire les noms les plus appropriés.
Regrouper si possible les noms de personnes partiels et complets
Cette option regroupe des noms qui apparaissent différemment dans le texte. Cette fonction est utile car les noms sont souvent cités dans leur forme complète au début du texte puis uniquement en version abrégée. Cette option essaye de faire correspondre tout uniterme ayant le type <Unknown> avec le dernier mot de tout terme composé entré comme <Person>. Par exemple, si martin est trouvé et initialement saisi comme <Unknown>, le moteur d'extraction vérifie si un terme composé de type <Person> contient martin comme dernier mot, tel que pierre martin. Cette option ne s'applique pas aux prénoms car la plupart ne sont jamais extraits en tant qu'unitermes.
Taille maximale pour la permutation des mots pleins
Cette option indique le nombre maximal de mots utiles pouvant être présents lorsque s'applique la technique de permutation. Cette technique de permutation regroupe les expressions similaires qui ne diffèrent les unes des autres que par la présence de mots utiles (par exemple, de et l'), quelle que soit leur inflexion. Par exemple, disons que vous définissez cette valeur sur deux mots au maximum et que responsables d'entreprise et responsables de l'entreprise ont été extraits. Dans ce cas, les deux termes extraits sont regroupés dans la liste de concepts finale car les deux termes sont considérés comme étant les mêmes lorsque de l' est ignoré.
Utiliser la dérivation lors du regroupement de mots composés
Lors du traitement de Big Data, sélectionnez cette option pour regrouper des multitermes à l'aide des règles de dérivation.

Paramètres des catégories

Les catégories sont générées à partir de descripteurs dérivés de types ou de motifs de type. Dans le tableau, vous pouvez sélectionner les types individuels ou les modèles de type à inclure dans le processus de génération de catégorie.

Dans l'onglet Catégories, cliquez sur Construire > Modifier les paramètres pour modifier les paramètres suivants.

Créer des catégories à partir de
Si vous sélectionnez Types, les catégories sont créées à partir des concepts qui appartiennent aux types sélectionnés. Par conséquent, si vous sélectionnez le<Budget>dans la table, des catégories telles quecostoupricepeut être généré carcostetpricesont des concepts affectés à la<Budget>.

Par défaut, seuls les types qui capturent le plus d'enregistrements ou de documents sont sélectionnés. Cette présélection vous permet de considérer rapidement les types les plus intéressants et d'éviter de créer des catégories sans intérêt. Le tableau affiche les types par ordre décroissant en commençant par celui avec le plus grand nombre d'enregistrements ou de documents (Doc. nombre).

L'entrée que vous choisissez affecte les catégories que vous obtenez. Lorsque vous choisissez d'utiliser Types comme entrée, vous pouvez plus facilement voir les concepts associés. Par exemple, si vous générez des catégories en utilisant des types comme entrée, vous pouvez obtenir une catégorieFruitavec des concepts tels queapple,pear,citrus fruits, etorange. Si vous choisissez Modèles de type comme entrée à la place et que vous sélectionnez le modèle<Unknown> + <Positive>, par exemple, vous pouvez obtenir une catégoriefruit + <Positive>avec un ou deux types de fruits tels quefruit + tastyetapple + good.-Ce deuxième résultat ne montre que deux modèles de concept parce que les autres occurrences de fruits ne sont pas nécessairement qualifiées positivement. Bien que cela puisse fonctionner pour vos données textuelles actuelles, dans les études longitudinales où vous utilisez des jeux de documents différents, vous pouvez ajouter manuellement d'autres descripteurs tels que:citrus fruit + positiveou utilisez des types. L'utilisation des types seuls comme entrée vous aide à trouver tous les fruits possibles.

Si vous sélectionnez Motifs de type, les catégories sont générées à partir de motifs plutôt que de types et de concepts seuls. Tous les enregistrements ou documents contenant un motif de concept appartenant au motif de type sélectionné sont catégorisés. Par conséquent, si vous sélectionnez le<Budget>et<Positive>modèle de type dans la table, des catégories telles quecost & <Positive>ourates & excellentpeut être produit.

Lors de l'utilisation de modèles de type comme entrée pour la génération de catégories automatisée, les techniques identifient parfois plusieurs façons de former la structure de catégories. Techniquement, il n'existe pas une bonne façon de créer des catégories, mais une structure peut être plus adaptée à votre analyse qu'une autre. Pour aider à personnaliser la sortie dans ce cas, vous pouvez choisir un type préféré. Toutes les catégories de niveau supérieur créées proviendront d'un concept du type sélectionné ici (et pas d'un autre type). Chaque sous-catégorie contiendra un motif des liens du texte de ce type. Choisissez ce type dans le champ Structurer les catégories par type de motif : ; la table sera mise à jour et contiendra uniquement les motifs applicables contenant le type sélectionné. Le plus souvent,<Unknown>est présélectionné pour vous. Quand<Unknown>est sélectionné, il se traduit par tous les motifs contenant le type<Unknown>seront sélectionnés. Le tableau affiche les types par ordre décroissant, en commençant par celui avec le plus grand nombre d'enregistrements ou de documents (Doc. nombre).

Techniques
Chaque jeu de données étant unique, le nombre de méthodes et l'ordre dans lequel vous les appliquez peuvent varier au fil du temps. Vos objectifs pour l'exploration de texte peuvent être différents d'un ensemble de données à l'autre. Par conséquent, vous devrez peut-être expérimenter différentes techniques pour déterminer celle qui génère les meilleurs résultats avec vos données texte.

Vous n'avez pas besoin d'être un expert de ces paramètres pour les utiliser. Par défaut, les paramètres les plus communs et moyens sont déjà sélectionnés. C'est pourquoi vous pouvez contourner la boîte de dialogue Paramètres avancés et créer directement vos catégories. De même, si vous effectuez des modifications ici, vous n'avez pas besoin de revenir à la boîte de dialogue Paramètres à chaque fois car les derniers paramètres sont toujours conservés.

Sélectionnez l'une des techniques suivantes, puis cliquez sur Paramètres avancés. Aucune des techniques automatiques ne peut parfaitement catégoriser vos données. Vous devrez peut-être trouver et appliquer une ou plusieurs techniques automatiques qui fonctionnent bien avec vos données. Vous ne pouvez pas créer en utilisant simultanément des techniques linguistiques et de fréquence.

Les paramètres Etendre suivants sont disponibles :

Entrée de la catégorie
Sélectionnez Résultats d'extraction non utilisés si vous souhaitez que les catégories soient générées à partir de résultats d'extraction qui ne sont pas utilisés dans des catégories existantes. Cette option réduit la tendance des enregistrements à correspondre à plusieurs catégories et limite le nombre de catégories produites. Vous pouvez également sélectionner Tous les résultats d'extraction si vous souhaitez que les catégories soient générées à l'aide de l'un des résultats d'extraction. Cette option est particulièrement utile lorsque vous n'avez pas ou peu de catégories déjà.

Chacune des techniques de regroupement convient mieux à certains types de données et de situations. Il est souvent utile de combiner des techniques dans la même analyse pour capturer la gamme complète de documents ou d'enregistrements. Vous pouvez voir un concept dans plusieurs catégories ou trouver des catégories redondantes.

La technique de inclusion de concept crée des catégories en regroupant les concepts multitermes (mots composés) selon qu'ils contiennent ou non des mots qui sont des sous-ensembles ou des super-ensembles d'un mot dans l'autre. Par exemple, le concept de siège est regroupé avec le siège de sécurité, la ceinture de sécurité et la boucle de ceinture de sécurité.

La technique du réseau sémantique commence en identifiant les sens possibles de chaque concept à partir de son index complet de relations existant entre les mots puis crée des catégories en regroupant les concepts associés. Par exemple, les concepts plongée sous-marine, voile, snorkeling, kayaket kayak d'eau blanche peuvent tous être regroupés dans la catégorie sports/sports by type/water sports. Ou bien, le concept animal peut être regroupé avec cat et kangaroo car il s'agit d'hyponymes d'animaux. La technique du réseau sémantique fonctionne mieux lorsque les concepts sont connus du réseau sémantique et ne sont pas trop ambigus. Il est moins utile lorsque le texte contient une terminologie spécialisée ou un jargon inconnu du réseau. Cette technique est disponible pour le texte anglais uniquement.

L'option Distance de recherche maximale n'est disponible que si vous sélectionnez la technique du réseau sémantique. Sélectionnez la mesure dans laquelle vous souhaitez que les techniques effectuent des recherches avant de générer des catégories. Plus la valeur est faible, moins vous obtiendrez de résultats. Cependant, ces résultats sont moins bruyants et sont plus susceptibles d'être liés de manière significative ou associés les uns aux autres. Plus la valeur est élevée, plus vous obtiendrez de résultats. Toutefois, ces résultats peuvent être moins fiables ou moins pertinents. Bien que cette option soit généralement appliquée à toutes les techniques, son effet est maximal sur les occurrences et les réseaux sémantiques.

Sélectionnez Empêcher l'appariement de concepts spécifiques si vous souhaitez arrêter le regroupement ou l'appariement de deux concepts dans la sortie. Pour créer ou gérer des paires de concepts, cliquez sur Gérer les paires.

Si possible
Choisissez d'étendre ou de généraliser les descripteurs à l'aide de caractères génériques, ou les deux.
Etendre et généraliser
Cette option étend les catégories sélectionnées, puis généralise les descripteurs. Lorsque vous choisissez de généraliser, le processus de génération de catégorie crée des règles de catégorie génériques qui utilisent le caractère générique astérisque. Par exemple, au lieu de plusieurs descripteurs tels que [apple tart + .] et [apple sauce + .], une règle de catégorie générique peut utiliser des caractères génériques pour générer [apple * + .]. Si vous généralisez avec des caractères génériques, vous obtenez souvent le même nombre d'enregistrements ou de documents que vous l'avez fait auparavant. Toutefois, cette option a l'avantage de réduire le nombre de descripteurs de catégorie et de les simplifier. De plus, cette option augmente la possibilité de catégoriser davantage d'enregistrements ou de documents en utilisant ces catégories sur de nouvelles données textuelles (par exemple, dans des études longitudinales ou par vagues).
Etendre seulement
Cette option étend vos catégories sans généraliser. Il peut être utile de choisir d'abord l'option Etendre uniquement pour les catégories créées manuellement puis d'étendre de nouveau ces mêmes catégories à l'aide de l'option Etendre et généraliser.
Généraliser uniquement
Cette option généralise les descripteurs sans étendre vos catégories d'une autre manière.
Nombre maximal d'éléments par lequel étendre un descripteur
Lorsque vous étendez un descripteur avec des éléments (concepts, types et autres expressions), définissez le nombre maximal d'éléments pouvant être ajoutés à un seul descripteur. Si vous définissez cette limite sur 10, vous ne pouvez pas ajouter plus de 10 éléments supplémentaires à un descripteur existant. Si plus de 10 éléments doivent être ajoutés, les techniques arrêtent d'ajouter de nouveaux éléments après l'ajout du dixième. Ceci peut raccourcir la liste de descripteur mais ne garantit pas que les éléments les plus intéressants aient été utilisés en premier.
Etendre également les sous-catégories
Cette option étend toutes les sous-catégories incluses dans les catégories sélectionnées.
Etendre les catégories vides avec des descripteurs générés à partir du nom de la catégorie
Cette méthode s'applique uniquement aux catégories vides qui ont 0 descripteurs. Si une catégorie contient déjà des descripteurs, elle n'est pas étendue de cette manière. Cette option tente de créer automatiquement des descripteurs pour chaque catégorie en fonction des mots constituant le nom de la catégorie. Le nom de la catégorie est analysé pour voir si les mots du nom correspondent à des concepts extraits. Si un concept est reconnu, il est utilisé pour rechercher des motifs de concept correspondants et ceux-ci sont utilisés pour former des descripteurs pour la catégorie. Cette option produit les meilleurs résultats lorsque les noms de catégories sont à la fois longs et descriptifs. Il s'agit d'une méthode rapide pour générer des descripteurs de catégorie, qui à leur tour permettent à la catégorie de capturer les enregistrements qui contiennent ces descripteurs. Cette option est particulièrement utile quand vous importez des catégories d'ailleurs ou quand vous créez des catégories manuellement avec de longs noms descriptifs.
Générer des descripteurs comme
Cette option s'applique uniquement si l'option précédente est sélectionnée. Choisissez l'option Concepts pour générer les descripteurs obtenus sous la forme de concepts, qu'ils aient été ou non extraits du texte source. Ou, choisissez l'option Motifs pour générer les descripteurs obtenus sous la forme de motifs, que les motifs obtenus ou tout autre motif aient été ou non extraits.