Avec le noeud Analyse des liens du texte (TLA), l'extraction des résultats du motif d'analyse des liens du texte est automatiquement activée. Dans les propriétés du noeud, les options expert incluent certains paramètres supplémentaires qui ont une incidence sur le mode d'extraction et de traitement du texte. Les paramètres experts contrôlent le comportement de base, ainsi que quelques comportements avancés, du processus d'extraction. Il existe également un certain nombre de ressources linguistiques et d'options ayant une incidence sur les résultats de l'extraction, qui sont contrôlées par le modèle de ressources sélectionné.
Limiter l'extraction aux concepts ayant une fréquence globale supérieure à [n]. Cette option indique le nombre minimal de fois qu'un mot ou une phrase doit figurer dans le texte pour qu'il soit extrait. Ainsi, une valeur de 5 limite l'extraction aux mots ou groupes de mots figurant au moins cinq fois dans l'ensemble des enregistrements ou des documents.
Dans certains cas, modifier cette limite peut faire une grande différence dans les résultats d'extraction et par conséquent, dans les catégories. Disons que vous travaillez avec des données de restaurant et que vous n'augmentez pas la limite au-delà de 1 pour cette option. Dans ce cas, vous pouvez trouver pizza (1),
thin pizza (2), spinach pizza (2)
et favorite pizza (2)
dans vos résultats d'extraction. Mais si l'extraction était limitée à une fréquence globale de 5 ou plus et que vous recommenciez l'extraction, trois de ces concepts ne seraient pas renvoyés. Au lieu de cela, vous obtiendrez pizza
(7)
, car pizza
est la forme la plus simple et ce mot existe déjà en tant que candidat possible. Et en fonction du reste du texte, vous pourriez obtenir une fréquence supérieure à 7, si le texte contient d'autres phrases avec le mot pizza. De plus, si spinach pizza
était déjà un descripteur de catégorie, vous devrez peut-être ajouter pizza
comme descripteur à la place pour capturer tous les enregistrements. C'est pour cette raison que lorsque des catégories ont déjà été créées, la modification de cette limite doit être effectuée avec prudence.
Notez qu'il s'agit d'une fonction d'extraction uniquement ; si votre modèle contient des termes (ils le font généralement) et qu'un terme pour le modèle est trouvé dans le texte, le terme sera indexé quelle que soit sa fréquence.
Par exemple, supposons que vous utilisez un modèle Ressources de base qui inclut "los angeles" sous le type <Location>
dans la bibliothèque principale ; si votre document contient une seule occurrence du terme "los angeles", celui-ci fera partie de la liste des concepts. Pour éviter cela, vous devrez définir un filtre pour afficher les concepts qui se produisent au moins le même nombre de fois que la valeur entrée dans le champ Limiter l'extraction aux concepts ayant une fréquence globale supérieure ou égale à [n].
Adapter les erreurs de ponctuation. Cette option normalise temporairement le texte contenant des erreurs de ponctuation (par exemple, usage incorrect) au cours de l'extraction pour améliorer l'extraction des concepts. Cette option s'avère extrêmement utile lorsque le texte est court et de qualité médiocre (réponses ouvertes, messages électroniques, données CRM, etc.) ou qu'il contient de nombreuses abréviations.
Adapter l'orthographe pour une longueur de mot en caractères minimale de [n]. Cette option applique une technique de regroupement flou qui permet de regrouper les mots mal orthographiés ou d'orthographe similaire sous un seul concept. L'algorithme de regroupement flou supprime temporairement toutes les voyelles (sauf la première) et supprime les consonnes doubles/triples des mots extraits, puis les compare pour voir si elles sont identiques afin que modeling
et modelling
soient regroupés. Toutefois, si chaque terme est affecté à un type différent, à l'exclusion du type <Unknown>
, la technique de regroupement flou ne sera pas appliquée.
Vous pouvez également définir le nombre minimum de caractères racines requis avant d'utiliser le regroupement flou. Le nombre de caractères racine d'un terme est calculé en ajoutant l'ensemble des caractères et en soustrayant les caractères formant des suffixes inflexionnels et, dans le cas des termes apparaissant sous la forme de mots composés, les déterminants et les prépositions. Par exemple, le terme exercises
est comptabilisé comme 8 caractères racine au format "exercise", car la lettre s
à la fin du mot est une inflexion (forme plurielle). De même, apple sauce
comptabilise 10 caractères racine ("apple sauce") et manufacturing of cars
comptabilise 16 caractères racine ("manufacturing car"). Cette méthode de comptage n'est utilisée que pour vérifier si le regroupement flou doit être appliqué mais n'a pas d'influence sur la façon dont les mots sont mis en correspondance.
Extraire les expressions unitermes. Cette option extrait des mots simples (unitermes) tant que le mot ne fait pas déjà partie d'un mot composé et s'il s'agit d'un nom ou d'une partie non reconnue de la parole.
Extraire les entités non linguistiques. Cette option extrait les entités non linguistiques, telles que les numéros de téléphone, numéros de sécurité sociale, heures, dates, devises, chiffres, pourcentages, adresses électroniques, adresses HTTP, etc. Vous pouvez inclure ou exclure certains types d'entités non linguistiques dans la section Entités non linguistiques : Configuration sous les propriétés Ressources avancées. Désactivez les entités dont vous n'avez pas besoin pour éviter au moteur d'extraction un temps de traitement inutile.
Algorithme des majuscules. Cette option extrait des termes simples et composés qui ne figurent pas dans les dictionnaires intégrés tant que la première lettre du terme est en majuscules. Cette option offre une bonne manière d'extraire la plupart des noms propres.
Regrouper si possible les noms de personnes partiels et complets. Cette option regroupe les noms qui apparaissent différemment dans le texte. Cette fonction est utile car les noms sont souvent cités dans leur forme complète au début du texte puis uniquement en version abrégée. Cette option essaye de faire correspondre tout uniterme ayant le type <Unknown>
avec le dernier mot de tout terme composé entré comme <Person>
. Par exemple, si doe
est trouvé et initialement saisi comme <Unknown>
, le moteur d'extraction vérifie si des termes composés du type <Person>
incluent doe
comme dernier mot, tel que john doe
. Cette option ne s'applique pas aux prénoms car la plupart ne sont jamais extraits en tant qu'unitermes.
Taille maximale pour la permutation des mots utiles. Cette option indique le nombre maximal de mots utiles pouvant être présents lorsque s'applique la technique de permutation. Cette technique de permutation regroupe des expressions similaires qui ne diffèrent les unes des autres que par les mots non-fonction (par exemple, of
et the
) contenus, quelle que soit l'inflexion. Par exemple, disons que vous avez défini cette valeur sur-au maximum-deux mots, et que company officials
et officials of the company
ont été extraits. Dans ce cas, les deux termes extraits sont regroupés dans la liste de concepts finale car les deux termes sont considérés comme identiques lorsque of the
est ignoré.
Utiliser la dérivation lors du regroupement de plusieurs termes. Lors du traitement de Big Data, sélectionnez cette option pour regrouper des multitermes à l'aide des règles de dérivation.