Con el nodo Análisis de enlace de texto Text Link Analysis (TLA), la extracción de los resultados del patrón de análisis de enlace de texto se habilita de forma automática. En las propiedades del nodo, las opciones de exporte incluyen ciertos parámetros adicionales que afectan al modo en que se extrae y se maneja el texto. Los parámetros de experto controlan el comportamiento básico, así como ciertos comportamientos avanzados, del proceso de extracción. También hay diversos recursos lingüísticos y opciones que también afectan los resultados de la extracción, que se controlan mediante la plantilla de recursos que seleccione.
Limitar la extracción a conceptos con una frecuencia global de al menos [n]. Esta opción especifica el número mínimo de veces que una palabra o frase debe aparecer en el texto para que se extraiga. De esta forma, el valor 5 limita la extracción a aquellas palabras o frases que aparecen al menos cinco veces en todo el conjunto de registros o documentos.
En algunos casos, el hecho de cambiar este límite puede suponer una diferencia sustancial en los resultados extraídos y, por consiguiente, en las categorías. Digamos que estás trabajando con algunos datos de restaurantes y no aumentas el límite más allá de 1 para esta opción. En este caso, encontraría pizza (1),
thin pizza (2), spinach pizza (2)
y favorite pizza (2)
en los resultados de la extracción. Sin embargo, si limitara la extracción a una frecuencia global de 5 o más y volviera a extraer los datos, dejarían de aparecer tres de estos conceptos. En su lugar, obtendría pizza
(7)
, ya que pizza
es la forma más sencilla y esta palabra ya existía como posible candidato. En función del resto del texto, es posible que realmente tenga una frecuencia de más de siete, dependiendo de si hay otras frases en el texto que contengan la palabra pizza. Además, si spinach pizza
ya era un descriptor de categoría, es posible que tenga que añadir pizza
como descriptor en lugar de capturar todos los registros. Por este motivo, se recomienda que cambie este límite con precaución siempre que ya se hayan creado categorías.
Tenga en cuenta que esta característica es solo de extracción; si la plantilla contiene términos (y generalmente es así) y un término correspondiente a la plantilla se encuentra en el texto, el término se indexará independientemente de su frecuencia.
Por ejemplo, supongamos que utiliza una plantilla de Recursos básicos que incluye "los angeles" en el tipo <Location>
en la biblioteca núcleo; si el documento contiene Los Angeles sólo una vez, Los Angeles formará parte de la lista de conceptos. Para evitarlo, tendrá que definir un filtro para mostrar los conceptos que aparecen al menos el mismo número de veces que el valor especificado en el campo Limitar extracción a conceptos con una frecuencia global de al menos [n].
Adaptar errores de puntuación. Esta opción normaliza temporalmente el texto que contiene errores de puntuación (por ejemplo, uso inapropiado) durante la extracción para mejorar la capacidad de extracción de los conceptos. Esta opción resulta extremadamente útil cuando el texto es breve y de baja calidad (como en el caso de respuestas a encuestas abiertas, correo electrónico y datos CRM) o cuando el texto contiene muchas abreviaturas.
Acomodar la ortografía para una longitud mínima de carácter de palabra de [n]. Esta opción aplica una técnica de agrupación difusa que ayuda a agrupar bajo un concepto las palabras que suelen contener algún error ortográfico o que tienen una ortografía parecida. El algoritmo de agrupación difusa elimina temporalmente todas las vocales (excepto la primera) y elimina las consonantes dobles/triples de las palabras extraídas y las compara para ver si son iguales, de modo que los términos modeling
y modelling
se agruparían. Sin embargo, si cada término se asigna a un tipo diferente, excluyendo el tipo <Unknown>
, la técnica de agrupación difusa no se aplicará.
También puede definir el número mínimo de caracteres raíz necesarios para poder utilizar la agrupación difusa. El número de caracteres raíz de un término se calcula sumando todos los caracteres y restando los que forman los sufijos de desinencia, y en el caso de términos de palabras compuestas, también los determinantes y las preposiciones. Por ejemplo, el término exercises
se cuenta como 8 caracteres raíz en la forma "exercise", ya que la letra s
al final de la palabra es una
desinencia (forma plural). Paralelamente, apple sauce
se cuenta como 10
caracteres raíz ("apple sauce") y manufacturing of cars
se cuenta como 16 caracteres
raíz (“manufacturing car”). Este método de contar solo se utiliza para comprobar si se debe aplicar la agrupación difusa, pero no afecta a la forma en que se comparan las palabras.
Extraer unitérminos. Esta opción extrae palabras simples (unitérminos) siempre que la palabra no forme parte de una palabra compuesta y si se trata de un sustantivo o de una parte no reconocida del discurso.
Extraer entidades no lingüísticas. Esta opción extrae entidades no lingüísticas, como números de teléfono, números de la seguridad social, horas, fechas, monedas, dígitos, porcentajes, direcciones de correo electrónico y direcciones de HTTP. Puede incluir o excluir determinados tipos de entidades no lingüísticas en la sección Entidades no lingüísticas: Configuración bajo las propiedades de recursos avanzadas. Si se desactivan las entidades innecesarias, el motor de extracción no malgastará tiempo de proceso.
Algoritmo de mayúsculas. Esta opción extrae términos simples y compuestos que no están en los diccionarios incorporados siempre y cuando la primera letra del término esté en mayúscula. Esta opción ofrece un buen sistema para extraer la mayoría de los nombres propios.
Agrupar nombres de persona parciales y completos cuando sea posible. Esta opción agrupa nombres que aparecen de diferente manera en el texto. Esta característica resulta útil porque a menudo se hace referencia a los nombres completos al principio del texto, y más adelante se utiliza la versión abreviada. Esta opción intenta hacer coincidir cualquier unitérmino que tenga el tipo <Unknown>
con la última palabra de cualquier término compuesto que se haya tipificado como <Person>
. Por ejemplo, si se encuentra doe
y su tipo inicial es <Unknown>
,
el motor de extracción comprueba si algún término compuesto del tipo <Person>
incluye doe
como última palabra, como en el caso de john doe
. Esta opción no se aplica a los nombres propios puesto que la mayoría nunca se extraen como unitérminos.
Permutación máxima de palabras no funcionales. Esta opción especifica el número máximo de palabras no funcionales que debe haber para poder aplicar la técnica de permutación. Esta técnica de permutación agrupa frases similares que difieren entre sí solo por las palabras no funcionales (por ejemplo, of
y the
) contenidas, independientemente de la desinencia. Por ejemplo, supongamos que define este valor en dos palabras como máximo y se extraen los términos company officials
y officials of the company
. En este caso, ambos términos extraídos se agruparían juntos en la lista de conceptos final, puesto que ambos términos se consideran el mismo si se pasan por alto las palabras of the
.
Utilizar derivación al agrupar multitérminos. Cuando se procesen Big Data, seleccione esta opción para agrupar multitérminos mediante reglas de derivación.