Durante la extracción de conceptos e ideas clave a partir de sus respuestas, Text Analytics se basa en el análisis de texto basado en la lingüística. Este enfoque ofrece la velocidad y la rentabilidad propias de los sistemas basados en estadística. Pero ofrece un grado de precisión mucho mayor, al tiempo que requiere menos intervención humana. El análisis de texto basado en lingüística se basa en el campo de estudio conocido como proceso de idioma natural, también llamado lingüística computacional.
El hecho de comprender el funcionamiento del proceso de extracción le puede ayudar a tomar decisiones clave a la hora de ajustar los recursos lingüísticos (bibliotecas, tipos, sinónimos, etc.). Estos son los pasos del proceso de extracción:
- Conversión de datos de origen en un formato estándar
- Identificación de los términos candidatos
- Identificación de clases de equivalencias e integración de sinónimos
- Asignación de un tipo
- Indexación
- Comparación de patrones y extracción de sucesos
Paso 1. Conversión de datos de origen en un formato estándar
En este primer paso, los datos que se importan se convierten a un formato uniforme que puede utilizarse para realizar otros análisis. Esta conversión se lleva a cabo internamente y no modifica los datos originales.
Paso 2. Identificación de los términos candidatos
Es importante comprender el rol de los recursos lingüísticos en la identificación de términos candidatos durante la extracción lingüística. Los recursos lingüísticos se utilizan siempre que se ejecuta una extracción. Existen en forma de plantillas, bibliotecas y recursos compilados. Las bibliotecas incluyen listas de palabras, relaciones y otra información que se utiliza para especificar o ajustar la extracción. Estos recursos compilados no se pueden ver ni editar. Sin embargo, los recursos restantes (plantillas) se pueden editar en el Editor de plantillas o, si está en una sesión de Text Analytics Workbench, en el Editor de recursos.
Los recursos compilados son los principales componente internos del motor de extracción. Estos recursos incluyen un diccionario general que contiene una lista de formatos base con un código de categoría léxica (sustantivo, verbo, adjetivo, adverbio, participio, conjunción, determinante o preposición). Los recursos también incluyen tipos incorporados reservados utilizados para asignar muchos términos extraídos a los tipos siguientes, <Location>
, <Organization>
o <Person>
.
Además de estos recursos compilados, con el producto se suministran varias bibliotecas que se pueden utilizar para complementar los tipos y las definiciones de conceptos en los recursos compilados, así como para ofrecer otros tipos y sinónimos. Estas bibliotecas, y las personalizadas que cree, se componen de varios diccionarios. Entre ellos están los diccionarios de tipos, los diccionarios de sustituciones (sinónimos y elementos opcionales) y los diccionarios de exclusiones.
Después de importar y convertir los datos, el motor de extracción empezará a identificar los términos candidatos para la extracción. Los términos candidatos son palabras o grupos de palabras que se utilizan para identificar conceptos en el texto. Durante el proceso del texto, las palabras únicas (uni-terms) que no están en los recursos compilados se consideran como extracciones de términos candidatos. Las palabras compuestas candidatas (varios términos) se identifican utilizando extractores de patrón de categoría léxica. Por ejemplo, el término múltiple sports car
, que sigue al patrón de categoría léxica nombre adjetivo , tiene dos componentes. El término múltiple fast
sports car
, que sigue al patrón de categoría léxica adjetivo adjetivo sustantivo , tiene tres componentes.
Por último, se utiliza un algoritmo especial para gestionar las cadenas de letras en mayúsculas, como cargos laborales, de manera que se puedan extraer estos patrones especiales.
Paso 3. Identificación de clases de equivalencias e integración de sinónimos
Después de identificar los unitérminos y multitérminos candidatos, el software utiliza un conjunto de algoritmos para compararlos e identificar las clases de equivalencia. Una clase de equivalencia es la forma básica de una frase o una forma individual de dos variantes de la misma frase. El propósito de asignar frases a clases de equivalencia es asegurarse de que, por ejemplo, president of the
company
y company president
no se tratan como conceptos separados. Para determinar qué concepto utilizar para la clase de equivalencia, es decir, si se utiliza president of the
company
o company president
como término principal, el motor de extracción aplica las siguientes reglas en el orden listado:
- La forma especificada por el usuario en una biblioteca.
- La forma más frecuente en el cuerpo completo del texto.
- La forma más corta en el cuerpo completo del texto (que generalmente corresponde a la forma básica).
Paso 4. Asignación de un tipo
A continuación, se asignan tipos a los conceptos extraídos. Un tipo es una agrupación semántica de conceptos. En este paso se utilizan tanto recursos compilados como bibliotecas. Los tipos incluyen elementos como conceptos de nivel más alto, palabras positivas y negativas, nombres propios, lugares, organizaciones, etc. El usuario puede definir tipos adicionales.
Paso 5. Indexación
El conjunto completo de registros o documentos se indexa mediante el establecimiento de un puntero entre una posición de texto y el término representativo de dicha clase de equivalencia. Se da por supuesto que todas las instancias en forma declinada de un concepto candidato se indexan como una forma básica candidata. Para cada forma básica se calcula la frecuencia global.
Paso 6. Comparación de patrones y extracción de sucesos
Text Analytics puede descubrir no solo tipos y conceptos, sino también relaciones entre los mismos. Hay varios algoritmos y bibliotecas disponibles con esta herramienta que ofrecen la posibilidad de extraer patrones de relaciones entre tipos y conceptos. Resultan especialmente útiles cuando se intentan detectar opiniones específicas (por ejemplo, reacciones ante productos) o los enlaces relacionales entre personas y objetos (por ejemplo, enlaces entre grupos políticos o genomas).