Text Analytics captura de forma rápida y precisa los conceptos clave de los datos de texto utilizando un proceso de extracción. Este proceso se basa en recursos lingüísticos para dictar cómo se analizan e interpretan grandes cantidades de datos textuales no estructurados.
Puede utilizar la pestaña Editor de recursos para ver los recursos lingüísticos que se utilizan en el proceso de extracción. Estos recursos se almacenan en forma de plantillas y bibliotecas, que se utilizan para extraer conceptos, agruparlos en tipos, descubrir patrones en los datos de texto y otros procesos. Text Analytics ofrece varias plantillas de recursos preconfiguradas y, en algunos idiomas, también puede utilizar los recursos en los paquetes de análisis de texto.
En la pestaña Editor de recursos, se trabaja con términos y tipos para identificar los conceptos a extraer de un documento. Estos términos técnicos se definen del siguiente modo.
- Conceptos
- Los conceptos son palabras y frases importantes que se han identificado y extraído de los datos de texto. También se conocen como resultados de extracción. Estos conceptos se agrupan en tipos. Puede utilizar estos conceptos para explorar los datos y crear las categorías.
- Términos
- Los términos son las palabras específicas que componen un concepto. Los términos son palabras sueltas como
airport
olocation
y frases de palabras comoairport pick-up
. Sirven para identificar conceptos en el texto. Los términos pueden ser formas plurales o singulares de palabras, partes de palabras más grandes, sinónimos o variaciones ortográficas. - Tipos
- Los tipos son agrupaciones semánticas para conceptos. Cuando se extraen conceptos, se les asigna un tipo para contribuir a agrupar conceptos similares. Por ejemplo, algunos de los tipos predeterminados son
<Location>
,<Organization>
,<Person>
,<Positive>
y<Negative>
.
Puede utilizar la pestaña Editor de recursos para personalizar y ajustar los recursos lingüísticos. También puede utilizar los controles para gestionar cómo se comparan los términos con los datos de texto y definir reglas para el análisis de enlaces de texto (TLA).
Panel Términos/sinónimos
El panel Términos/sinónimos muestra todas las bibliotecas que se utilizan como recursos lingüísticos durante el proceso de extracción. Si desea personalizar cómo se agrupan los términos específicos en conceptos, puede editar los términos en las bibliotecas. También puede añadir términos a las bibliotecas. Por ejemplo, si los datos de texto son específicos de un campo o disciplina, puede añadir cualquier término técnico que falte.
Bibliotecas y plantillas personalizadas
Dado que estos recursos podrían no ajustarse perfectamente al contexto de tus datos, puedes crear y gestionar tus propios recursos para un contexto o dominio concreto en la pestaña Editor de recursos.
Puede guardar los cambios que realice en una biblioteca o plantilla como un activo de proyecto, que luego podrá reutilizar en otros flujos. También puede importar bibliotecas o plantillas personalizadas en caso de que gestione los recursos utilizando archivos locales.
Agrupación difusa y agrupación por inflexión
Puede utilizar las técnicas de agrupación difusa y agrupación por inflexión al analizar datos de texto. La técnica de agrupación difusa agrupa palabras comúnmente mal escritas o palabras muy escritas, y la técnica de agrupación por inflexión agrupa variantes inflexionadas de palabras basadas en la raíz.
Si observa que dos palabras con ortografía similar se agrupan incorrectamente cuando activa estas funciones, puede excluir las palabras de estas técnicas de agrupación. Puede añadir los pares incorrectamente emparejados en la sección Excepciones de la pestaña Recursos avanzados.