0 / 0
Volver a la versión inglesa de la documentación
Acerca de la minería de textos
Última actualización: 20 dic 2024
Acerca de la minería de textos (SPSS Modeler)

Hoy en día, una cantidad cada vez mayor de información se mantiene en formatos no estructurados y semiestructurados, tales como correos electrónicos de clientes, notas de centros de atención telefónica, respuestas de encuestas abiertas, canales de noticias, formularios web, etc. Esta abundancia de información plantea un problema a muchas organizaciones que se preguntan a sí mismas: ¿Cómo podemos recopilar, explorar y aprovechar esta información?

La minería de textos es el proceso de analizar colecciones de materiales de texto con el objeto de capturar los temas y conceptos clave y descubrir las relaciones ocultas y las tendencias existentes sin necesidad de conocer las palabras o los términos exactos que los autores han utilizado para expresar dichos conceptos. Aunque son conceptos bastante distintos, minería de textos se confunde con frecuencia con recuperación de información. La recuperación precisa de la información y su almacenamiento suponen un reto importante, pero la extracción y administración de contenido de calidad, de terminología y de las relaciones contenidas en la información son procesos cruciales y determinantes.

Minería de textos y minería de datos

Para cada artículo de texto, la minería de textos basada en la lingüística devuelve un índice de conceptos e información sobre los mismos. Esta información estructurada y desglosada se puede combinar con otras fuentes de datos para responder a preguntas como las siguientes:

  • ¿Qué conceptos aparecen juntos?
  • ¿Con qué otros conceptos están vinculados?
  • ¿Qué categorías de nivel superior se pueden crear a partir de la información extraída?
  • ¿Qué es lo que predicen los conceptos o las categorías?
  • ¿Cómo predicen el comportamiento los conceptos o las categorías?

La combinación de minería de textos y minería de datos ofrece un punto de vista más amplio que el que proporcionan los datos estructurados o no estructurados por separado. Este proceso suele incluir los pasos siguientes:

  1. Identificar el texto en el que se va a realizar la minería. Preparar el texto para el proceso de minería. Si el texto aparece en varios archivos, guarde los archivos en una misma ubicación. En el caso de bases de datos, determine el campo que contiene el texto.
  2. Minar el texto y extraer datos estructurados. Aplicar los algoritmos de minería de textos al texto de origen.
  3. Crear modelos de categoría y concepto. Identificar los conceptos clave y/o crear categorías. El número de conceptos que se devuelven de los datos no estructurados suele ser muy alto. Identificar los mejores conceptos y categorías que puntuar.
  4. Analizar los datos estructurados. Emplear técnicas tradicionales de minería de datos, como la agrupación en clúster, la clasificación y el modelado predictivo, con el objeto de descubrir las relaciones entre los conceptos. Fusionar los conceptos extraídos con otros datos estructurados para predecir comportamientos futuros basados en los conceptos.

Análisis de textos y asignación a categorías

El análisis de texto, una forma de análisis cualitativo, es la extracción de información útil del texto, de modo que las ideas o conceptos clave contenidos en este texto puedan agruparse en un número adecuado de categorías. El análisis del texto se puede realizar sobre textos de cualquier tipo y longitud, aunque el enfoque del análisis puede variar.

Los registros o documentos más cortos se categorizan con más facilidad, ya que no son complejos y normalmente contienen menos palabras y respuestas ambiguas. Por ejemplo, una encuesta con preguntas abiertas breves: si pedimos a la gente que nombre sus tres actividades vacacionales favoritas, podemos esperar muchas respuestas cortas del tipo ir a la playa, visitar museos o no hacer nada. Por el contrario, las respuestas a preguntas abiertas pueden ser bastante complejas y largas, sobre todo si los encuestados son cultos, están motivados y tienen tiempo suficiente para cumplimentar un cuestionario. Si pedimos a la gente que nos hable sobre sus creencias políticas en una encuesta, o tenemos un comentario sobre política de un blog, encontraremos comentarios más largos sobre todo tipo de temas y posturas.

La capacidad de extraer conceptos clave y de crear categorías significativas a partir de estos textos de origen más largos en un periodo de tiempo muy breve es una de las principales ventajas de utilizar Text Analytics. Esta ventaja se obtiene mediante la combinación de técnicas automáticas lingüísticas y estadísticas, gracias a las que se obtienen los resultados más fiables en cada fase del proceso de análisis de texto.

Proceso lingüístico y NLP

El problema principal en la administración de todos estos datos de texto no estructurados radica en la ausencia de reglas estándares para escribir texto y que el sistema pueda entenderlo. El idioma, y por consiguiente el significado, varía en cada documento y en cada parte del texto. La única forma de recuperar y organizar con precisión estos datos no estructurados consiste en analizar el idioma y descubrir su significado. Existen diversos métodos automáticos para extraer conceptos a partir de información no estructurada. Estos métodos se pueden clasificar en dos tipos, lingüísticos y no lingüísticos.

Algunas organizaciones han intentado emplear soluciones automáticas no lingüísticas basadas en estadísticas y redes neuronales. Mediante la tecnología informática, estas soluciones pueden explorar y asignar a categorías los conceptos clave con más rapidez que los lectores humanos. Lamentablemente, la precisión de este tipo de soluciones es muy baja. La mayoría de los sistemas basados en estadística solamente hacen un recuento del número de veces que se repiten las palabras y calculan una proximidad estadística con los conceptos relacionados. Generan muchos resultados irrelevantes, o ruido, y pasan por alto resultados que deberían haberse encontrado, a los que se llama "silencios".

Para compensar esta limitación de la precisión, algunas soluciones incorporan reglas no lingüísticas complejas que ayudan a distinguir entre resultados relevantes e irrelevantes. Este sistema se conoce como minería de textos basada en reglas.

Por otro lado, la minería de textos basada en lingüística aplica los principios de proceso de lenguaje natural (NLP), el análisis asistido por sistema de lenguajes humanos, al análisis de palabras, frases y sintaxis, o estructura, del texto. Un sistema que incorpore tecnología NLP puede extraer conceptos de forma inteligente, incluidas frases compuestas. Además, el conocimiento del lenguaje subyacente permite la clasificación de conceptos en grupos relacionados (como por ejemplo productos, organizaciones o personas) utilizando el significado y el contexto.

La minería de textos basada en lingüística encuentra significado en el texto del mismo modo en que lo hacen las personas: reconociendo diversas formas de palabra como similares en su significado y analizando la estructura de la oración para proporcionar una infraestructura para entender el texto. Este método ofrece la velocidad y la rentabilidad propia de los sistemas basados en estadísticas, pero proporciona un grado de precisión mucho más alto y menos intervención humana.

Para ilustrar la diferencia entre enfoques basados en estadísticas y basados en lingüística durante el proceso de extracción, considere cómo respondería cada uno a una consulta sobre reproduction of documents. Tanto las soluciones basadas en estadísticas como las basadas en lingüística tendrían que expandir la palabra reproduction para incluir sinónimos, como copy y duplication. De lo contrario, se pasaría por alto información relevante. Pero si una solución basada en estadísticas intenta realizar este tipo de búsqueda de sinónimos de otros términos con el mismo significado, es probable que incluya también el término birth , generando una serie de resultados irrelevantes. La comprensión del idioma reduce la ambigüedad del texto, lo que convierte a la minería de textos basada en lingüística en el método más fiable por definición.

El hecho de comprender el funcionamiento del proceso de extracción le puede ayudar a tomar decisiones clave a la hora de ajustar los recursos lingüísticos (bibliotecas, tipos, sinónimos, etc.). Estos son los pasos del proceso de extracción:

  • Conversión de datos de origen en un formato estándar
  • Identificación de los términos candidatos
  • Identificación de clases de equivalencias e integración de sinónimos
  • Asignación de un tipo
  • Indexación y, cuando se solicite, comparación de patrones con un analizador secundario

Paso 1. Conversión de datos de origen en un formato estándar

En este primer paso, los datos que se importan se convierten a un formato uniforme que puede utilizarse para realizar otros análisis. Esta conversión se lleva a cabo internamente y no modifica los datos originales.

Paso 2. Identificación de los términos candidatos

Es importante comprender el rol de los recursos lingüísticos en la identificación de términos candidatos durante la extracción lingüística. Los recursos lingüísticos se utilizan siempre que se ejecuta una extracción. Existen en forma de plantillas, bibliotecas y recursos compilados. Las bibliotecas incluyen listas de palabras, relaciones y otra información que se utiliza para especificar o ajustar la extracción. Estos recursos compilados no se pueden ver ni editar. Sin embargo, los recursos restantes se pueden editar en el Editor de plantillas o, si está en una sesión de Text Analytics Workbench, en el Editor de recursos.

Los recursos compilados son los principales componente internos del motor de extracción en Text Analytics. Estos recursos incluyen un diccionario general que contiene una lista de formas base con un código de categoría léxica (sustantivo, verbo, adjetivo, etc.).

Además de los recursos compilados, con el producto se suministran varias bibliotecas que se pueden utilizar para complementar los tipos y las definiciones de conceptos en los recursos compilados, así como para ofrecer sinónimos. Estas bibliotecas, y las personalizadas que cree, se componen de varios diccionarios. Estos incluyen diccionarios de tipos, diccionarios de sinónimos y diccionarios de exclusiones.

Después de importar y convertir los datos, el motor de extracción empezará a identificar los términos candidatos para la extracción. Los términos candidatos son palabras o grupos de palabras que se utilizan para identificar conceptos en el texto. Durante el proceso del texto, las palabras simples (unitérminos) y las palabras compuestas (multitérminos) se identifican mediante extractores de patrones de categorías léxicas. A continuación, las palabras clave de sentimiento candidatas se identifican mediante el análisis de enlaces de textos de sentimientos.

Nota: Los términos del diccionario general compilado anteriormente representan una lista de todas las palabras que probablemente sean poco interesantes o lingüísticamente ambiguas como uniterms. Estas palabras se excluyen de la extracción cuando se están identificando unitérminos. Sin embargo, se vuelven a evaluar cuando se determinan las categorías léxicas o cuando se examinan palabras compuestas candidatas más largas (multitérminos).

Paso 3. Identificación de clases de equivalencias e integración de sinónimos

Después de identificar los unitérminos y los multitérminos candidatos, el software utiliza un diccionario de normalización para identificar las clases de equivalencias. Una clase de equivalencia es una forma base de una frase o una única forma de dos variantes de la misma frase.El propósito de asignar frases a clases de equivalencia es asegurarse de que, por ejemplo, side effect y 副作用 no se tratan como conceptos separados. Para determinar qué concepto utilizar para la clase de equivalencia, es decir, si se utiliza side effect o 副作用 como término principal, el motor de extracción aplica las reglas siguientes en el orden especificado:

  • La forma especificada por el usuario en una biblioteca.
  • La forma más frecuente, según los recursos compilados con anterioridad.

Paso 4. Asignación de tipo

A continuación, se asignan tipos a los conceptos extraídos. Un tipo es una agrupación semántica de conceptos. En este paso se utilizan tanto recursos compilados como bibliotecas. Los tipos incluyen elementos como conceptos de nivel más alto, palabras positivas y negativas, nombres propios, lugares, organizaciones, etc.

Los sistemas lingüísticos dependen del grado de conocimiento: cuanto mayor sea la cantidad de información contenida en sus diccionarios, mayor será la calidad de los resultados. La modificación del contenido de los diccionarios, como definiciones de sinónimos, puede simplificar la información resultante. A veces resulta un proceso iterativo, pero es necesario para que la recuperación conceptual sea precisa. NLP es un elemento básico de Text Analytics.

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información