0 / 0
Volver a la versión inglesa de la documentación
Extracción de datos de texto con Text Analytics
Última actualización: 20 dic 2024
Minería de datos de texto con Text Analytics en SPSS Modeler

SPSS Modeler ofrece nodos especializados en el manejo de texto. Los nodos de análisis de texto ofrecen potentes funciones de análisis de texto que utilizan tecnologías lingüísticas avanzadas y procesamiento del lenguaje natural (PLN). Pueden procesar rápidamente una gran variedad de datos de texto no estructurados y extraer los conceptos clave. Text Analytics también puede organizar y agrupar estos conceptos en categorías.

Alrededor del 80 % de los datos mantenidos dentro de una organización se encuentran en forma de documentos de texto, como por ejemplo informes, páginas web, correos electrónicos y notas del centro de atención al cliente. El texto es un factor clave para permitir que una organización conozca mejor el comportamiento de sus clientes. Un sistema que incorpore tecnología NLP puede extraer conceptos de forma inteligente, incluidas frases compuestas. Además, el conocimiento del lenguaje subyacente permite clasificar los términos en grupos relacionados, como productos, organizaciones o personas, mediante su significado y su contexto. Como resultado, puede determinar de forma rápida la relevancia de la información según sus necesidades. Estos conceptos y categorías extraídos pueden combinarse con los datos estructurados existentes, como los demográficos, y aplicarse al modelado en SPSS Modeler para obtener decisiones mejores y más centradas.

Los sistemas lingüísticos dependen del grado de conocimiento: cuanto mayor sea la cantidad de información contenida en sus diccionarios, mayor será la calidad de los resultados. La aplicación Text Analytics proporciona un conjunto de recursos lingüísticos, como por ejemplo diccionarios para términos y sinónimos, bibliotecas y plantillas. Estos nodos le permiten desarrollar y definir mejor estos recursos lingüísticos en su contexto. El ajuste preciso de los recursos lingüísticos suele ser un proceso iterativo que resulta necesario para recuperar y asignar a categorías conceptos de forma precisa. También se incluyen plantillas, bibliotecas y diccionarios personalizados para dominios específicos, como puede ser la terminología CRM y genómica.

Consejos para empezar:

Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.

Descargo de responsabilidad del vídeo: Algunos pasos menores y elementos gráficos de este vídeo pueden diferir de su plataforma.

  
https://video.ibm.com/embed/channel/23952663/video/spss-text-analytics-workbench

Aplicaciones

En general, cualquiera que tenga que revisar de forma rutinaria grandes volúmenes de documentos para identificar los elementos clave para explorarlos más detalladamente puede beneficiarse de la utilización de Text Analytics. Estos son algunos ejemplos de aplicaciones específicas:

  • Investigación científica y médica. Exploración de materiales de investigación secundarios, como informes de patentes, artículos periodísticos y publicaciones de protocolos. Identificación de asociaciones antes desconocidas (como un doctor asociado a un producto en particular), que presentan nuevos enfoques para realizar una exploración adicional. Minimización del tiempo empleado en el proceso de descubrimiento de un medicamento. Utilizado como una ayuda en la investigación genómica.
  • Investigación de inversiones. Revisión de informes diarios de análisis, artículos periodísticos y comunicados de prensa de empresas para identificar puntos de estrategia claves o cambios en el mercado. El análisis de tendencias de este tipo de información revela problemas emergentes u oportunidades para una empresa o industria durante un periodo de tiempo.
  • Detección de fraudes. Utilizado en la investigación de fraude en banca o asistencia médica para detectar anomalías y descubrir asuntos preocupantes en grandes cantidades de texto.
  • Investigación de mercado. Utilizado en trabajos de investigación de mercado para identificar temas clave en respuestas a encuestas abiertas.
  • Análisis de canales de información web y blogs. Exploración y generación de modelos utilizando ideas clave encontradas en canales de información, blogs, etc.
  • CRM. Generación de modelos utilizando datos de todos los puntos de contacto con los clientes, como pueden ser correos electrónicos, transacciones y encuestas.

Nodos

Junto con los muchos nodos estándar de SPSS Modeler, también puede trabajar con nodos de minería de texto para incorporar el poder del análisis de texto a sus flujos. Estos nodos están disponibles en la paleta de nodos, en Text Analytics:
  • El nodo Identificador de idioma es un nodo de proceso que explora el texto de origen para determinar el idioma humano en el que está escrito y lo marca en un nuevo campo. Principalmente diseñado para ser utilizado con grandes cantidades de datos, este nodo resulta especialmente útil cuando se tiene y se desea procesar más de un idioma en los orígenes de datos.
  • El nodo Análisis de enlaces de texto extrae conceptos y también identifica relaciones entre conceptos en función de patrones conocidos dentro del texto. Puede utilizar la extracción de patrones para descubrir las relaciones entre sus conceptos, así como las opiniones o los calificadores vinculados a estos conceptos. El nodo Análisis de enlaces de texto (TLA) ofrece una forma más directa de identificar y extraer patrones del texto y, a continuación, añadir los resultados del patrón al conjunto de datos del flujo. Pero también puede realizar TLA utilizando una sesión de Text Analytics Workbench a través del nodo de modelado Text Mining.
  • El nodo Minería de textos utiliza métodos lingüísticos para extraer conceptos clave de los textos, permite crear categorías con estos conceptos y otros datos y ofrece la posibilidad de identificar relaciones y asociaciones entre conceptos basados en patrones conocidos (lo que se denomina análisis de enlace de texto). Puede utilizar este nodo para explorar el contenido de los datos de texto o para producir un modelo de concepto o un modelo de categoría. Los conceptos y las categorías se pueden combinar con datos estructurados existentes, como datos demográficos, y se pueden aplicar al modelado.
Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información