0 / 0

extracción de texto

Última actualización: 09 jun 2025
extracción de texto

Extraiga texto para convertir documentos empresariales de alta calidad en un formato de archivo más sencillo que pueda ser utilizado por modelos de IA o para encontrar y aislar piezas clave de información de documentos como contratos.

Simplificar los documentos empresariales convirtiéndolos a un formato basado en texto es especialmente útil para las tareas de generación aumentada de recuperación en las que se desea encontrar información relevante para una consulta de usuario e incluirla con la entrada a un modelo de fundamentos. Incluir información contextual precisa en la entrada del modelo ayuda al modelo de la fundación a incorporar información fáctica y actualizada en la salida del modelo. Para obtener más información, consulte Generación aumentada por recuperación (RAG).

Funciones

La tecnología de comprensión de documentos utiliza los siguientes métodos para extraer texto:

Reconocimiento de caracteres ópticos (OCR)
El reconocimiento óptico de caracteres (OCR) extrae texto de imágenes, documentos escaneados y tablas, y es útil para conservar información representada en imágenes, diagramas o texto incrustado en archivos como PDF escaneados. Aunque el reconocimiento óptico de caracteres puede extraer texto de imágenes ruidosas, la calidad de los archivos de imagen debe cumplir el requisito mínimo de 80 PPP (puntos por pulgada).
Identificación de la estructura del documento
La API de extracción de texto procesa el contenido de los documentos a partir de diversas estructuras de datos, como tablas, títulos de sección, listas con viñetas, párrafos y notas a pie de página. La API también identifica y elimina contenidos de uso común, como encabezados y pies de página.
Extracción de pares clave-valor
Utilice la extracción de pares clave-valor para procesar documentos que contengan datos estructurados genéricos o específicos de un dominio, como facturas, recibos de suministros, etc. El modo de extracción clasifica los documentos en función del tipo de documento. El texto extraído se almacena en una estructura de datos denominada esquema, en la que cada dato (el valor) se asocia a un identificador único (la clave). El modo utiliza un esquema predefinido o un esquema personalizado que usted define. Los pares clave-valor se extraen con grandes modelos de lenguaje (LLM) y procesamiento avanzado de visión-lenguaje.

Requisitos

Si te has registrado en watsonx.ai y tienes un proyecto sandbox, todos los requisitos están cumplidos y estás listo para utilizar el servicio de extracción de texto.

Debe cumplir los requisitos siguientes:

  • Debes tener un proyecto.
  • El proyecto debe tener asociada una instancia del servicio watsonx.ai Runtime.
Permisos necesarios

Para ejecutar un trabajo de extracción de texto, debe tener el rol de Administrador o Editor en un proyecto.

La extracción de texto sólo está disponible con los planes de pago. La facturación se basa en el número de páginas procesadas. Para más detalles, consulte Detalles de facturación de los activos de IA generativa.

Credenciales requeridas

Crear una credencial de tarea. Una credencial de tarea es una clave API que se utiliza para autenticar los trabajos de larga duración que se inician mediante los pasos realizados en el procedimiento de extracción de texto. No es necesario pasar la credencial de la tarea en la solicitud de API. Para obtener más información, consulte Creación de credenciales de tareas.

Tipos de archivos de entrada admitidos

Puede extraer texto de documentos en distintos idiomas o de un documento que contenga una mezcla de varios idiomas. Extrae texto de los siguientes tipos de archivos:

  • PDF
  • GIF
  • JPG
  • PNG
  • TIFF
  • BMP
  • DOCUMENTO
  • DOCX
  • HTML
  • JFIF
  • PPT
  • PPTX
Tipos de archivo de salida admitidos

Puede almacenar el texto extraído en los siguientes formatos:

  • JSON
  • Markdown
  • HTML
  • TXT

Para obtener más información sobre el contenido del resultado extraído en cada tipo de archivo de salida, consulte Especificación del formato de salida.

Restricciones

  • Puede extraer texto de determinados tipos de archivos de entrada y almacenar el resultado extraído en determinados tipos de archivos. No es posible extraer todos los tipos de archivos de entrada en todos los formatos de salida admitidos. En la tabla siguiente se detalla qué tipo de archivo de entrada es compatible con los distintos formatos de salida:

    Compatibilidad entre el tipo de archivo de entrada y el formato de salida extraído para la API de extracción de texto
    Tipo de archivo de entrada Formatos de archivo de salida compatibles
    PDF programático Todos los formatos
    PDF escaneado Todos los formatos
    Imagen Todos los formatos
    Archivo Microsoft Word Todos los formatos
    Archivo Microsoft PowerPoint Todos los formatos
    Archivo HTML Markdown
  • La extracción de pares clave-valor sólo es posible para documentos en inglés.

Formas de trabajar

Puede extraer texto de documentos almacenados en su proyecto watsonx.ai con estos métodos programáticos:

API REST

Puede extraer texto de archivos en IBM watsonx.ai mediante programación utilizando el método de extracción de texto de la API REST watsonx.ai.

Para obtener más información sobre cómo personalizar una solicitud de extracción de texto, consulte Parámetros de extracción de texto.

Para obtener detalles del método API, consulte la documentación de referencia de la API watsonx.ai.

Python

Puede extraer texto de archivos en IBM watsonx.ai mediante programación utilizando la biblioteca Python.

Véase la clase TextExtractionsV2 de la biblioteca watsonx.ai Python.

Pruebe el bloc de notas de ejemplo: Utilice el servicio watsonx.ai Text Extraction V2 para extraer texto de un archivo.

Node.js

Puede extraer texto de archivos en IBM watsonx.ai mediante programación utilizando el SDK de Node.js. Para obtener más información, consulte los siguientes recursos:

Para obtener más información, consulte el ejemplo de código.

Más información

Tema principal: Generación aumentada por recuperación