extracción de texto
Extraiga texto para convertir documentos empresariales de alta calidad en un formato de archivo más sencillo que pueda ser utilizado por modelos de IA o para encontrar y aislar piezas clave de información de documentos como contratos.
Simplificar los documentos empresariales convirtiéndolos a un formato basado en texto es especialmente útil para las tareas de generación aumentada de recuperación en las que se desea encontrar información relevante para una consulta de usuario e incluirla con la entrada a un modelo de fundamentos. Incluir información contextual precisa en la entrada del modelo ayuda al modelo de la fundación a incorporar información fáctica y actualizada en la salida del modelo. Para obtener más información, consulte Generación aumentada por recuperación (RAG).
Funciones
La tecnología de comprensión de documentos utiliza los siguientes métodos para extraer texto:
- Reconocimiento de caracteres ópticos (OCR)
- El reconocimiento óptico de caracteres (OCR) extrae texto de imágenes, documentos escaneados y tablas, y es útil para conservar información representada en imágenes, diagramas o texto incrustado en archivos como PDF escaneados. Aunque el reconocimiento óptico de caracteres puede extraer texto de imágenes ruidosas, la calidad de los archivos de imagen debe cumplir el requisito mínimo de 80 PPP (puntos por pulgada).
- Identificación de la estructura del documento
- La API de extracción de texto procesa el contenido de los documentos a partir de diversas estructuras de datos, como tablas, títulos de sección, listas con viñetas, párrafos y notas a pie de página. La API también identifica y elimina contenidos de uso común, como encabezados y pies de página.
- Extracción de pares clave-valor
- Utilice la extracción de pares clave-valor para procesar documentos que contengan datos estructurados genéricos o específicos de un dominio, como facturas, recibos de suministros, etc. El modo de extracción clasifica los documentos en función del tipo de documento. El texto extraído se almacena en una estructura de datos denominada esquema, en la que cada dato (el valor) se asocia a un identificador único (la clave). El modo utiliza un esquema predefinido o un esquema personalizado que usted define. Los pares clave-valor se extraen con grandes modelos de lenguaje (LLM) y procesamiento avanzado de visión-lenguaje.
Requisitos
Si te has registrado en watsonx.ai y tienes un proyecto sandbox, todos los requisitos están cumplidos y estás listo para utilizar el servicio de extracción de texto.
Debe cumplir los requisitos siguientes:
- Debes tener un proyecto.
- El proyecto debe tener asociada una instancia del servicio watsonx.ai Runtime.
- Permisos necesarios
Para ejecutar un trabajo de extracción de texto, debe tener el rol de Administrador o Editor en un proyecto.
La extracción de texto sólo está disponible con los planes de pago. La facturación se basa en el número de páginas procesadas. Para más detalles, consulte Detalles de facturación de los activos de IA generativa.
- Credenciales requeridas
Crear una credencial de tarea. Una credencial de tarea es una clave API que se utiliza para autenticar los trabajos de larga duración que se inician mediante los pasos realizados en el procedimiento de extracción de texto. No es necesario pasar la credencial de la tarea en la solicitud de API. Para obtener más información, consulte Creación de credenciales de tareas.
- Tipos de archivos de entrada admitidos
Puede extraer texto de documentos en distintos idiomas o de un documento que contenga una mezcla de varios idiomas. Extrae texto de los siguientes tipos de archivos:
- GIF
- JPG
- PNG
- TIFF
- BMP
- DOCUMENTO
- DOCX
- HTML
- JFIF
- PPT
- PPTX
- Tipos de archivo de salida admitidos
Puede almacenar el texto extraído en los siguientes formatos:
- JSON
- Markdown
- HTML
- TXT
Para obtener más información sobre el contenido del resultado extraído en cada tipo de archivo de salida, consulte Especificación del formato de salida.
Restricciones
Puede extraer texto de determinados tipos de archivos de entrada y almacenar el resultado extraído en determinados tipos de archivos. No es posible extraer todos los tipos de archivos de entrada en todos los formatos de salida admitidos. En la tabla siguiente se detalla qué tipo de archivo de entrada es compatible con los distintos formatos de salida:
Compatibilidad entre el tipo de archivo de entrada y el formato de salida extraído para la API de extracción de texto Tipo de archivo de entrada Formatos de archivo de salida compatibles PDF programático Todos los formatos PDF escaneado Todos los formatos Imagen Todos los formatos Archivo Microsoft Word Todos los formatos Archivo Microsoft PowerPoint Todos los formatos Archivo HTML Markdown La extracción de pares clave-valor sólo es posible para documentos en inglés.
Formas de trabajar
Puede extraer texto de documentos almacenados en su proyecto watsonx.ai con estos métodos programáticos:
API REST
Puede extraer texto de archivos en IBM watsonx.ai mediante programación utilizando el método de extracción de texto de la API REST watsonx.ai.
Para obtener más información sobre cómo personalizar una solicitud de extracción de texto, consulte Parámetros de extracción de texto.
Para obtener detalles del método API, consulte la documentación de referencia de la API watsonx.ai.
Python
Puede extraer texto de archivos en IBM watsonx.ai mediante programación utilizando la biblioteca Python.
Véase la clase TextExtractionsV2
de la biblioteca watsonx.ai Python.
Pruebe el bloc de notas de ejemplo: Utilice el servicio watsonx.ai Text Extraction V2 para extraer texto de un archivo.
Node.js
Puede extraer texto de archivos en IBM watsonx.ai mediante programación utilizando el SDK de Node.js. Para obtener más información, consulte los siguientes recursos:
Para obtener más información, consulte el ejemplo de código.
Más información
- Credenciales de acceso a los programas
- Extracción de texto de documentos
- Añadir texto extraído a su solución GAR
Tema principal: Generación aumentada por recuperación