Parámetros de extracción de texto
Al enviar una solicitud de extracción de texto mediante la API REST de watsonx.ai, se incluye una carga útil que especifica los detalles de configuración para la operación de extracción de texto.
Elija los distintos parámetros de extracción de texto que cumplan sus requisitos en el cuerpo de la solicitud de la API REST:
- Tipo de archivo en el que almacenar el texto extraído
- Calidad y velocidad de extracción de textos
- Lengua del texto introducido
- Incluir el texto de las imágenes en la salida extraída
- Incluir pares clave-valor en la salida extraída
Para obtener más información sobre los distintos parámetros que puede configurar para personalizar la solicitud de la API REST de extracción de texto, consulte la documentación de referencia de la API watsonx.ai.
Especificar el formato del archivo de salida
Por defecto, el texto extraído se escribe en texto plano. Si desea que el texto extraído se escriba en otro formato, como Markdown, especifique el siguiente parámetro en el cuerpo de la solicitud de la API:
"parameters": {
"requested_outputs": [
"md"
]
}
La siguiente tabla proporciona detalles sobre los diferentes formatos de salida generados por el proceso de extracción de texto cuando se especifica el parámetro requested_outputs
en la solicitud API:
Salida solicitada | Tipo de archivo generado | Descripción |
---|---|---|
md |
Archivo Markdown | Extraer texto en un archivo Markdown |
html |
Archivo HTML | Extraer texto en formato HTML |
plain_text |
Archivo de texto sin formato | Extraer toda la información en una representación de texto no estructurado |
assembly |
Archivo de ensamblaje | Extraer texto a un formato JSON. |
page_images |
Imágenes serializadas | Extraer cada página del documento en una imagen separada |
Modalidad de proceso
Puede controlar la velocidad a la que se procesa su solicitud de extracción de texto estableciendo el parámetro mode
en su solicitud de API.
"parameters": {
"mode": "standard"
]
}
El modo de procesamiento de alta calidad conserva todas las estructuras de datos del documento, pero puede tardar más en procesarse que el modo estándar. En el modo estándar, la solicitud de extracción se completa más rápidamente pero genera una salida de menor calidad que puede carecer de detalles.
Para más información sobre los distintos modos de procesamiento, consulte la documentación de referencia de la API watsonx.ai.
Idiomas soportados
Si su documento está en un idioma distinto del inglés, debe especificar el idioma mediante su código de idioma ISO 639 en el parámetro languages
de su solicitud de API.
"parameters": {
"languages": "de"
]
}
Si el documento contiene una mezcla de lenguas, enumere cada lengua por separado.
Por ejemplo, puede extraer texto de las imágenes de un documento con una mezcla de texto en inglés y francés, ya que ambos idiomas se basan en el latín. Sin embargo, no se puede extraer texto de imágenes en un documento con una mezcla de texto en japonés y francés.
El código de idioma que especifique varía en función de si el documento contiene texto impreso a máquina o manuscrito.
Lenguas manuscritas admitidas
Si su documento contiene texto escrito a mano en inglés, utilice el código de idioma en_hw
en el cuerpo de la solicitud de la API.
Idiomas de impresión mecánica admitidos
La siguiente tabla proporciona detalles sobre los idiomas admitidos por la API de extracción de texto para el reconocimiento de texto impreso:
Idioma | Código de lengua ISO 639 | Código de script API | Script |
---|---|---|---|
Aceh | ‐ | latn |
Latín |
Afrikáans | af |
latn |
Latín |
Albanés | sq |
latn |
Latín |
Araucano/Mapuche | ‐ | latn |
Latín |
Awadhi | ‐ | deva |
Devanagari |
aimara | ay |
latn |
Latín |
Balinés | ‐ | latn |
Latín |
Baso Minangkabau | ‐ | latn |
Latín |
Euskera | eu |
latn |
Latín |
Bielorruso | be |
cyrl |
Cirílico |
Bemba | ‐ | latn |
Latín |
Bikol | ‐ | latn |
Latín |
bislama | bi |
latn |
Latín |
Bhojpuri | ‐ | deva |
Devanagari |
Búlgaro | bg |
cyrl |
Cirílico |
Catalán | ca |
latn |
Latín |
Cebuano | ‐ | latn |
Latín |
checheno | ‐ | cyrl |
Cirílico |
Chino (Simplificado) | zh_cn |
cjk |
Han (simplificado) |
Chino (Tradicional) | zh_tw |
cjk |
Han (tradicional) |
Choctaw | ‐ | latn |
Latín |
cree | cr |
latn |
Latín |
Dakota | ‐ | latn |
Latín |
Danés | da |
latn |
Latín |
Dogri | ‐ | deva |
Devanagari |
Holandés | nl |
latn |
Latín |
Inglés | en |
latn |
Latín |
Estonio | et |
latn |
Latín |
Fiyiano | fj |
latn |
Latín |
Filipino | fil |
latn |
Latín |
Finés | fi |
latn |
Latín |
Francés | fr |
latn |
Latín |
Gallego | gl |
latn |
Latín |
Gayo | ‐ | latn |
Latín |
Alemán | de |
latn |
Latín |
Gilbertés | ‐ | latn |
Latín |
Griego | el |
el |
Griego |
Criollo haitiano | ht |
latn |
Latín |
Hebreo | he |
he |
Hebreo |
Hiligaynon | ‐ | latn |
Latín |
Hindú | hi |
deva |
Devanagari |
Iban | ‐ | latn |
Latín |
Iloko | ‐ | latn |
Latín |
Indonesio | id |
latn |
Latín |
Irlandés | ga |
latn |
Latín |
Italiano | it |
it |
Latín |
Japonés | ja |
cjk |
Japonés |
Javanés | jv |
latn |
Latín |
Kachin | ‐ | latn |
Latín |
Groenlandés | kl |
latn |
Latín |
Kanienʼkéha | ‐ | latn |
Latín |
Khasi | ‐ | latn |
Latín |
Ruandés | rw |
latn |
Latín |
Konkaní | ‐ | deva |
Devanagari |
kongo | kg |
latn |
Latín |
Coreano | ko |
cjk |
Coreano |
Kosraean | ‐ | latn |
Latín |
Kuanyama | kj |
latn |
Latín |
Latín | la |
latn |
Latín |
Lozi | ‐ | latn |
Latín |
Bajo alemán | ‐ | latn |
Latín |
Luo | ‐ | latn |
Latín |
malgache | mg |
latn |
Latín |
Maithili | ‐ | deva |
Devanagari |
nanés | gv |
latn |
Latín |
Maratí | mr |
deva |
Devanagari |
Inglés medio | ‐ | latn |
Latín |
Mittelhochdeutsch | ‐ | latn |
Latín |
Macedonio | mk |
cyrl |
Cirílico |
ndonga | ng |
latn |
Latín |
Nepalí | ne |
deva |
Devanagari |
NorthNdebele | nd |
latn |
Latín |
Noruego | no |
no |
Latín |
Nyankole | ‐ | latn |
Latín |
occitano | oc |
latn |
Latín |
ojibwa | oj |
latn |
Latín |
Inglés antiguo | ‐ | latn |
Latín |
Francés antiguo | ‐ | latn |
Latín |
Alemán antiguo | ‐ | latn |
Latín |
Nórdico antiguo | ‐ | latn |
Latín |
Provenzal antiguo | ‐ | latn |
Latín |
Pampanga | ‐ | latn |
Latín |
Pangasinan | ‐ | latn |
Latín |
Papiamento | ‐ | latn |
Latín |
Polaco | pl |
latn |
Latín |
Portugués | pt |
pt |
Latín |
quechua | qu |
latn |
Latín |
Romanche | rm |
latn |
Latín |
rundi | rn |
latn |
Latín |
Ruso | ru |
cyrl |
Cirílico |
sango | sg |
latn |
Latín |
sánscrito | sa |
deva |
Devanagari |
Scots | ‐ | latn |
Latín |
Serbio | sr |
cyrl |
Cirílico |
sonés | sn |
latn |
Latín |
Español | es |
es |
Latín |
sudanés | su |
latn |
Latín |
Suajili | sw |
latn |
Latín |
swati | ss |
latn |
Latín |
Sueco | sv |
sv |
Latín |
tamil | ta |
deva |
tamil |
Télugu | te |
deva |
Télugu |
tsonga | ts |
latn |
Latín |
tswana | tn |
latn |
Latín |
Ucraniano | uk |
cyrl |
Cirílico |
uzbeco | uz |
cyrl Nota:
latn . |
Cirílico |
xhosa | xh |
latn |
Latín |
Zulú | zu |
latn |
Latín |
Extraer texto de imágenes
Puede especificar cómo procesar el texto de las imágenes de su documento mediante el reconocimiento óptico de caracteres (OCR). Especifique el siguiente parámetro en el cuerpo de la solicitud API:
"parameters": {
"ocr_mode": "enabled"
]
}
Para obtener más información sobre los distintos modos de OCR, consulte la documentación de referencia de la API watsonx.ai.
También puede configurar cómo procesar las imágenes incrustadas en su documento y convertirlas a los formatos Markdown y JSON.
La imagen incrustada es el área de una página del documento que representa sólo la imagen sin incluir las partes de la página que contienen texto o tablas. El texto y las tablas del documento original se procesan con OCR. El modo de extracción de imágenes incrustadas se utiliza para especificar cómo serializar las imágenes en el documento y conservarlas en la salida extraída.
En función del modo de extracción de imágenes incrustadas que especifique, puede elegir cómo se representan las imágenes incrustadas en la salida:
- Si desea incluir imágenes en la salida extraída. Si se incluyen imágenes, se almacenan en la carpeta
embedded_images_assembly
como archivos.png
- Si el texto genérico de marcador de posición o el texto extraído por OCR de la imagen aparece en los formatos de salida Markdown y JSON
- Si la imagen se verbaliza describiendo la imagen en lenguaje natural. Por ejemplo, la imagen de un gato puede verbalizarse como
The image displays a cat resting on the floor
.
Para extraer imágenes incrustadas incluyendo el texto que describe las imágenes, especifique el siguiente parámetro en el cuerpo de la petición API:
"parameters": {
"create_embedded_images": "enabled_verbalization"
]
}
La siguiente tabla proporciona detalles sobre los diferentes modos que puede utilizar en su solicitud de API para extraer imágenes incrustadas:
Modo | Imagen (en bytes) en salida | Detalles de la salida Markdown | Detalles de la salida JSON |
---|---|---|---|
disabled |
Nee | Ninguna | Lista de identificadores de token que representan el texto de la imagen |
enabled_placeholder |
✓ | Enlace a la ubicación de la imagen | - Imagen - Lista de identificadores de token que representan el texto de la imagen |
enabled_text |
✓ | El texto se extrae de la imagen | - Imagen - Lista de identificadores de token que representan el texto de la imagen |
enabled_verbalization |
✓ | - Enlace a la ubicación de la imagen - Descripción textual de la imagen |
- Imagen - Lista de identificadores de token que representan el texto de la imagen |
enabled_verbalization_all |
✓ | - Enlace a la ubicación de la imagen - Descripción textual de la imagen |
- Imagen - Lista de identificadores de token que representan el texto de la imagen |
Extracción de texto en pares clave-valor
Puede optar por extraer texto como pares clave-valor de documentos que contengan datos estructurados específicos del dominio. El texto extraído se almacena en un formato en el que cada dato (el valor) se asocia a un identificador único (la clave). Los datos de pares clave-valor se extraen utilizando un modelo de base de uso general o un modelo adaptado a formatos de documento específicos.
Basándose en el contenido de su documento de entrada, puede extraer datos de pares clave-valor con uno de los siguientes métodos:
- Extracción genérica de pares clave-valor
- El proceso de extracción genérico identifica y extrae todos los pares clave-valor de un documento. Este método es útil para extraer información etiquetada sin necesidad de conocer de antemano detalles sobre campos específicos.
- Extracción basada en esquemas (fija)
- El proceso basado en esquemas se centra en campos específicos predefinidos de los documentos mediante esquemas incorporados para tipos de documentos comunes como facturas, recibos de servicios públicos, pasaportes, etc. Cada página se clasifica en uno de los tipos de esquema admitidos. A partir de la clasificación, el texto se extrae en el formato de par clave-valor definido en el esquema para el tipo de documento específico. Al clasificar primero el documento, este método aumenta la precisión para tipos de documentos conocidos sin necesidad de un entrenamiento específico del modelo.
Por ejemplo, si desea extraer texto como datos de par clave-valor utilizando un modelo ajustado para facturas, especifique el siguiente parámetro en el cuerpo de la solicitud de API
"parameters": {
"kvp_mode": "invoice"
]
}
Si no especifica kvp_mode
en su solicitud de API de extracción de texto, los datos etiquetados de su documento no se almacenarán en formato de par clave-valor en la salida extraída.
Modos de extracción de pares clave-valor
Puede especificar uno de los siguientes modos en su solicitud de API para extraer datos de pares clave-valor de su documento:
invoice
Extraer texto de una factura con un modelo especializado en un formato de par clave-valor. El modelo se entrena con conjuntos de datos que contienen varias facturas.
Para obtener más información sobre el esquema en el que se almacenan los pares clave-valor en este modo, consulte Esquema de facturación.
ubill
Extraiga texto de una factura de servicios públicos con un modelo especializado en formato de par clave-valor. El modelo se entrena con conjuntos de datos que contienen diversas facturas de servicios públicos.
Para obtener más información sobre el esquema en el que se almacenan los pares clave-valor en este modo, consulte Esquema de facturas de servicios públicos.
generic_with_semantic
Extraer datos genéricos etiquetados y datos específicos del dominio con un modelo de propósito general en un formato de par clave-valor. Los datos específicos del dominio extraídos de varios tipos de documentos comunes se almacenan en esquemas predefinidos. El modelo de base genera pares clave-valor a partir del texto extraído basándose en el esquema proporcionado. En este modo se utiliza el modelo
pixtral-12b
.Restricción:El ajuste del modo generic_with_semantic
no está disponible en las regiones de Toronto y Sydney.Los siguientes tipos de documentos utilizan esquemas predefinidos:
- Documento de préstamo hipotecario
- Conocimiento de embarque
- Formulario de aduana
- Recibo de entrega
- EXPENSE REPORT
- Recibo
- Orden de compra
- Formulario de impuestos
- Estado financiero
- Remesa o aviso de pago
- Estado de las cuentas bancarias
- Extracto de la tarjeta de crédito
- Permiso de conducir
- Pasaporte
- Documento nacional de identidad
- W-4 formulario
- I-9 formulario
- Formulario de admisión del paciente
- Reclamación al seguro
- Transcripción
- Diploma o certificación
- Formulario normalizado de solicitud de reembolso del seguro de vida
- Formulario normalizado de autorización de seguro de vida
- Formulario de seguro normalizado de la Asociación para la Investigación y el Desarrollo de Operaciones Cooperativas (ACORD)
- Declaración del solicitante - formulario de solicitud de indemnización por defunción
- Licencia y permiso comercial
Si sus documentos contienen un contenido estructurado único, puede proporcionar un esquema personalizado que defina datos específicos e identificadores únicos. Cuando se especifica un esquema personalizado, el proceso de extracción de texto anula los esquemas de documentos comunes predefinidos y sólo utiliza el esquema que usted proporciona.
Puede proporcionar un esquema personalizado para la extracción de pares clave-valor especificando el parámetro
semantic_config
en su solicitud de API. Para obtener más información sobre cómo configurar parámetros de esquema personalizados, consulte la documentación de referencia de la API watsonx.ai.
Más información
Tema principal: Extracción de texto