0 / 0

Parámetros de extracción de texto

Última actualización: 13 may 2025
Parámetros de extracción de texto

Al enviar una solicitud de extracción de texto mediante la API REST de watsonx.ai, se incluye una carga útil que especifica los detalles de configuración para la operación de extracción de texto.

Elija los distintos parámetros de extracción de texto que cumplan sus requisitos en el cuerpo de la solicitud de la API REST:

Para obtener más información sobre los distintos parámetros que puede configurar para personalizar la solicitud de la API REST de extracción de texto, consulte la documentación de referencia de la API watsonx.ai.

Especificar el formato del archivo de salida

Por defecto, el texto extraído se escribe en texto plano. Si desea que el texto extraído se escriba en otro formato, como Markdown, especifique el siguiente parámetro en el cuerpo de la solicitud de la API:

"parameters": {
  "requested_outputs": [
    "md"
  ]
}

La siguiente tabla proporciona detalles sobre los diferentes formatos de salida generados por el proceso de extracción de texto cuando se especifica el parámetro requested_outputs en la solicitud API:

Formatos de salida solicitados en la API de extracción de texto
Salida solicitada Tipo de archivo generado Descripción
md Archivo Markdown Extraer texto en un archivo Markdown
html Archivo HTML Extraer texto en formato HTML
plain_text Archivo de texto sin formato Extraer toda la información en una representación de texto no estructurado
assembly Archivo de ensamblaje Extraer texto a un formato JSON.
page_images Imágenes serializadas Extraer cada página del documento en una imagen separada

Modalidad de proceso

Puede controlar la velocidad a la que se procesa su solicitud de extracción de texto estableciendo el parámetro mode en su solicitud de API.

"parameters": {
  "mode": "standard"
  ]
}

El modo de procesamiento de alta calidad conserva todas las estructuras de datos del documento, pero puede tardar más en procesarse que el modo estándar. En el modo estándar, la solicitud de extracción se completa más rápidamente pero genera una salida de menor calidad que puede carecer de detalles.

Para más información sobre los distintos modos de procesamiento, consulte la documentación de referencia de la API watsonx.ai.

Idiomas soportados

Si su documento está en un idioma distinto del inglés, debe especificar el idioma mediante su código de idioma ISO 639 en el parámetro languages de su solicitud de API.

"parameters": {
  "languages": "de"
  ]
}

Si el documento contiene una mezcla de lenguas, enumere cada lengua por separado.

Nota: No se puede extraer texto de un documento en varios idiomas cuando éstos no comparten un alfabeto común. Sin embargo, puede utilizar documentos con una mezcla de inglés y otro idioma en cualquier guión.

Por ejemplo, puede extraer texto de las imágenes de un documento con una mezcla de texto en inglés y francés, ya que ambos idiomas se basan en el latín. Sin embargo, no se puede extraer texto de imágenes en un documento con una mezcla de texto en japonés y francés.

El código de idioma que especifique varía en función de si el documento contiene texto impreso a máquina o manuscrito.

Lenguas manuscritas admitidas

Si su documento contiene texto escrito a mano en inglés, utilice el código de idioma en_hw en el cuerpo de la solicitud de la API.

Idiomas de impresión mecánica admitidos

La siguiente tabla proporciona detalles sobre los idiomas admitidos por la API de extracción de texto para el reconocimiento de texto impreso:

Nota: Si el idioma de su documento no tiene un código de idioma ISO 639 en la lista, utilice el código de escritura API.
Lenguas mecanografiadas admitidas en la API de extracción de texto
Idioma Código de lengua ISO 639 Código de script API Script
Aceh latn Latín
Afrikáans af latn Latín
Albanés sq latn Latín
Araucano/Mapuche latn Latín
Awadhi deva Devanagari
aimara ay latn Latín
Balinés latn Latín
Baso Minangkabau latn Latín
Euskera eu latn Latín
Bielorruso be cyrl Cirílico
Bemba latn Latín
Bikol latn Latín
bislama bi latn Latín
Bhojpuri deva Devanagari
Búlgaro bg cyrl Cirílico
Catalán ca latn Latín
Cebuano latn Latín
checheno cyrl Cirílico
Chino (Simplificado) zh_cn cjk Han (simplificado)
Chino (Tradicional) zh_tw cjk Han (tradicional)
Choctaw latn Latín
cree cr latn Latín
Dakota latn Latín
Danés da latn Latín
Dogri deva Devanagari
Holandés nl latn Latín
Inglés en latn Latín
Estonio et latn Latín
Fiyiano fj latn Latín
Filipino fil latn Latín
Finés fi latn Latín
Francés fr latn Latín
Gallego gl latn Latín
Gayo latn Latín
Alemán de latn Latín
Gilbertés latn Latín
Griego el el Griego
Criollo haitiano ht latn Latín
Hebreo he he Hebreo
Hiligaynon latn Latín
Hindú hi deva Devanagari
Iban latn Latín
Iloko latn Latín
Indonesio id latn Latín
Irlandés ga latn Latín
Italiano it it Latín
Japonés ja cjk Japonés
Javanés jv latn Latín
Kachin latn Latín
Groenlandés kl latn Latín
Kanienʼkéha latn Latín
Khasi latn Latín
Ruandés rw latn Latín
Konkaní deva Devanagari
kongo kg latn Latín
Coreano ko cjk Coreano
Kosraean latn Latín
Kuanyama kj latn Latín
Latín la latn Latín
Lozi latn Latín
Bajo alemán latn Latín
Luo latn Latín
malgache mg latn Latín
Maithili deva Devanagari
nanés gv latn Latín
Maratí mr deva Devanagari
Inglés medio latn Latín
Mittelhochdeutsch latn Latín
Macedonio mk cyrl Cirílico
ndonga ng latn Latín
Nepalí ne deva Devanagari
NorthNdebele nd latn Latín
Noruego no no Latín
Nyankole latn Latín
occitano oc latn Latín
ojibwa oj latn Latín
Inglés antiguo latn Latín
Francés antiguo latn Latín
Alemán antiguo latn Latín
Nórdico antiguo latn Latín
Provenzal antiguo latn Latín
Pampanga latn Latín
Pangasinan latn Latín
Papiamento latn Latín
Polaco pl latn Latín
Portugués pt pt Latín
quechua qu latn Latín
Romanche rm latn Latín
rundi rn latn Latín
Ruso ru cyrl Cirílico
sango sg latn Latín
sánscrito sa deva Devanagari
Scots latn Latín
Serbio sr cyrl Cirílico
sonés sn latn Latín
Español es es Latín
sudanés su latn Latín
Suajili sw latn Latín
swati ss latn Latín
Sueco sv sv Latín
tamil ta deva tamil
Télugu te deva Télugu
tsonga ts latn Latín
tswana tn latn Latín
Ucraniano uk cyrl Cirílico
uzbeco uz cyrl
Nota:Si desea procesar documentos en uzbeko escritos en alfabeto latino, utilice el código de escritura de la API latn .
Cirílico
xhosa xh latn Latín
Zulú zu latn Latín

Extraer texto de imágenes

Puede especificar cómo procesar el texto de las imágenes de su documento mediante el reconocimiento óptico de caracteres (OCR). Especifique el siguiente parámetro en el cuerpo de la solicitud API:

"parameters": {
  "ocr_mode": "enabled"
  ]
}

Para obtener más información sobre los distintos modos de OCR, consulte la documentación de referencia de la API watsonx.ai.

También puede configurar cómo procesar las imágenes incrustadas en su documento y convertirlas a los formatos Markdown y JSON.

La imagen incrustada es el área de una página del documento que representa sólo la imagen sin incluir las partes de la página que contienen texto o tablas. El texto y las tablas del documento original se procesan con OCR. El modo de extracción de imágenes incrustadas se utiliza para especificar cómo serializar las imágenes en el documento y conservarlas en la salida extraída.

En función del modo de extracción de imágenes incrustadas que especifique, puede elegir cómo se representan las imágenes incrustadas en la salida:

  • Si desea incluir imágenes en la salida extraída. Si se incluyen imágenes, se almacenan en la carpeta embedded_images_assembly como archivos .png
  • Si el texto genérico de marcador de posición o el texto extraído por OCR de la imagen aparece en los formatos de salida Markdown y JSON
  • Si la imagen se verbaliza describiendo la imagen en lenguaje natural. Por ejemplo, la imagen de un gato puede verbalizarse como The image displays a cat resting on the floor.

Para extraer imágenes incrustadas incluyendo el texto que describe las imágenes, especifique el siguiente parámetro en el cuerpo de la petición API:

"parameters": {
  "create_embedded_images": "enabled_verbalization"
  ]
}

La siguiente tabla proporciona detalles sobre los diferentes modos que puede utilizar en su solicitud de API para extraer imágenes incrustadas:

Modos de extracción de imágenes incrustadas en la API de extracción de texto
Modo Imagen (en bytes) en salida Detalles de la salida Markdown Detalles de la salida JSON
disabled Nee Ninguna Lista de identificadores de token que representan el texto de la imagen
enabled_placeholder Enlace a la ubicación de la imagen - Imagen
- Lista de identificadores de token que representan el texto de la imagen
enabled_text El texto se extrae de la imagen - Imagen
- Lista de identificadores de token que representan el texto de la imagen
enabled_verbalization - Enlace a la ubicación de la imagen
- Descripción textual de la imagen
- Imagen
- Lista de identificadores de token que representan el texto de la imagen
enabled_verbalization_all - Enlace a la ubicación de la imagen
- Descripción textual de la imagen
- Imagen
- Lista de identificadores de token que representan el texto de la imagen

Extracción de texto en pares clave-valor

Puede optar por extraer texto como pares clave-valor de documentos que contengan datos estructurados específicos del dominio. El texto extraído se almacena en un formato en el que cada dato (el valor) se asocia a un identificador único (la clave). Los datos de pares clave-valor se extraen utilizando un modelo de base de uso general o un modelo adaptado a formatos de documento específicos.

Nota: La extracción de datos de pares clave-valor sólo se admite para documentos en inglés.

Basándose en el contenido de su documento de entrada, puede extraer datos de pares clave-valor con uno de los siguientes métodos:

Extracción genérica de pares clave-valor
El proceso de extracción genérico identifica y extrae todos los pares clave-valor de un documento. Este método es útil para extraer información etiquetada sin necesidad de conocer de antemano detalles sobre campos específicos.
Extracción basada en esquemas (fija)
El proceso basado en esquemas se centra en campos específicos predefinidos de los documentos mediante esquemas incorporados para tipos de documentos comunes como facturas, recibos de servicios públicos, pasaportes, etc. Cada página se clasifica en uno de los tipos de esquema admitidos. A partir de la clasificación, el texto se extrae en el formato de par clave-valor definido en el esquema para el tipo de documento específico. Al clasificar primero el documento, este método aumenta la precisión para tipos de documentos conocidos sin necesidad de un entrenamiento específico del modelo.

Por ejemplo, si desea extraer texto como datos de par clave-valor utilizando un modelo ajustado para facturas, especifique el siguiente parámetro en el cuerpo de la solicitud de API

"parameters": {
  "kvp_mode": "invoice"
  ]
}

Si no especifica kvp_mode en su solicitud de API de extracción de texto, los datos etiquetados de su documento no se almacenarán en formato de par clave-valor en la salida extraída.

Modos de extracción de pares clave-valor

Puede especificar uno de los siguientes modos en su solicitud de API para extraer datos de pares clave-valor de su documento:

Más información

Tema principal: Extracción de texto