0 / 0

Parametri di estrazione del testo

Ultimo aggiornamento: 13 mag 2025
Parametri di estrazione del testo

Quando si invia una richiesta di estrazione di testo utilizzando l'API REST watsonx.ai, si include un payload che specifica i dettagli di configurazione per l'operazione di estrazione del testo.

Scegliere i vari parametri di estrazione del testo che soddisfano i requisiti nel corpo della richiesta API REST:

Per maggiori dettagli sui diversi parametri che puoi impostare per personalizzare la richiesta API REST per l'estrazione del testo, consulta la documentazione di riferimento dell'API watsonx.ai.

Specificare il formato del file di output

Per impostazione predefinita, il testo estratto viene scritto in testo normale. Se si desidera che il testo estratto sia scritto in un altro formato, come Markdown, specificare il seguente parametro nel corpo della richiesta API:

"parameters": {
  "requested_outputs": [
    "md"
  ]
}

La tabella seguente fornisce dettagli sui diversi formati di output generati dal processo di estrazione del testo quando si specifica il parametro requested_outputs nella richiesta API:

Formati di output richiesti nell'API di estrazione del testo
Uscita richiesta Tipo di file generato Descrizione
md File Markdown Estrarre il testo in un file Markdown
html File HTML Estrarre il testo in formato HTML
plain_text File di testo normale Estrarre tutte le informazioni in una rappresentazione di testo non strutturato
assembly File di assemblaggio Estrarre il testo in un formato JSON.
page_images Immagini serializzate Estrarre ogni pagina del documento in un'immagine separata

Modalità di elaborazione

È possibile controllare la velocità di elaborazione della richiesta di estrazione del testo impostando il parametro mode nella richiesta API.

"parameters": {
  "mode": "standard"
  ]
}

La modalità di elaborazione ad alta qualità conserva tutte le strutture di dati del documento, ma può richiedere più tempo rispetto alla modalità standard. Nella modalità standard, la richiesta di estrazione viene completata più rapidamente, ma genera un output di qualità inferiore che può mancare di dettagli.

Per informazioni dettagliate sulle diverse modalità di elaborazione, consultare la documentazione di riferimento dell'API watsonx.ai.

Lingue supportate

Se il documento è in una lingua diversa dall'inglese, è necessario specificare la lingua con il suo codice ISO 639 nel parametro languages della richiesta API.

"parameters": {
  "languages": "de"
  ]
}

Se il documento contiene un mix di lingue, elencare ogni lingua separatamente.

Nota: non è possibile estrarre il testo da un documento in lingua mista se le lingue non condividono una scrittura comune. Tuttavia, è possibile utilizzare documenti con un mix di inglese e un'altra lingua in qualsiasi scrittura.

Ad esempio, è possibile estrarre il testo dalle immagini di un documento con un mix di testo inglese e francese, poiché entrambe le lingue sono basate sul latino. Tuttavia, non è possibile estrarre il testo dalle immagini in un documento con testo misto giapponese e francese.

Il codice lingua specificato varia a seconda che il documento contenga testo stampato a macchina o scrittura a mano.

Lingue di scrittura supportate

Se il documento contiene testo scritto a mano in inglese, utilizzare il codice della lingua en_hw nel corpo della richiesta API.

Lingue supportate per la stampa automatica

La tabella seguente fornisce dettagli sulle lingue supportate dall'API di estrazione del testo per il riconoscimento del testo stampato:

Nota: se la lingua del documento non ha un codice lingua ISO 639, utilizzare il codice script API.
Lingue stampate a macchina supportate dall'API di estrazione del testo
Lingua Codice lingua ISO 639 Codice script API Script:
Acehnese latn Latino
Africano af latn Latino
Albanese sq latn Latino
Araucano/Mapuche latn Latino
Awadhi deva Devanagari
Aymara ay latn Latino
Balinese latn Latino
Baso Minangkabau latn Latino
Basco eu latn Latino
Bielorusso be cyrl cirillico
Bemba latn Latino
Bikol latn Latino
Bislama bi latn Latino
Bhojpuri deva Devanagari
Bulgaro bg cyrl cirillico
Catalano ca latn Latino
Cebuano latn Latino
Chechen cyrl cirillico
Cinese (semplificato) zh_cn cjk Han (semplificato)
Cinese (tradizionale) zh_tw cjk Han (tradizionale)
Choctaw latn Latino
Cree cr latn Latino
Dakota latn Latino
Danese da latn Latino
Dogri deva Devanagari
Olandese nl latn Latino
Inglese en latn Latino
Estone et latn Latino
Fijiano fj latn Latino
Filippino fil latn Latino
Finlandese fi latn Latino
Francese fr latn Latino
Galiziano gl latn Latino
Gayo latn Latino
Tedesco de latn Latino
Gilbertese latn Latino
Greco el el Greco
Creolo haitiano ht latn Latino
Ebraico he he Ebraico
Hiligaynon latn Latino
Indi hi deva Devanagari
Iban latn Latino
Iloko latn Latino
Indonesiano id latn Latino
Irlandese ga latn Latino
Italiano it it Latino
Giapponese ja cjk Giapponese
Giavanese jv latn Latino
Kachin latn Latino
Kalaallisut kl latn Latino
Kanienʼkéha latn Latino
Khasi latn Latino
Kinyarwanda rw latn Latino
Konkani deva Devanagari
Kongo kg latn Latino
Coreano ko cjk Coreano
Kosraean latn Latino
Kuanyama kj latn Latino
Latino la latn Latino
Lozi latn Latino
Basso tedesco latn Latino
Luo latn Latino
Malgascio mg latn Latino
Maithili deva Devanagari
Manx gv latn Latino
Marathi mr deva Devanagari
Inglese medio latn Latino
Mittelhochdeutsch latn Latino
Macedone mk cyrl cirillico
Ndonga ng latn Latino
Nepalese ne deva Devanagari
NorthNdebele nd latn Latino
Norvegese no no Latino
Nyankole latn Latino
Occitano oc latn Latino
Ojibwa oj latn Latino
Inglese antico latn Latino
Francese antico latn Latino
Alto-tedesco antico latn Latino
Norreno antico latn Latino
Provenzale antico latn Latino
Pampanga latn Latino
Pangasinano latn Latino
Papiamento latn Latino
Polacco pl latn Latino
Portoghese pt pt Latino
Quechua qu latn Latino
Romancio rm latn Latino
Rundi rn latn Latino
Russo ru cyrl cirillico
Sango sg latn Latino
Sanscrito sa deva Devanagari
Scozzese latn Latino
Serbo sr cyrl cirillico
Shona sn latn Latino
Spagnolo es es Latino
Sudanese su latn Latino
Swahili sw latn Latino
Swati ss latn Latino
Svedese sv sv Latino
Tamil ta deva Tamil
Telugu te deva Telugu
Tsonga ts latn Latino
Tswana tn latn Latino
Ucraino uk cyrl cirillico
Uzbeco uz cyrl
Nota:Se si desidera elaborare documenti in lingua uzbeka scritti in una scrittura latina, utilizzare il codice di scrittura API latn .
cirillico
Xosa xh latn Latino
Zulu zu latn Latino

Estrazione di testo dalle immagini

È possibile specificare come elaborare il testo nelle immagini del documento utilizzando il riconoscimento ottico dei caratteri (OCR). Specificare il seguente parametro nel corpo della richiesta API:

"parameters": {
  "ocr_mode": "enabled"
  ]
}

Per informazioni dettagliate sulle diverse modalità OCR, consultare la documentazione di riferimento dell'API watsonx.ai.

È inoltre possibile configurare l'elaborazione delle immagini incorporate nel documento e la loro conversione nei formati Markdown e JSON.

L'immagine incorporata è l'area di una pagina del documento che rappresenta solo l'immagine senza includere le porzioni della pagina che contengono testo o tabelle. Il testo e le tabelle del documento originale vengono elaborati con l'OCR. La modalità di estrazione delle immagini incorporate viene utilizzata per specificare come serializzare le immagini nel documento e conservarle nell'output estratto.

In base alla modalità di estrazione delle immagini incorporate specificata, è possibile scegliere il modo in cui le immagini incorporate vengono rappresentate nell'output:

  • Se includere o meno le immagini nell'output estratto. Se si includono immagini, queste vengono memorizzate nella cartella embedded_images_assembly come file .png
  • Nei formati di output Markdown e JSON viene visualizzato il testo segnaposto generico o il testo estratto dall'OCR dall'immagine
  • Se l'immagine viene verbalizzata descrivendo l'immagine in linguaggio naturale. Ad esempio, l'immagine di un gatto può essere verbalizzata come The image displays a cat resting on the floor.

Per estrarre le immagini incorporate, compreso il testo che le descrive, specificare il seguente parametro nel corpo della richiesta API:

"parameters": {
  "create_embedded_images": "enabled_verbalization"
  ]
}

La tabella seguente fornisce dettagli sulle diverse modalità che è possibile utilizzare nella richiesta API per estrarre le immagini incorporate:

Modalità di estrazione delle immagini incorporate nell'API di estrazione del testo
Modalità Immagine (in byte) in uscita Dettagli dell'output Markdown Dettagli dell'output JSON
disabled N Nessuna Elenco degli ID dei token che rappresentano il testo dell'immagine
enabled_placeholder Collegamento alla posizione dell'immagine - Immagine
- Elenco degli ID dei token che rappresentano il testo dell'immagine
enabled_text Il testo viene estratto dall'immagine - Immagine
- Elenco degli ID dei token che rappresentano il testo dell'immagine
enabled_verbalization - Link alla posizione dell'immagine
- Descrizione testuale dell'immagine
- Immagine
- Elenco degli ID dei token che rappresentano il testo dell'immagine
enabled_verbalization_all - Link alla posizione dell'immagine
- Descrizione testuale dell'immagine
- Immagine
- Elenco degli ID dei token che rappresentano il testo dell'immagine

Estrazione di testo in coppie chiave-valore

È possibile scegliere di estrarre il testo come coppie chiave-valore da documenti che contengono dati strutturati specifici del dominio. Il testo estratto viene memorizzato in un formato in cui ogni dato (il valore) è associato a un identificatore unico (la chiave). I dati delle coppie chiave-valore vengono estratti utilizzando un modello di base generico o un modello ottimizzato per specifici formati di documenti.

Nota: l' estrazione di coppie chiave-valore è supportata solo per i documenti in lingua inglese.

In base al contenuto del documento di input, è possibile estrarre i dati delle coppie chiave-valore con uno dei seguenti metodi:

Estrazione generica di coppie chiave-valore
Il processo di estrazione generico identifica ed estrae tutte le coppie chiave-valore presenti in un documento. Questo metodo è utile per estrarre informazioni etichettate senza dover conoscere in anticipo i dettagli di campi specifici.
Estrazione basata su schemi (fissa)
Il processo basato su schemi si rivolge a campi specifici e predefiniti nei documenti, utilizzando schemi integrati per tipi di documenti comuni come fatture, bollette, passaporti e altro. Ogni pagina è classificata in uno dei tipi di schema supportati. In base alla classificazione, il testo viene estratto nel formato della coppia chiave-valore definito nello schema per il tipo di documento specifico. Classificando prima il documento, questo metodo aumenta l'accuratezza per i tipi di documento noti senza richiedere un addestramento dedicato del modello.

Ad esempio, se si desidera estrarre il testo come coppia chiave-valore utilizzando un modello sintonizzato per le fatture, specificare il seguente parametro nel corpo della richiesta API

"parameters": {
  "kvp_mode": "invoice"
  ]
}

Se non si specifica kvp_mode nella richiesta dell'API di estrazione del testo, i dati etichettati nel documento non vengono memorizzati in un formato di coppia chiave-valore nell'output estratto.

Modalità di estrazione delle coppie chiave-valore

È possibile specificare una delle seguenti modalità nella richiesta API per estrarre i dati della coppia chiave-valore dal documento:

Ulteriori informazioni

Argomento principale: Estrazione del testo