Parametri di estrazione del testo
Quando si invia una richiesta di estrazione di testo utilizzando l'API REST watsonx.ai, si include un payload che specifica i dettagli di configurazione per l'operazione di estrazione del testo.
Scegliere i vari parametri di estrazione del testo che soddisfano i requisiti nel corpo della richiesta API REST:
- Tipo di file in cui memorizzare il testo estratto
- Qualità e velocità di estrazione del testo
- Lingua del testo in ingresso
- Includi il testo delle immagini nell'output estratto
- Includere le coppie chiave-valore nell'output estratto
Per maggiori dettagli sui diversi parametri che puoi impostare per personalizzare la richiesta API REST per l'estrazione del testo, consulta la documentazione di riferimento dell'API watsonx.ai.
Specificare il formato del file di output
Per impostazione predefinita, il testo estratto viene scritto in testo normale. Se si desidera che il testo estratto sia scritto in un altro formato, come Markdown, specificare il seguente parametro nel corpo della richiesta API:
"parameters": {
"requested_outputs": [
"md"
]
}
La tabella seguente fornisce dettagli sui diversi formati di output generati dal processo di estrazione del testo quando si specifica il parametro requested_outputs
nella richiesta API:
Uscita richiesta | Tipo di file generato | Descrizione |
---|---|---|
md |
File Markdown | Estrarre il testo in un file Markdown |
html |
File HTML | Estrarre il testo in formato HTML |
plain_text |
File di testo normale | Estrarre tutte le informazioni in una rappresentazione di testo non strutturato |
assembly |
File di assemblaggio | Estrarre il testo in un formato JSON. |
page_images |
Immagini serializzate | Estrarre ogni pagina del documento in un'immagine separata |
Modalità di elaborazione
È possibile controllare la velocità di elaborazione della richiesta di estrazione del testo impostando il parametro mode
nella richiesta API.
"parameters": {
"mode": "standard"
]
}
La modalità di elaborazione ad alta qualità conserva tutte le strutture di dati del documento, ma può richiedere più tempo rispetto alla modalità standard. Nella modalità standard, la richiesta di estrazione viene completata più rapidamente, ma genera un output di qualità inferiore che può mancare di dettagli.
Per informazioni dettagliate sulle diverse modalità di elaborazione, consultare la documentazione di riferimento dell'API watsonx.ai.
Lingue supportate
Se il documento è in una lingua diversa dall'inglese, è necessario specificare la lingua con il suo codice ISO 639 nel parametro languages
della richiesta API.
"parameters": {
"languages": "de"
]
}
Se il documento contiene un mix di lingue, elencare ogni lingua separatamente.
Ad esempio, è possibile estrarre il testo dalle immagini di un documento con un mix di testo inglese e francese, poiché entrambe le lingue sono basate sul latino. Tuttavia, non è possibile estrarre il testo dalle immagini in un documento con testo misto giapponese e francese.
Il codice lingua specificato varia a seconda che il documento contenga testo stampato a macchina o scrittura a mano.
Lingue di scrittura supportate
Se il documento contiene testo scritto a mano in inglese, utilizzare il codice della lingua en_hw
nel corpo della richiesta API.
Lingue supportate per la stampa automatica
La tabella seguente fornisce dettagli sulle lingue supportate dall'API di estrazione del testo per il riconoscimento del testo stampato:
Lingua | Codice lingua ISO 639 | Codice script API | Script: |
---|---|---|---|
Acehnese | ‐ | latn |
Latino |
Africano | af |
latn |
Latino |
Albanese | sq |
latn |
Latino |
Araucano/Mapuche | ‐ | latn |
Latino |
Awadhi | ‐ | deva |
Devanagari |
Aymara | ay |
latn |
Latino |
Balinese | ‐ | latn |
Latino |
Baso Minangkabau | ‐ | latn |
Latino |
Basco | eu |
latn |
Latino |
Bielorusso | be |
cyrl |
cirillico |
Bemba | ‐ | latn |
Latino |
Bikol | ‐ | latn |
Latino |
Bislama | bi |
latn |
Latino |
Bhojpuri | ‐ | deva |
Devanagari |
Bulgaro | bg |
cyrl |
cirillico |
Catalano | ca |
latn |
Latino |
Cebuano | ‐ | latn |
Latino |
Chechen | ‐ | cyrl |
cirillico |
Cinese (semplificato) | zh_cn |
cjk |
Han (semplificato) |
Cinese (tradizionale) | zh_tw |
cjk |
Han (tradizionale) |
Choctaw | ‐ | latn |
Latino |
Cree | cr |
latn |
Latino |
Dakota | ‐ | latn |
Latino |
Danese | da |
latn |
Latino |
Dogri | ‐ | deva |
Devanagari |
Olandese | nl |
latn |
Latino |
Inglese | en |
latn |
Latino |
Estone | et |
latn |
Latino |
Fijiano | fj |
latn |
Latino |
Filippino | fil |
latn |
Latino |
Finlandese | fi |
latn |
Latino |
Francese | fr |
latn |
Latino |
Galiziano | gl |
latn |
Latino |
Gayo | ‐ | latn |
Latino |
Tedesco | de |
latn |
Latino |
Gilbertese | ‐ | latn |
Latino |
Greco | el |
el |
Greco |
Creolo haitiano | ht |
latn |
Latino |
Ebraico | he |
he |
Ebraico |
Hiligaynon | ‐ | latn |
Latino |
Indi | hi |
deva |
Devanagari |
Iban | ‐ | latn |
Latino |
Iloko | ‐ | latn |
Latino |
Indonesiano | id |
latn |
Latino |
Irlandese | ga |
latn |
Latino |
Italiano | it |
it |
Latino |
Giapponese | ja |
cjk |
Giapponese |
Giavanese | jv |
latn |
Latino |
Kachin | ‐ | latn |
Latino |
Kalaallisut | kl |
latn |
Latino |
Kanienʼkéha | ‐ | latn |
Latino |
Khasi | ‐ | latn |
Latino |
Kinyarwanda | rw |
latn |
Latino |
Konkani | ‐ | deva |
Devanagari |
Kongo | kg |
latn |
Latino |
Coreano | ko |
cjk |
Coreano |
Kosraean | ‐ | latn |
Latino |
Kuanyama | kj |
latn |
Latino |
Latino | la |
latn |
Latino |
Lozi | ‐ | latn |
Latino |
Basso tedesco | ‐ | latn |
Latino |
Luo | ‐ | latn |
Latino |
Malgascio | mg |
latn |
Latino |
Maithili | ‐ | deva |
Devanagari |
Manx | gv |
latn |
Latino |
Marathi | mr |
deva |
Devanagari |
Inglese medio | ‐ | latn |
Latino |
Mittelhochdeutsch | ‐ | latn |
Latino |
Macedone | mk |
cyrl |
cirillico |
Ndonga | ng |
latn |
Latino |
Nepalese | ne |
deva |
Devanagari |
NorthNdebele | nd |
latn |
Latino |
Norvegese | no |
no |
Latino |
Nyankole | ‐ | latn |
Latino |
Occitano | oc |
latn |
Latino |
Ojibwa | oj |
latn |
Latino |
Inglese antico | ‐ | latn |
Latino |
Francese antico | ‐ | latn |
Latino |
Alto-tedesco antico | ‐ | latn |
Latino |
Norreno antico | ‐ | latn |
Latino |
Provenzale antico | ‐ | latn |
Latino |
Pampanga | ‐ | latn |
Latino |
Pangasinano | ‐ | latn |
Latino |
Papiamento | ‐ | latn |
Latino |
Polacco | pl |
latn |
Latino |
Portoghese | pt |
pt |
Latino |
Quechua | qu |
latn |
Latino |
Romancio | rm |
latn |
Latino |
Rundi | rn |
latn |
Latino |
Russo | ru |
cyrl |
cirillico |
Sango | sg |
latn |
Latino |
Sanscrito | sa |
deva |
Devanagari |
Scozzese | ‐ | latn |
Latino |
Serbo | sr |
cyrl |
cirillico |
Shona | sn |
latn |
Latino |
Spagnolo | es |
es |
Latino |
Sudanese | su |
latn |
Latino |
Swahili | sw |
latn |
Latino |
Swati | ss |
latn |
Latino |
Svedese | sv |
sv |
Latino |
Tamil | ta |
deva |
Tamil |
Telugu | te |
deva |
Telugu |
Tsonga | ts |
latn |
Latino |
Tswana | tn |
latn |
Latino |
Ucraino | uk |
cyrl |
cirillico |
Uzbeco | uz |
cyrl Nota:
latn . |
cirillico |
Xosa | xh |
latn |
Latino |
Zulu | zu |
latn |
Latino |
Estrazione di testo dalle immagini
È possibile specificare come elaborare il testo nelle immagini del documento utilizzando il riconoscimento ottico dei caratteri (OCR). Specificare il seguente parametro nel corpo della richiesta API:
"parameters": {
"ocr_mode": "enabled"
]
}
Per informazioni dettagliate sulle diverse modalità OCR, consultare la documentazione di riferimento dell'API watsonx.ai.
È inoltre possibile configurare l'elaborazione delle immagini incorporate nel documento e la loro conversione nei formati Markdown e JSON.
L'immagine incorporata è l'area di una pagina del documento che rappresenta solo l'immagine senza includere le porzioni della pagina che contengono testo o tabelle. Il testo e le tabelle del documento originale vengono elaborati con l'OCR. La modalità di estrazione delle immagini incorporate viene utilizzata per specificare come serializzare le immagini nel documento e conservarle nell'output estratto.
In base alla modalità di estrazione delle immagini incorporate specificata, è possibile scegliere il modo in cui le immagini incorporate vengono rappresentate nell'output:
- Se includere o meno le immagini nell'output estratto. Se si includono immagini, queste vengono memorizzate nella cartella
embedded_images_assembly
come file.png
- Nei formati di output Markdown e JSON viene visualizzato il testo segnaposto generico o il testo estratto dall'OCR dall'immagine
- Se l'immagine viene verbalizzata descrivendo l'immagine in linguaggio naturale. Ad esempio, l'immagine di un gatto può essere verbalizzata come
The image displays a cat resting on the floor
.
Per estrarre le immagini incorporate, compreso il testo che le descrive, specificare il seguente parametro nel corpo della richiesta API:
"parameters": {
"create_embedded_images": "enabled_verbalization"
]
}
La tabella seguente fornisce dettagli sulle diverse modalità che è possibile utilizzare nella richiesta API per estrarre le immagini incorporate:
Modalità | Immagine (in byte) in uscita | Dettagli dell'output Markdown | Dettagli dell'output JSON |
---|---|---|---|
disabled |
N | Nessuna | Elenco degli ID dei token che rappresentano il testo dell'immagine |
enabled_placeholder |
✓ | Collegamento alla posizione dell'immagine | - Immagine - Elenco degli ID dei token che rappresentano il testo dell'immagine |
enabled_text |
✓ | Il testo viene estratto dall'immagine | - Immagine - Elenco degli ID dei token che rappresentano il testo dell'immagine |
enabled_verbalization |
✓ | - Link alla posizione dell'immagine - Descrizione testuale dell'immagine |
- Immagine - Elenco degli ID dei token che rappresentano il testo dell'immagine |
enabled_verbalization_all |
✓ | - Link alla posizione dell'immagine - Descrizione testuale dell'immagine |
- Immagine - Elenco degli ID dei token che rappresentano il testo dell'immagine |
Estrazione di testo in coppie chiave-valore
È possibile scegliere di estrarre il testo come coppie chiave-valore da documenti che contengono dati strutturati specifici del dominio. Il testo estratto viene memorizzato in un formato in cui ogni dato (il valore) è associato a un identificatore unico (la chiave). I dati delle coppie chiave-valore vengono estratti utilizzando un modello di base generico o un modello ottimizzato per specifici formati di documenti.
In base al contenuto del documento di input, è possibile estrarre i dati delle coppie chiave-valore con uno dei seguenti metodi:
- Estrazione generica di coppie chiave-valore
- Il processo di estrazione generico identifica ed estrae tutte le coppie chiave-valore presenti in un documento. Questo metodo è utile per estrarre informazioni etichettate senza dover conoscere in anticipo i dettagli di campi specifici.
- Estrazione basata su schemi (fissa)
- Il processo basato su schemi si rivolge a campi specifici e predefiniti nei documenti, utilizzando schemi integrati per tipi di documenti comuni come fatture, bollette, passaporti e altro. Ogni pagina è classificata in uno dei tipi di schema supportati. In base alla classificazione, il testo viene estratto nel formato della coppia chiave-valore definito nello schema per il tipo di documento specifico. Classificando prima il documento, questo metodo aumenta l'accuratezza per i tipi di documento noti senza richiedere un addestramento dedicato del modello.
Ad esempio, se si desidera estrarre il testo come coppia chiave-valore utilizzando un modello sintonizzato per le fatture, specificare il seguente parametro nel corpo della richiesta API
"parameters": {
"kvp_mode": "invoice"
]
}
Se non si specifica kvp_mode
nella richiesta dell'API di estrazione del testo, i dati etichettati nel documento non vengono memorizzati in un formato di coppia chiave-valore nell'output estratto.
Modalità di estrazione delle coppie chiave-valore
È possibile specificare una delle seguenti modalità nella richiesta API per estrarre i dati della coppia chiave-valore dal documento:
invoice
Estrarre il testo da una fattura con un modello specializzato in un formato a coppia chiave-valore. Il modello viene addestrato con set di dati contenenti diverse fatture.
Per informazioni dettagliate sullo schema in cui vengono memorizzate le coppie chiave-valore in questa modalità, vedere Schema della fattura.
ubill
Estrarre il testo da una bolletta con un modello specializzato in un formato a coppia chiave-valore. Il modello viene addestrato con set di dati contenenti varie bollette.
Per informazioni dettagliate sullo schema in cui vengono memorizzate le coppie chiave-valore in questa modalità, vedere Schema delle bollette.
generic_with_semantic
Estrarre dati generici etichettati e dati specifici del dominio con un modello di uso generale in un formato di coppia chiave-valore. I dati specifici del dominio estratti da diversi tipi di documenti comuni vengono memorizzati in schemi predefiniti. Il modello di fondazione genera coppie chiave-valore dal testo estratto in base allo schema fornito. In questa modalità viene utilizzato il modello
pixtral-12b
.Limitazione:L'impostazione della modalità generic_with_semantic
non è disponibile nelle regioni di Toronto e Sydney.I seguenti tipi di documento utilizzano schemi predefiniti:
- Documento di prestito ipotecario
- Polizza di carico
- Modulo doganale
- Ricevuta di consegna
- Relazione sulle spese
- Ricevuta
- Ordine di acquisto
- Modulo per le tasse
- Rendiconto finanziario
- Avviso di bonifico o di pagamento
- Estratto conto
- Estratto conto della carta di credito
- Patente
- Passaporto
- Carta d'identità nazionale
- W-4 forma
- I-9 forma
- Modulo di accettazione del paziente
- Sinistro assicurativo
- Trascrizione
- Diploma o certificazione
- Modulo di richiesta di risarcimento per invalidità standard dell'assicurazione sulla vita
- Modulo di autorizzazione all'assicurazione sulla vita standard
- Modulo assicurativo standardizzato dell'Associazione per la ricerca e lo sviluppo delle operazioni cooperative (ACORD)
- Dichiarazione del richiedente - modulo di richiesta di risarcimento in caso di morte
- Licenza e permesso commerciale
Se i documenti contengono un contenuto strutturato unico, è possibile fornire uno schema personalizzato che definisce dati specifici e identificatori unici. Quando si specifica uno schema personalizzato, il processo di estrazione del testo ignora gli schemi di documento comuni predefiniti e utilizza solo lo schema fornito dall'utente.
È possibile fornire uno schema personalizzato per l'estrazione delle coppie chiave-valore, specificando il parametro
semantic_config
nella richiesta API. Per ulteriori informazioni su come configurare i parametri dello schema personalizzato, consultare la documentazione di riferimento di watsonx.ai API.
Ulteriori informazioni
Argomento principale: Estrazione del testo