0 / 0

Aggiunta di testo estratto a una soluzione RAG

Ultimo aggiornamento: 03 mag 2025
Aggiunta di testo estratto a una soluzione RAG

In base al tipo di file configurato nella richiesta di estrazione del testo, la struttura e il formato dell'output estratto differiscono. Potrebbe essere necessario eseguire una post-elaborazione del risultato prima di poter utilizzare i contenuti come dati di messa a terra nella soluzione RAG.

È possibile convertire il file Markdown generato in un file di testo cambiando l'estensione del file da .md a .txt. Il file di testo risultante include i tag Markdown. Se si desidera rimuovere i tag, si può usare una libreria di parser per trovare e convertire i tag.

È possibile utilizzare una libreria di elaborazione JSON per estrarre il testo dal file JSON generato e memorizzarlo come testo normale. Ad esempio, il comando seguente estrae il testo da ogni token per tutte le strutture del documento e lo memorizza in un file chiamato parsed_output_text.txt:

cat output_retail.json | jq '[.all_structures.tokens[].text] | join(" ")' > parsed_output_text.txt
Nota: questo comando utilizza jq, un processore JSON a riga di comando che deve essere installato separatamente.

Dopo aver convertito il file generato in un file TXT, è possibile utilizzare il testo estratto come informazione contestuale per un prompt del modello di fondazione nei seguenti modi:

Output Markdown

Il testo estratto viene scritto in un file Markdown con il nome specificato nel campo results_reference.location.file_name .

Il contenuto Markdown cattura le strutture del documento, come le sezioni e le tabelle. Ad esempio, l'immagine seguente mostra come una tabella del file PDF originale viene rappresentata in Markdown dopo l'estrazione del testo. È inclusa un'anteprima della tabella markdown per mostrare che il testo della tabella originale nel PDF rimane intatto dopo l'estrazione.

Tre schermate: la prima mostra una tabella in un documento PDF, la successiva mostra il testo della tabella estratto come markdown e la terza mostra un'anteprima della tabella

Output JSON

Quando il testo viene estratto in un file JSON, il file risultante contiene dettagli sulle diverse strutture di dati del documento, come sezioni, paragrafi, strutture di tabelle, token e altro.

Per ulteriori informazioni su come lavorare con il testo estratto in formato JSON, vedere Parsing delle strutture JSON generate dall'estrazione del testo.

Cosa fare successivamente

È ora possibile utilizzare i file di testo estratti raffinati come input per l'esperimento RAG di AutoAI per automatizzare un modello RAG. Per maggiori dettagli, vedere Codifica di un esperimento RAG AutoAI con estrazione di testo.

Ulteriori informazioni

Argomento principale: Estrazione del testo