Aggiunta di testo estratto a una soluzione RAG
In base al tipo di file configurato nella richiesta di estrazione del testo, la struttura e il formato dell'output estratto differiscono. Potrebbe essere necessario eseguire una post-elaborazione del risultato prima di poter utilizzare i contenuti come dati di messa a terra nella soluzione RAG.
È possibile convertire il file Markdown generato in un file di testo cambiando l'estensione del file da .md
a .txt
. Il file di testo risultante include i tag Markdown. Se si desidera rimuovere i tag, si può usare una libreria di parser per trovare e convertire i tag.
È possibile utilizzare una libreria di elaborazione JSON per estrarre il testo dal file JSON generato e memorizzarlo come testo normale. Ad esempio, il comando seguente estrae il testo da ogni token per tutte le strutture del documento e lo memorizza in un file chiamato parsed_output_text.txt
:
cat output_retail.json | jq '[.all_structures.tokens[].text] | join(" ")' > parsed_output_text.txt
Dopo aver convertito il file generato in un file TXT, è possibile utilizzare il testo estratto come informazione contestuale per un prompt del modello di fondazione nei seguenti modi:
Fare riferimento al testo estratto da un quaderno Python.
Ad esempio, è possibile utilizzare il file TXT al posto del file
state_of_the_union.txt
nel quaderno di esempio Use watsonx, Chroma e LangChain to answer questions (RAG).È possibile utilizzare il file TXT come documento di base in Prompt Lab. Per ulteriori informazioni, consultare la sezione Fondare i prompt del modello di fondazione nelle informazioni contestuali.
Output Markdown
Il testo estratto viene scritto in un file Markdown con il nome specificato nel campo results_reference.location.file_name
.
Il contenuto Markdown cattura le strutture del documento, come le sezioni e le tabelle. Ad esempio, l'immagine seguente mostra come una tabella del file PDF originale viene rappresentata in Markdown dopo l'estrazione del testo. È inclusa un'anteprima della tabella markdown per mostrare che il testo della tabella originale nel PDF rimane intatto dopo l'estrazione.
Output JSON
Quando il testo viene estratto in un file JSON, il file risultante contiene dettagli sulle diverse strutture di dati del documento, come sezioni, paragrafi, strutture di tabelle, token e altro.
Per ulteriori informazioni su come lavorare con il testo estratto in formato JSON, vedere Parsing delle strutture JSON generate dall'estrazione del testo.
Cosa fare successivamente
È ora possibile utilizzare i file di testo estratti raffinati come input per l'esperimento RAG di AutoAI per automatizzare un modello RAG. Per maggiori dettagli, vedere Codifica di un esperimento RAG AutoAI con estrazione di testo.
Ulteriori informazioni
Argomento principale: Estrazione del testo