0 / 0
Torna alla versione inglese della documentazione

Personalizzazione delle impostazioni dell'esperimento RAG

Ultimo aggiornamento: 20 mar 2025
Personalizzazione delle impostazioni dell'esperimento RAG

Quando si costruisce una soluzione di generazione aumentata dal reperimento in AutoAI, possibile personalizzare le impostazioni degli esperimenti per adattare i risultati.

Se si esegue un esperimento RAG in base alle impostazioni predefinite, il processo AutoAI seleziona:

  • La metrica di ottimizzazione da massimizzare nella ricerca della migliore pipeline RAG
  • Incorporare i modelli da provare, in base all'elenco disponibile
  • I modelli di fondazione da provare, in base all'elenco disponibile

Per esercitare un maggiore controllo sull'esperimento RAG, è possibile personalizzare le impostazioni dell'esperimento. Dopo aver inserito le informazioni necessarie per la definizione dell'esperimento, fare clic su Impostazioni esperimento per personalizzare le opzioni prima di eseguire l'esperimento. Le impostazioni che si possono rivedere o modificare rientrano in tre categorie:

  • Recupero e generazione : scegliere quale metrica utilizzare per ottimizzare la scelta del modello RAG, quanti dati recuperare e i modelli che l' AutoAI e può utilizzare per l'esperimento.
  • Indicizzazione : scegliere come suddividere i dati in blocchi, la metrica utilizzata per misurare la somiglianza semantica e quale modello di incorporamento l' AutoAI e può utilizzare per la sperimentazione.
  • Informazioni aggiuntive: verificare l'istanza del runtime watsonx.ai e l'ambiente da utilizzare per l'esperimento.

Impostazioni di recupero e generazione

Visualizzare o modificare le impostazioni utilizzate per generare le pipeline RAG.

Metrica di ottimizzazione

Scegliete la metrica da massimizzare quando cercate i modelli RAG ottimali. Per ulteriori informazioni sulle metriche di ottimizzazione e i dettagli della loro implementazione, vedere le metriche RAG.

  • La fedeltà della risposta misura quanto la risposta generata si allinea al contesto recuperato dal vettore. Il punteggio viene calcolato utilizzando una metrica lessicale che conta quanti token di risposta generati sono inclusi nel contesto recuperato dall'archivio vettoriale. Un punteggio elevato indica che la risposta rappresenta bene il contesto recuperato. Si noti che un punteggio di fedeltà elevato non indica necessariamente la correttezza della risposta. Per ulteriori informazioni su come viene implementata la metrica, vedere Fedeltà.
  • La correttezza della risposta misura la correttezza della risposta generata rispetto alla risposta corretta fornita nei file di riferimento. Questo include la rilevanza del contesto recuperato e la qualità della risposta generata. Il punteggio viene calcolato utilizzando una metrica lessicale che conta quanti token di risposta di verità di base sono inclusi nella risposta generata. Per ulteriori informazioni su come viene implementata la metrica, vedere Correttezza.
  • La correttezza del contesto indica in che misura il contesto recuperato dall'archivio vettoriale si allinea con il contesto di verità di base fornito nel benchmark. Il punteggio viene calcolato in base alla posizione del contesto di verità di base tra i frammenti recuperati. Più il contesto della realtà è vicino alla parte superiore della lista, più alto è il punteggio. Per ulteriori informazioni su come viene implementata la metrica, vedere [Correttezza del contesto](Per ulteriori informazioni sulle metriche di ottimizzazione, vedere le metriche RAG.

Metodi di recupero

Scegliere il metodo per recuperare i dati rilevanti. I metodi di recupero si differenziano per il modo in cui filtrano e classificano i documenti.

  • Il metodo di recupero delle finestre circonda i blocchi recuperati con blocchi aggiuntivi prima e dopo i blocchi, in base al contenuto del documento originale. Questo metodo è utile per includere più contesto che potrebbe mancare nel blocco originariamente recuperato. Il recupero del finestrino funziona nel modo seguente:
    • Ricerca : trova i frammenti di documento più rilevanti nell'archivio vettoriale.
    • Espandi : per ogni blocco trovato, recupera i blocchi circostanti per fornire il contesto.
    • Ogni blocco memorizza il proprio numero di sequenza nei metadati.
    • Dopo aver recuperato un blocco, i metadati del blocco vengono utilizzati per recuperare i blocchi vicini dallo stesso documento. Ad esempio, se window_size è 2, aggiunge 2 blocchi prima e 2 blocchi dopo.
    • Unisci : combina il testo sovrapposto all'interno della finestra per rimuovere le ridondanze.
    • Gestione dei metadati : unisce i dizionari dei metadati mantenendo le stesse chiavi e raggruppando i valori in elenchi.
    • Return : esporta la finestra unita come nuovo blocco, sostituendo quello originale.
  • Un semplice metodo di recupero trova i blocchi più rilevanti nella memoria vettoriale.

Modelli di fondazione da includere

Per impostazione predefinita, tutti i modelli di fondazione disponibili che supportano l' AutoAI e per RAG sono selezionati per la sperimentazione. È possibile modificare manualmente l'elenco dei modelli di fondazione che AutoAI può prendere in considerazione per generare modelli RAG. Per ogni modello, è possibile fare clic su Dettagli modello per visualizzare o esportare i dettagli relativi al modello.

Per l'elenco dei modelli di fondazione disponibili e le relative descrizioni, vedere Modelli di fondazione per attività.

Modelli RAG massimi da completare

È possibile specificare il numero di schemi RAG da completare nella fase di sperimentazione, fino a un massimo di 20. Un numero più alto confronta più modelli e potrebbe portare a modelli con punteggio più alto, ma consuma più risorse di calcolo.

Corrisponde alla lingua di ingresso

Per impostazione predefinita, AutoAI rileva automaticamente la lingua utilizzata nei prompt e indica ai modelli di rispondere nella stessa lingua. I modelli che non supportano la lingua di input hanno una priorità minore nella ricerca del modello RAG. Disattivare questa impostazione per considerare tutti i modelli disponibili e generare risposte solo in inglese.

Impostazioni di indicizzazione

Visualizza o modifica le impostazioni per la creazione del database vettoriale di testo dalla raccolta di documenti.

Suddivisione in blocchi

Le impostazioni di suddivisione determinano il modo in cui i documenti indicizzati vengono suddivisi in parti più piccole prima di essere inseriti in un archivio vettoriale. La segmentazione dei dati consente la ricerca e il recupero dei segmenti di un documento più rilevanti per una query. Ciò consente al modello di generazione di elaborare solo i dati più rilevanti.

AutoAI RAG utilizza lo splitter di testo ricorsivo di Langchain per suddividere i documenti in blocchi. Questo metodo ha l'effetto di scomporre il documento in modo gerarchico, cercando di mantenere tutti i paragrafi (e poi le frasi e poi le parole) insieme il più a lungo possibile, finché il blocco non è più piccolo della dimensione richiesta. Per ulteriori informazioni sul metodo di suddivisione ricorsiva, vedere Recupero ricorsivo diviso per caratteri nella documentazione di Langchain.

Il modo migliore per suddividere i dati dipende dal caso d'uso. I blocchi più piccoli forniscono un'interazione più granulare con il testo, consentendo una ricerca più mirata di contenuti pertinenti, mentre i blocchi più grandi possono fornire più contesto. Per il tuo caso d'uso di chunking, specifica una o più opzioni per:

  • Il numero di caratteri da includere in ogni pezzo di dati.
  • Il numero di caratteri da sovrapporre per il chunking dei dati. Il numero deve essere inferiore alla dimensione del chunking.

Le opzioni selezionate vengono esaminate e confrontate nella fase di sperimentazione.

Modelli di integrazione

I modelli di incorporamento sono utilizzati nelle soluzioni di generazione aumentata di recupero per codificare blocchi e query come vettori per catturarne il significato semantico. I blocchi di dati di input vettorializzati vengono inseriti in un archivio vettoriale. Data una query, la rappresentazione vettoriale viene utilizzata per cercare nel vettore memorizzato i blocchi pertinenti.

Per un elenco dei modelli di incorporazione disponibili per l'uso con gli esperimenti di AutoAI RAG, vedere Modelli di encoder supportati disponibili con watsonx.ai.

Ulteriori informazioni

Esaminare l'istanza del runtime watsonx.ai utilizzata per questo esperimento e la definizione dell'ambiente.

Ulteriori informazioni

Generazione aumentata dal recupero (RAG)

Argomento principale: Creazione di un esperimento RAG