È possibile utilizzare le valutazioni della qualità dell'IA generativa di watsonx.governance per misurare la capacità del foundation model di svolgere le attività.
Quando si valutano i modelli di prompt, è possibile esaminare un riepilogo dei risultati di valutazione della qualità AI generativa per i seguenti tipi di attività:
- Riepilogo del testo
- Generazione di contenuto
- Estrazione di entità
- Risposta alle domande
- Richiamo RAG (augmented Generation)
Il riepilogo visualizza i punteggi e violazioni per le metriche calcolate con le impostazioni predefinite.
Per configurare le valutazioni di qualità AI generative con le proprie impostazioni, è possibile impostare una dimensione di esempio minima e impostare valori di soglia per ciascuna metrica come mostrato nel seguente esempio:
La dimensione minima del campione indica il numero minimo di record di transazione del modello che si desidera valutare e i valori di soglia creano avvisi quando i punteggi della metrica violano le soglie. I punteggi della metrica devono essere superiori ai valori di soglia inferiori per evitare violazioni. Valori di metrica più elevati indicano punteggi migliori.
È inoltre possibile configurare le impostazioni per calcolare le metriche con i modelli LLM-as-a-judge. I modelli LLM-as-a-judge sono modelli LLM che possono essere utilizzati per valutare le prestazioni di altri modelli.
Per calcolare le metriche con i modelli LLM-as-a-judge, è necessario selezionare Gestisci per aggiungere un sistema " generative_ai_evaluator
quando si configurano le impostazioni di valutazione.
È possibile selezionare un valutatore per calcolare le metriche di qualità delle risposte e di qualità del recupero.
È inoltre possibile utilizzare un blocco note per creare un valutatore quando si impostano i modelli di prompt e si rivedono i risultati della valutazione per l'attività RAG in watsonx.governance
Metriche di qualità AI generative supportate
Le seguenti metriche di qualità AI generative sono supportate da watsonx.governance: :
ROUGE
Le metriche ROUGE (Recall - Oriented Understudy for Gisting Evaluation) misurano il confronto tra riepiloghi o traduzioni ben generati e gli output di riferimento. La valutazione della qualità AI generativa calcola le metriche rouge1, rouge2e rougeLSum .
Tipi di attività:
- Riepilogo del testo
- Generazione di contenuto
- Risposta alle domande
- Estrazione di entità
- Richiamo RAG (augmented Generation)
Parametri:
- Usa stemmer: se true, gli utenti Porter stemmer eliminano i suffissi delle parole. Il valore predefinito è false.
Soglie:
- Limite inferiore: 0.8
- Limite superiore: 1.0
Come funziona: punteggi più alti indicano una maggiore somiglianza tra il riepilogo e il riferimento.
SARI
SARI (output di sistema rispetto ai riferimenti e rispetto alla frase di input) confronta l'output della frase prevista con l'output della frase di riferimento per misurare la qualità delle parole che il modello utilizza per generare le frasi.
Tipi di attività:
- Riepilogo del testo
Soglie:
- Limite inferiore: 0
- Limite superiore: 100
Come funziona: punteggi più elevati indicano una qualità superiore di parole utilizzate per generare frasi.
METEOR
METEOR (Metric for Evaluation of Translation with Explicit ORdering) misura quanto il testo generato con le traduzioni automatiche corrisponda alla struttura del testo dalle traduzioni di riferimento. È calcolato con la media armonica di precisione e richiamo.
Tipi di attività:
- Riepilogo del testo
- Generazione di contenuto
Parametri:
- Alfa: controlla i pesi relativi di precisione e richiamo
- Beta: controlla la forma della penalità in funzione della frammentazione.
- Gamma: il peso relativo assegnato alla penalità di frammentazione.
Soglie:
- Limite inferiore: 0
- Limite superiore: 1
Come funziona: punteggi più elevati indicano che le traduzioni automatiche corrispondono più strettamente ai riferimenti.
Qualità del testo
La qualità del testo valuta l'output di un modello rispetto ai dataset SuperGLUE misurando il punteggio F1 , la precisione e il richiamo rispetto alle previsioni del modello e i relativi dati ground truth. Viene calcolato normalizzando le stringhe di input e identificando il numero di token simili che esistono tra le previsioni e i riferimenti.
Tipi di attività:
- Riepilogo del testo
- Generazione di contenuto
Soglie:
- Limite inferiore: 0.8
- Limite superiore: 1
Come funziona: punteggi più elevati indicano una maggiore somiglianza tra le previsioni e i riferimenti.
BLEU
BLEU (Bilingual Evaluation Understudy) confronta le frasi tradotte dalle traduzioni automatiche con le frasi dalle traduzioni di riferimento per misurare la similarità tra testi di riferimento e previsioni.
Tipi di attività:
- Riepilogo del testo
- Generazione di contenuto
- Risposta alle domande
- Richiamo RAG (augmented Generation)
Parametri:
- Ordine massimo: ordine massimo di n - grammi da utilizzare quando si completa il punteggio BLEU
- Liscio: se applicare o meno una funzione di lisciatura per rimuovere il rumore dai dati
Soglie:
- Limite inferiore: 0.8
- Limite superiore: 1
Come funziona: punteggi più elevati indicano una maggiore similarità tra i testi di riferimento e le previsioni.
Similitudine della frase
La similarità della frase cattura le informazioni semantiche dalle incorporazioni della frase per misurare la somiglianza tra i testi. Misura la similarità di Jaccard e la somiglianza di Cosine.
Tipi di attività: riepilogo di testo
Soglie:
- Limite inferiore: 0.8
- Limite superiore: 1
Come funziona: punteggi più elevati indicano che i testi sono più simili.
Sicurezza dei dati
È possibile utilizzare le seguenti metriche di sicurezza dei dati per identificare se l'input o l'output del modello contiene informazioni dannose o sensibili:
- PII
- PII misura se i dati di input o output del modello contengono informazioni di identificazione personale utilizzando il modello di estrazione delle entità di Watson Natural Language Processing.
- Tipi di attività:
- Riepilogo del testo
- Generazione di contenuto
- Risposta alle domande
- Richiamo RAG (augmented Generation)
- Soglie:
- Limite superiore: 0
- Come funziona: punteggi più elevati indicano che esiste una percentuale più elevata di informazioni di identificazione personale nei dati di input o di output.
- Tipi di attività:
- HAP
- HAP misura se c'è un contenuto tossico che contiene odio, abuso o volgarità nei dati di input o output del modello.
- Tipi di attività:
- Riepilogo del testo
- Generazione di contenuto
- Risposta alle domande
- Richiamo RAG (augmented Generation)
- Teshold
- Limite superiore: 0
- Come funziona: punteggi più elevati indicano che esiste una percentuale più elevata di contenuto tossico nell'input o nell'output del modello.
- Tipi di attività:
Leggibilità
La leggibilità determina quanto sia difficile leggere l'output del modello misurando caratteristiche quali la lunghezza della frase e la complessità della parola.
Tipi di attività:
- Riepilogo del testo
- Generazione di contenuto
Soglie:
- Limite inferiore: 60
Come funziona: punteggi più elevati indicano che l'output del modello è più semplice da leggere.
Corrispondenza esatta
La corrispondenza esatta confronta le stringhe di previsione del modello con le stringhe di riferimento per misurare la frequenza di corrispondenza delle stringhe.
Tipi di attività:
- Risposta alle domande
- Estrazione di entità
- Richiamo RAG (augmented Generation)
Parametri:
- Regexes da ignorare: Regex espressioni di caratteri da ignorare quando si calcolano le corrispondenze esatte.
- Ignora maiuscolo / minuscolo: se True, trasforma tutto in minuscolo in modo che le differenze tra maiuscole e minuscole vengano ignorate.
- Ignora punteggiatura: se True, rimuove la punteggiatura prima di confrontare le stringhe.
- Ignora numeri: se True, rimuove tutte le cifre prima di confrontare le stringhe.
Soglie:
- Limite inferiore: 0.8
- Limite superiore: 1
Come funziona: punteggi più elevati indicano che le stringhe di previsione del modello corrispondono più spesso alle stringhe di riferimento.
Metriche multi-etichetta/classe
Le metriche multi - etichetta/classe misurano le prestazioni del modello per previsioni multi - etichetta/multi - classe.
- Metriche:
- Punteggio micro F1
- Punteggio macro F1
- Precisione micro
- Precisione macro
- Richiamo micro
- Richiamo macro
- Tipi di attività: estrazione entità
- Soglie:
- Limite inferiore: 0.8
- Limite superiore: 1
- Come funziona: punteggi più elevati indicano che le previsioni sono più accurate.
Qualità della risposta
È possibile utilizzare le metriche di qualità delle risposte per valutare la qualità delle risposte del modello. Le metriche di qualità delle risposte sono calcolate con modelli LLM-as-a-judge.
È possibile calcolare le seguenti metriche di qualità delle risposte:
- Fedeltà
La fedeltà misura quanto l'output del modello sia fondato sul contesto del modello e fornisce attribuzioni dal contesto per mostrare le frasi più importanti che contribuiscono all'output del modello. Le attribuzioni sono fornite quando la metrica è calcolata solo con modelli ottimizzati.
- Tipi di compiti: Generazione aumentata di recupero (RAG)
- Soglie:
- Limite inferiore: 0
- Limite superiore: 1
- Come funziona: Punteggi più alti indicano che l'output è più radicato e meno allucinato.
- Pertinenza della risposta
La pertinenza della risposta misura la pertinenza della risposta nell'output del modello rispetto alla domanda dell'input del modello.
- Tipi di compiti: Generazione aumentata di recupero (RAG)
- Soglie:
- Limite inferiore: 0
- Limite superiore: 1
- Come funziona: Punteggi più alti indicano che il modello fornisce risposte pertinenti alla domanda.
- Risposta: somiglianza
La somiglianza delle risposte misura la somiglianza della risposta o del testo generato con la verità di base o la risposta di riferimento per determinare la qualità delle prestazioni del modello. La metrica della somiglianza delle risposte è supportata solo per la configurazione con i modelli LLM-as-a-judge.
- Tipi di compiti: Generazione aumentata di recupero (RAG)
- Soglie:
- Limite inferiore: 0
- Limite superiore: 1
- Come funziona: Punteggi più alti indicano che la risposta è più simile all'output di riferimento.
- Richieste non riuscite
Le richieste non andate a buon fine misurano il rapporto tra le domande a cui si risponde senza successo sul numero totale di domande. Watsonx.governance non calcola la metrica delle richieste non andate a buon fine con modelli ottimizzati.
- Tipi di attività:
- Richiamo RAG (augmented Generation)
- Risposta alle domande
- Soglie:
- Limite inferiore: 0
- Limite superiore: 1
- Come funziona: I punteggi più alti indicano che il modello non è in grado di fornire risposte alla domanda.
- Tipi di attività:
Analisi del contenuto
È possibile utilizzare le seguenti metriche di analisi dei contenuti per valutare il risultato del modello rispetto all'input o al contesto del modello:
- Copertura
La copertura misura la misura in cui l'output del foundation model è generato dall'input del modello, calcolando la percentuale di testo in uscita che si trova anche nell'input.
- Tipi di attività:
- Riepilogo del testo
- Richiamo RAG (augmented Generation)
- Soglie:
- Limite inferiore: 0
- Limite superiore: 1
- Come funziona: Punteggi più alti indicano che una percentuale maggiore di parole in uscita si trova all'interno del testo in entrata.
- Tipi di attività:
- Densità
La densità misura il grado di estrazione del riassunto nell'output del foundation model rispetto all'input del modello, calcolando la media dei frammenti estrattivi che assomigliano molto alle estrazioni verbali del testo originale.
- Tipi di attività:
- Riepilogo del testo
- Richiamo RAG (augmented Generation)
- Soglie: Limite inferiore: 0
- Come funziona: I punteggi più bassi indicano che l'output del modello è più astratto e che in media i frammenti estratti non assomigliano molto alle estrazioni verbali del testo originale.
- Tipi di attività:
- Compressione
La compressione misura quanto è più breve il riassunto rispetto al testo in ingresso. Calcola il rapporto tra il numero di parole del testo originale e il numero di parole del foundation model.
- Tipi di attività: riepilogo di testo
- Soglie: Limite inferiore: 0
- Come funziona: Un punteggio più alto indica che il riassunto è più conciso rispetto al testo originale.
- Ripetitività
La ripetitività misura la percentuale di n-grammi che si ripetono nell'output del foundation model, calcolando il numero di n-grammi ripetuti e il numero totale di n-grammi nell'output del modello.
- Tipi di attività: riepilogo di testo
- Soglie: Limite inferiore: 0
- Astrattezza
L'astrattezza misura il rapporto tra gli n-grammi presenti nell'output testuale generato che non compaiono nel contenuto di partenza del foundation model.
- Tipi di attività:
- Riepilogo del testo
- Richiamo RAG (augmented Generation)
- Soglie:
- Limite inferiore: 0
- Limite superiore: 1
- Come funziona: Punteggi più alti indicano un'elevata astrattezza del testo generato.
- Tipi di attività:
Qualità del recupero
È possibile utilizzare le metriche di qualità del reperimento per misurare la qualità del modo in cui il sistema di reperimento classifica i contesti pertinenti. Le metriche di qualità del recupero sono calcolate con modelli LLM-as-a-judge.
È possibile calcolare le seguenti metriche di qualità del recupero:
- Pertinenza del contesto
La rilevanza del contesto misura la pertinenza del contesto che il modello recupera rispetto alla domanda specificata nel prompt. Quando esistono più variabili di contesto, i punteggi di rilevanza del contesto vengono generati quando la metrica viene calcolata solo con modelli ottimizzati.
- Tipi di compiti: Generazione aumentata di recupero (RAG)
- Soglie:
- Limite inferiore: 0
- Limite superiore: 1
- Come funziona: Punteggi più alti indicano che il contesto è più pertinente alla domanda del prompt.
- Precisione di recupero
La precisione di recupero misura la quantità di contesti rilevanti rispetto al totale dei contesti recuperati.
- Tipi di compiti: Generazione di aumenti di recupero (RAG)
- Soglie:
- Limite inferiore: 0
- Limite superiore: 1
- Come funziona: Un valore di 1 indica che tutti i contesti recuperati sono rilevanti. Il valore 0 indica che nessuno dei contesti recuperati è rilevante. Se il punteggio è in crescita, i contesti recuperati sono rilevanti per la domanda. Se il punteggio tende al ribasso, i contesti recuperati non sono rilevanti per la domanda.
- Precisione media
La precisione media valuta se tutti i contesti rilevanti sono classificati più in alto o meno, calcolando la media dei punteggi di precisione dei contesti rilevanti.
- Tipi di compiti: Generazione di aumenti di recupero (RAG)
- Soglie:
- Limite inferiore: 0
- Limite superiore: 1
- Come funziona: Un valore di 1 indica che tutti i contesti rilevanti sono classificati più in alto. Il valore 0 indica che nessuno dei contesti recuperati è rilevante. Se il punteggio è in crescita, i contesti rilevanti vengono classificati più in alto. Se il punteggio è in tendenza al ribasso, i contesti rilevanti non vengono classificati più in basso.
- Livello reciproco
Il rango reciproco è il rango reciproco del primo contesto rilevante.
- Tipi di compiti: Generazione di aumenti di recupero (RAG)
- Soglie:
- Limite inferiore: 0
- Limite superiore: 1
- Come funziona: Un valore di 1 indica che il primo contesto rilevante si trova nella prima posizione. Il valore 0 indica che non viene recuperato nessuno dei contesti rilevanti. Se il punteggio è in crescita, il primo contesto rilevante viene classificato più in alto. Se il punteggio tende a diminuire, il primo contesto rilevante viene classificato più in basso.
- Tasso di riscontri
Il tasso di successo misura se c'è almeno un contesto rilevante tra quelli recuperati.
- Tipi di compiti: Generazione di aumenti di recupero (RAG)
- Soglie:
- Limite inferiore: 0
- Limite superiore: 1
- Come funziona: Un valore di 1 indica che esiste almeno un contesto rilevante. Un valore pari a 0 indica che nei contesti recuperati non c'è alcun contesto rilevante. Se il punteggio è in crescita, almeno un contesto rilevante è presente nel contesto recuperato. Se il punteggio tende al ribasso, non vengono recuperati contesti rilevanti.
- Guadagno cumulativo attualizzato normalizzato
Il Normalized Discounted Cumulative Gain (NDCG) misura la qualità del ranking dei contesti recuperati.
- Tipi di compiti: Generazione di aumenti di recupero (RAG)
- Soglie:
- Limite inferiore: 0
- Limite superiore: 1
- Come funziona: Un valore di 1 indica che i contesti recuperati sono classificati nell'ordine corretto. Se il punteggio è in crescita, la classificazione dei contesti recuperati è corretta. Se il punteggio tende al ribasso, la classifica dei contesti recuperati non è corretta.
Argomento principale Configurazione delle valutazioni del modello