0 / 0
Torna alla versione inglese della documentazione
Valutazioni della qualità dell'AI generativa
Ultimo aggiornamento: 28 nov 2024
Valutazioni della qualità dell'AI generativa

È possibile utilizzare le valutazioni della qualità dell'IA generativa di watsonx.governance per misurare la capacità del foundation model di svolgere le attività.

Quando si valutano i modelli di prompt, è possibile esaminare un riepilogo dei risultati di valutazione della qualità AI generativa per i seguenti tipi di attività:

  • Riepilogo del testo
  • Generazione di contenuto
  • Estrazione di entità
  • Risposta alle domande
  • Richiamo RAG (augmented Generation)

Il riepilogo visualizza i punteggi e violazioni per le metriche calcolate con le impostazioni predefinite.

Per configurare le valutazioni di qualità AI generative con le proprie impostazioni, è possibile impostare una dimensione di esempio minima e impostare valori di soglia per ciascuna metrica come mostrato nel seguente esempio:

Configura valutazioni di qualità AI generative

La dimensione minima del campione indica il numero minimo di record di transazione del modello che si desidera valutare e i valori di soglia creano avvisi quando i punteggi della metrica violano le soglie. I punteggi della metrica devono essere superiori ai valori di soglia inferiori per evitare violazioni. Valori di metrica più elevati indicano punteggi migliori.

È inoltre possibile configurare le impostazioni per calcolare le metriche con i modelli LLM-as-a-judge. I modelli LLM-as-a-judge sono modelli LLM che possono essere utilizzati per valutare le prestazioni di altri modelli.

Per calcolare le metriche con i modelli LLM-as-a-judge, è necessario selezionare Gestisci per aggiungere un sistema " generative_ai_evaluator quando si configurano le impostazioni di valutazione.

Aggiunta di un valutatore gen AI per la valutazione dei modelli LLM-as-a-judge

È possibile selezionare un valutatore per calcolare le metriche di qualità delle risposte e di qualità del recupero.

Selezionare il valutatore gen AI per le impostazioni metriche

È inoltre possibile utilizzare un blocco note per creare un valutatore quando si impostano i modelli di prompt e si rivedono i risultati della valutazione per l'attività RAG in watsonx.governance

Metriche di qualità AI generative supportate

Le seguenti metriche di qualità AI generative sono supportate da watsonx.governance: :

ROUGE

Le metriche ROUGE (Recall - Oriented Understudy for Gisting Evaluation) misurano il confronto tra riepiloghi o traduzioni ben generati e gli output di riferimento. La valutazione della qualità AI generativa calcola le metriche rouge1, rouge2e rougeLSum .

  • Tipi di attività:

    • Riepilogo del testo
    • Generazione di contenuto
    • Risposta alle domande
    • Estrazione di entità
    • Richiamo RAG (augmented Generation)
  • Parametri:

    • Usa stemmer: se true, gli utenti Porter stemmer eliminano i suffissi delle parole. Il valore predefinito è false.
  • Soglie:

    • Limite inferiore: 0.8
    • Limite superiore: 1.0
  • Come funziona: punteggi più alti indicano una maggiore somiglianza tra il riepilogo e il riferimento.

SARI

SARI (output di sistema rispetto ai riferimenti e rispetto alla frase di input) confronta l'output della frase prevista con l'output della frase di riferimento per misurare la qualità delle parole che il modello utilizza per generare le frasi.

  • Tipi di attività:

    • Riepilogo del testo
  • Soglie:

    • Limite inferiore: 0
    • Limite superiore: 100
  • Come funziona: punteggi più elevati indicano una qualità superiore di parole utilizzate per generare frasi.

METEOR

METEOR (Metric for Evaluation of Translation with Explicit ORdering) misura quanto il testo generato con le traduzioni automatiche corrisponda alla struttura del testo dalle traduzioni di riferimento. È calcolato con la media armonica di precisione e richiamo.

  • Tipi di attività:

    • Riepilogo del testo
    • Generazione di contenuto
  • Parametri:

    • Alfa: controlla i pesi relativi di precisione e richiamo
    • Beta: controlla la forma della penalità in funzione della frammentazione.
    • Gamma: il peso relativo assegnato alla penalità di frammentazione.
  • Soglie:

    • Limite inferiore: 0
    • Limite superiore: 1
  • Come funziona: punteggi più elevati indicano che le traduzioni automatiche corrispondono più strettamente ai riferimenti.

Qualità del testo

La qualità del testo valuta l'output di un modello rispetto ai dataset SuperGLUE misurando il punteggio F1 , la precisione e il richiamo rispetto alle previsioni del modello e i relativi dati ground truth. Viene calcolato normalizzando le stringhe di input e identificando il numero di token simili che esistono tra le previsioni e i riferimenti.

  • Tipi di attività:

    • Riepilogo del testo
    • Generazione di contenuto
  • Soglie:

    • Limite inferiore: 0.8
    • Limite superiore: 1
  • Come funziona: punteggi più elevati indicano una maggiore somiglianza tra le previsioni e i riferimenti.

BLEU

BLEU (Bilingual Evaluation Understudy) confronta le frasi tradotte dalle traduzioni automatiche con le frasi dalle traduzioni di riferimento per misurare la similarità tra testi di riferimento e previsioni.

  • Tipi di attività:

    • Riepilogo del testo
    • Generazione di contenuto
    • Risposta alle domande
    • Richiamo RAG (augmented Generation)
  • Parametri:

    • Ordine massimo: ordine massimo di n - grammi da utilizzare quando si completa il punteggio BLEU
    • Liscio: se applicare o meno una funzione di lisciatura per rimuovere il rumore dai dati
  • Soglie:

    • Limite inferiore: 0.8
    • Limite superiore: 1
  • Come funziona: punteggi più elevati indicano una maggiore similarità tra i testi di riferimento e le previsioni.

Similitudine della frase

La similarità della frase cattura le informazioni semantiche dalle incorporazioni della frase per misurare la somiglianza tra i testi. Misura la similarità di Jaccard e la somiglianza di Cosine.

  • Tipi di attività: riepilogo di testo

  • Soglie:

    • Limite inferiore: 0.8
    • Limite superiore: 1
  • Come funziona: punteggi più elevati indicano che i testi sono più simili.

Sicurezza dei dati

È possibile utilizzare le seguenti metriche di sicurezza dei dati per identificare se l'input o l'output del modello contiene informazioni dannose o sensibili:

PII
PII misura se i dati di input o output del modello contengono informazioni di identificazione personale utilizzando il modello di estrazione delle entità di Watson Natural Language Processing.
  • Tipi di attività:
    • Riepilogo del testo
    • Generazione di contenuto
    • Risposta alle domande
    • Richiamo RAG (augmented Generation)
  • Soglie:
    • Limite superiore: 0
  • Come funziona: punteggi più elevati indicano che esiste una percentuale più elevata di informazioni di identificazione personale nei dati di input o di output.
HAP
HAP misura se c'è un contenuto tossico che contiene odio, abuso o volgarità nei dati di input o output del modello.
  • Tipi di attività:
    • Riepilogo del testo
    • Generazione di contenuto
    • Risposta alle domande
    • Richiamo RAG (augmented Generation)
  • Teshold
    • Limite superiore: 0
  • Come funziona: punteggi più elevati indicano che esiste una percentuale più elevata di contenuto tossico nell'input o nell'output del modello.

Leggibilità

La leggibilità determina quanto sia difficile leggere l'output del modello misurando caratteristiche quali la lunghezza della frase e la complessità della parola.

  • Tipi di attività:

    • Riepilogo del testo
    • Generazione di contenuto
  • Soglie:

    • Limite inferiore: 60
  • Come funziona: punteggi più elevati indicano che l'output del modello è più semplice da leggere.

Corrispondenza esatta

La corrispondenza esatta confronta le stringhe di previsione del modello con le stringhe di riferimento per misurare la frequenza di corrispondenza delle stringhe.

  • Tipi di attività:

    • Risposta alle domande
    • Estrazione di entità
    • Richiamo RAG (augmented Generation)
  • Parametri:

    • Regexes da ignorare: Regex espressioni di caratteri da ignorare quando si calcolano le corrispondenze esatte.
    • Ignora maiuscolo / minuscolo: se True, trasforma tutto in minuscolo in modo che le differenze tra maiuscole e minuscole vengano ignorate.
    • Ignora punteggiatura: se True, rimuove la punteggiatura prima di confrontare le stringhe.
    • Ignora numeri: se True, rimuove tutte le cifre prima di confrontare le stringhe.
  • Soglie:

    • Limite inferiore: 0.8
    • Limite superiore: 1
  • Come funziona: punteggi più elevati indicano che le stringhe di previsione del modello corrispondono più spesso alle stringhe di riferimento.

Metriche multi-etichetta/classe

Le metriche multi - etichetta/classe misurano le prestazioni del modello per previsioni multi - etichetta/multi - classe.

  • Metriche:
    • Punteggio micro F1
    • Punteggio macro F1
    • Precisione micro
    • Precisione macro
    • Richiamo micro
    • Richiamo macro
  • Tipi di attività: estrazione entità
  • Soglie:
    • Limite inferiore: 0.8
    • Limite superiore: 1
  • Come funziona: punteggi più elevati indicano che le previsioni sono più accurate.

Qualità della risposta

È possibile utilizzare le metriche di qualità delle risposte per valutare la qualità delle risposte del modello. Le metriche di qualità delle risposte sono calcolate con modelli LLM-as-a-judge.

È possibile calcolare le seguenti metriche di qualità delle risposte:

Fedeltà

La fedeltà misura quanto l'output del modello sia fondato sul contesto del modello e fornisce attribuzioni dal contesto per mostrare le frasi più importanti che contribuiscono all'output del modello. Le attribuzioni sono fornite quando la metrica è calcolata solo con modelli ottimizzati.

  • Tipi di compiti: Generazione aumentata di recupero (RAG)
  • Soglie:
    • Limite inferiore: 0
    • Limite superiore: 1
  • Come funziona: Punteggi più alti indicano che l'output è più radicato e meno allucinato.
Pertinenza della risposta

La pertinenza della risposta misura la pertinenza della risposta nell'output del modello rispetto alla domanda dell'input del modello.

  • Tipi di compiti: Generazione aumentata di recupero (RAG)
  • Soglie:
    • Limite inferiore: 0
    • Limite superiore: 1
  • Come funziona: Punteggi più alti indicano che il modello fornisce risposte pertinenti alla domanda.
Risposta: somiglianza

La somiglianza delle risposte misura la somiglianza della risposta o del testo generato con la verità di base o la risposta di riferimento per determinare la qualità delle prestazioni del modello. La metrica della somiglianza delle risposte è supportata solo per la configurazione con i modelli LLM-as-a-judge.

  • Tipi di compiti: Generazione aumentata di recupero (RAG)
  • Soglie:
    • Limite inferiore: 0
    • Limite superiore: 1
  • Come funziona: Punteggi più alti indicano che la risposta è più simile all'output di riferimento.
Richieste non riuscite

Le richieste non andate a buon fine misurano il rapporto tra le domande a cui si risponde senza successo sul numero totale di domande. Watsonx.governance non calcola la metrica delle richieste non andate a buon fine con modelli ottimizzati.

  • Tipi di attività:
    • Richiamo RAG (augmented Generation)
    • Risposta alle domande
  • Soglie:
    • Limite inferiore: 0
    • Limite superiore: 1
  • Come funziona: I punteggi più alti indicano che il modello non è in grado di fornire risposte alla domanda.

Analisi del contenuto

È possibile utilizzare le seguenti metriche di analisi dei contenuti per valutare il risultato del modello rispetto all'input o al contesto del modello:

Copertura

La copertura misura la misura in cui l'output del foundation model è generato dall'input del modello, calcolando la percentuale di testo in uscita che si trova anche nell'input.

  • Tipi di attività:
    • Riepilogo del testo
    • Richiamo RAG (augmented Generation)
  • Soglie:
    • Limite inferiore: 0
    • Limite superiore: 1
  • Come funziona: Punteggi più alti indicano che una percentuale maggiore di parole in uscita si trova all'interno del testo in entrata.
Densità

La densità misura il grado di estrazione del riassunto nell'output del foundation model rispetto all'input del modello, calcolando la media dei frammenti estrattivi che assomigliano molto alle estrazioni verbali del testo originale.

  • Tipi di attività:
    • Riepilogo del testo
    • Richiamo RAG (augmented Generation)
  • Soglie: Limite inferiore: 0
  • Come funziona: I punteggi più bassi indicano che l'output del modello è più astratto e che in media i frammenti estratti non assomigliano molto alle estrazioni verbali del testo originale.
Compressione

La compressione misura quanto è più breve il riassunto rispetto al testo in ingresso. Calcola il rapporto tra il numero di parole del testo originale e il numero di parole del foundation model.

  • Tipi di attività: riepilogo di testo
  • Soglie: Limite inferiore: 0
  • Come funziona: Un punteggio più alto indica che il riassunto è più conciso rispetto al testo originale.
Ripetitività

La ripetitività misura la percentuale di n-grammi che si ripetono nell'output del foundation model, calcolando il numero di n-grammi ripetuti e il numero totale di n-grammi nell'output del modello.

  • Tipi di attività: riepilogo di testo
  • Soglie: Limite inferiore: 0
Astrattezza

L'astrattezza misura il rapporto tra gli n-grammi presenti nell'output testuale generato che non compaiono nel contenuto di partenza del foundation model.

  • Tipi di attività:
    • Riepilogo del testo
    • Richiamo RAG (augmented Generation)
  • Soglie:
    • Limite inferiore: 0
    • Limite superiore: 1
  • Come funziona: Punteggi più alti indicano un'elevata astrattezza del testo generato.

Qualità del recupero

È possibile utilizzare le metriche di qualità del reperimento per misurare la qualità del modo in cui il sistema di reperimento classifica i contesti pertinenti. Le metriche di qualità del recupero sono calcolate con modelli LLM-as-a-judge.

È possibile calcolare le seguenti metriche di qualità del recupero:

Pertinenza del contesto

La rilevanza del contesto misura la pertinenza del contesto che il modello recupera rispetto alla domanda specificata nel prompt. Quando esistono più variabili di contesto, i punteggi di rilevanza del contesto vengono generati quando la metrica viene calcolata solo con modelli ottimizzati.

  • Tipi di compiti: Generazione aumentata di recupero (RAG)
  • Soglie:
    • Limite inferiore: 0
    • Limite superiore: 1
  • Come funziona: Punteggi più alti indicano che il contesto è più pertinente alla domanda del prompt.
Precisione di recupero

La precisione di recupero misura la quantità di contesti rilevanti rispetto al totale dei contesti recuperati.

  • Tipi di compiti: Generazione di aumenti di recupero (RAG)
  • Soglie:
    • Limite inferiore: 0
    • Limite superiore: 1
  • Come funziona: Un valore di 1 indica che tutti i contesti recuperati sono rilevanti. Il valore 0 indica che nessuno dei contesti recuperati è rilevante. Se il punteggio è in crescita, i contesti recuperati sono rilevanti per la domanda. Se il punteggio tende al ribasso, i contesti recuperati non sono rilevanti per la domanda.
Precisione media

La precisione media valuta se tutti i contesti rilevanti sono classificati più in alto o meno, calcolando la media dei punteggi di precisione dei contesti rilevanti.

  • Tipi di compiti: Generazione di aumenti di recupero (RAG)
  • Soglie:
    • Limite inferiore: 0
    • Limite superiore: 1
  • Come funziona: Un valore di 1 indica che tutti i contesti rilevanti sono classificati più in alto. Il valore 0 indica che nessuno dei contesti recuperati è rilevante. Se il punteggio è in crescita, i contesti rilevanti vengono classificati più in alto. Se il punteggio è in tendenza al ribasso, i contesti rilevanti non vengono classificati più in basso.
Livello reciproco

Il rango reciproco è il rango reciproco del primo contesto rilevante.

  • Tipi di compiti: Generazione di aumenti di recupero (RAG)
  • Soglie:
    • Limite inferiore: 0
    • Limite superiore: 1
  • Come funziona: Un valore di 1 indica che il primo contesto rilevante si trova nella prima posizione. Il valore 0 indica che non viene recuperato nessuno dei contesti rilevanti. Se il punteggio è in crescita, il primo contesto rilevante viene classificato più in alto. Se il punteggio tende a diminuire, il primo contesto rilevante viene classificato più in basso.
Tasso di riscontri

Il tasso di successo misura se c'è almeno un contesto rilevante tra quelli recuperati.

  • Tipi di compiti: Generazione di aumenti di recupero (RAG)
  • Soglie:
    • Limite inferiore: 0
    • Limite superiore: 1
  • Come funziona: Un valore di 1 indica che esiste almeno un contesto rilevante. Un valore pari a 0 indica che nei contesti recuperati non c'è alcun contesto rilevante. Se il punteggio è in crescita, almeno un contesto rilevante è presente nel contesto recuperato. Se il punteggio tende al ribasso, non vengono recuperati contesti rilevanti.
Guadagno cumulativo attualizzato normalizzato

Il Normalized Discounted Cumulative Gain (NDCG) misura la qualità del ranking dei contesti recuperati.

  • Tipi di compiti: Generazione di aumenti di recupero (RAG)
  • Soglie:
    • Limite inferiore: 0
    • Limite superiore: 1
  • Come funziona: Un valore di 1 indica che i contesti recuperati sono classificati nell'ordine corretto. Se il punteggio è in crescita, la classificazione dei contesti recuperati è corretta. Se il punteggio tende al ribasso, la classifica dei contesti recuperati non è corretta.

Argomento principale Configurazione delle valutazioni del modello