Metriche di valutazione

Ultimo aggiornamento: 25 mar 2025
Metriche di valutazione

Le metriche di valutazione possono aiutarvi a monitorare costantemente le prestazioni dei vostri modelli di IA per fornire approfondimenti durante l'intero ciclo di vita dell'IA. Con watsonx.governance è possibile utilizzare queste metriche per garantire la conformità ai requisiti normativi e identificare i miglioramenti da apportare per ridurre i rischi.

È possibile eseguire valutazioni in Watsonx.governance per generare metriche con monitoraggio automatico che possono fornire informazioni utili per raggiungere gli obiettivi di governance dell'IA. Queste metriche possono essere utilizzate per raggiungere i seguenti obiettivi:

  • Garantire la conformità : Traccia automaticamente l'aderenza alle normative in evoluzione e alle politiche organizzative, con avvisi che si attivano quando vengono violate le soglie.
  • Promuovere la trasparenza : Generare una documentazione dettagliata per fornire informazioni chiare sul comportamento del modello, sulle prestazioni e sulla spiegabilità dei risultati.
  • Mitigare i rischi : Individuare e risolvere problemi come la distorsione o la deriva dell'accuratezza attraverso una valutazione continua e valutazioni proattive del rischio.
  • Proteggere la privacy e la sicurezza : Monitorare le vulnerabilità della sicurezza, come l'esposizione di informazioni di identificazione personale (PII), e applicare le barriere di sicurezza per prevenire l'uso improprio dei dati sensibili.

Le metriche che si possono utilizzare per fornire informazioni sulle prestazioni del modello sono determinate dal tipo di valutazioni abilitate. Ogni tipo di valutazione genera metriche diverse che possono essere analizzate per ottenere informazioni.

Puoi anche usare il ibm-watsonx-gov Python SDK per calcolare le metriche in un ambiente di runtime notebook o scaricate come processi Spark su IBM Analytics Engine per le valutazioni. L'SDK ( Python ) è una libreria di strumenti ( Python ) che puoi utilizzare per monitorare, gestire e controllare programmaticamente i modelli di apprendimento automatico. Alcune metriche potrebbero essere disponibili solo con l'SDK di Python. Per ulteriori informazioni, vedere Metrics computation with the Python SDK.

Metriche di valutazione della deriva

Le metriche di valutazione della deriva possono aiutarvi a rilevare i cali di accuratezza e di coerenza dei dati nei vostri modelli per determinare quanto il vostro modello sia in grado di prevedere i risultati nel tempo. Watsonx.governance supporta le seguenti metriche di valutazione del drift per l'apprendimento automatico models.:

Tabella 1. Descrizioni delle metriche di valutazione della deriva
Metrica Descrizione
Calo di accuratezza Stima il calo di accuratezza del modello in fase di esecuzione rispetto ai dati di addestramento
Calo di congruenza dei dati Confronta le transazioni in tempo reale con gli schemi delle transazioni nei dati di formazione per identificare le incoerenze

Metriche di valutazione della deriva v2

Le metriche di valutazione della deriva v2 possono aiutare a misurare le variazioni dei dati nel tempo per garantire risultati coerenti per il modello. È possibile utilizzare queste metriche per identificare i cambiamenti nell'output del modello, l'accuratezza delle previsioni e la distribuzione dei dati di input. Watsonx.governance supporta le seguenti metriche di deriva v2 :

Tabella 2. Descrizioni delle metriche di valutazione della deriva v2
Metrica Descrizione
Deviazione dell'integrazione Rileva la percentuale di record che sono anomali rispetto ai dati di riferimento
Deviazione funzione Misura la variazione della distribuzione dei valori per le caratteristiche più importanti
Deviazione dei metadati di input Misura la variazione nella distribuzione dei metadati del testo di ingresso LLM
Deviazione qualità modello Confronta l'accuratezza di runtime stimata con l'accuratezza di addestramento per misurare il calo di accuratezza.
Deviazione output Misura la variazione della distribuzione di fiducia del modello
Deviazione dei metadati di output Misura la variazione della distribuzione dei metadati del testo di output di LLM.
Deviazione della previsione Misura la variazione della distribuzione delle classi previste da LLM.

Metriche di valutazione dell'equità

Le metriche di valutazione dell'equità possono aiutare a determinare se il modello produce risultati distorti. È possibile utilizzare queste metriche per identificare quando il modello mostra una tendenza a fornire risultati favorevoli più spesso per un gruppo rispetto a un altro. Watsonx.governance supporta le seguenti metriche di valutazione della correttezza:

Tabella 3. Descrizioni delle metriche di valutazione dell'equità
Metrica Descrizione
Differenza odds assoluti media Confronta la media delle differenze assolute nei tassi di falsi positivi e di veri positivi tra i gruppi monitorati e i gruppi di riferimento
Differenza odds media Misura la differenza tra i tassi di falsi positivi e falsi negativi tra i gruppi monitorati e di riferimento
Impatto disparato Confronta la percentuale di esiti favorevoli di un gruppo monitorato con la percentuale di esiti favorevoli di un gruppo di riferimento
Differenza tasso di errore La percentuale di transazioni che vengono valutate in modo errato dal vostro modello
Differenza tasso di rilevamento falsi La quantità di transazioni false positive come percentuale di tutte le transazioni con esito positivo
Differenza tasso di falsi negativi La percentuale di transazioni positive che sono state erroneamente classificate come negative dal vostro modello
Differenza tasso di omissione falsi Il numero di transazioni false negative come percentuale di tutte le transazioni con esito negativo
Differenza tasso di falsi positivi La percentuale di transazioni negative che sono state erroneamente classificate come positive dal vostro modello.
Punteggio impatto Confronta il tasso di selezione dei gruppi monitorati per ottenere risultati favorevoli con il tasso di selezione dei gruppi di riferimento per ottenere risultati favorevoli.
Differenza di parità statistica Confronta la percentuale di esiti favorevoli dei gruppi monitorati con quella dei gruppi di riferimento.

Metriche di valutazione della qualità dell'IA generativa

Le metriche di valutazione della qualità dell'IA generativa possono aiutarti a misurare il rendimento del tuo modello di base nell'esecuzione dei compiti. Watsonx.governance supporta le seguenti metriche di valutazione della qualità dell'IA generativa:

Tabella 4. Descrizioni di metriche di valutazione della qualità dell'IA generativa
Metrica Descrizione
BLEU (Bilingual Evaluation Understudy) Confronta le frasi tradotte dalle traduzioni automatiche con le frasi delle traduzioni di riferimento per misurare la somiglianza tra i testi di riferimento e le previsioni
Corrispondenza esatta Confronta le stringhe di previsione del modello con le stringhe di riferimento per misurare la frequenza con cui le stringhe corrispondono.
METEOR (Metric for Evaluation of Translation with Explicit ORdering) Misura la corrispondenza tra il testo generato con le traduzioni automatiche e la struttura del testo delle traduzioni di riferimento
Leggibilità Determina la difficoltà di lettura dell'output del modello misurando caratteristiche quali la lunghezza delle frasi e la complessità delle parole
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) Misurare la qualità dei riassunti o delle traduzioni generate rispetto ai risultati di riferimento.
SARI (output del sistema rispetto ai riferimenti e alla frase di input) Confronta l'output della frase prevista con l'output della frase di riferimento per misurare la qualità delle parole che il modello utilizza per generare le frasi
Similitudine della frase Cattura le informazioni semantiche dalle incorporazioni delle frasi per misurare la somiglianza tra i testi
Qualità del testo Valuta l'output di un modello rispetto ai dataset di SuperGLUE misurando il punteggio, la precisione e il richiamo di F1 rispetto alle previsioni del modello e ai suoi dati di riferimento

Watsonx.governance supporta anche le seguenti categorie di metriche di qualità dell'IA generativa:

Metriche di qualità delle risposte

È possibile utilizzare le metriche di qualità delle risposte per valutare la qualità delle risposte del modello. Le metriche di qualità delle risposte sono calcolate con modelli LLM-as-a-judge. Per calcolare le metriche con i modelli LLM-as-a-judge, è possibile creare una funzione di scoring che richiama i modelli. Per ulteriori informazioni, consultare il quaderno operativo Computing Answer Quality and Retrieval Quality Metrics using IBM watsonx.governance for RAG.

È possibile calcolare le seguenti metriche di qualità delle risposte:

Tabella 5. Descrizione delle metriche di valutazione della qualità delle risposte
Metrica Descrizione
Pertinenza della risposta Misura la rilevanza della risposta nell'output del modello rispetto alla domanda posta nell'input del modello
Risposta: similarità Misura la somiglianza della risposta o del testo generato con la verità di base o la risposta di riferimento per determinare la qualità delle prestazioni del modello
Fedeltà Misura quanto l'output del modello sia fondato sul contesto del modello e fornisce le attribuzioni dal contesto per mostrare le frasi più importanti che contribuiscono all'output del modello.
Richieste non riuscite Misura il rapporto tra le domande a cui si risponde in modo errato e il numero totale di domande

Metriche di analisi dei contenuti

È possibile utilizzare le seguenti metriche di analisi dei contenuti per valutare il risultato del modello rispetto all'input o al contesto del modello:

Tabella 6. Analisi dei contenuti Descrizione delle metriche di valutazione
Metrica Descrizione
Astrattezza Misura il rapporto tra i n-gram nel testo generato che non compaiono nel contenuto sorgente del modello di base
Compressione Misura quanto è più breve il riassunto rispetto al testo di partenza calcolando il rapporto tra il numero di parole nel testo originale e il numero di parole nell'output del modello di base
Copertura Misura la misura in cui l'output del modello di base è generato dall'input del modello calcolando la percentuale di testo in uscita che è presente anche nell'input
Densità Misura quanto il riassunto nell'output del modello di base sia estraente dall'input del modello calcolando la media dei frammenti estraenti che assomigliano molto a estrazioni letterali dal testo originale
Ripetitività Misura la percentuale di n-grammi che si ripetono nel modello di base in uscita calcolando il numero di n-grammi ripetuti e il numero totale di n-grammi nel modello in uscita

Metriche di sicurezza dei dati

È possibile utilizzare le seguenti metriche di sicurezza dei dati per identificare se l'input o l'output del modello contiene informazioni dannose o sensibili:

Tabella 7. Descrizioni delle metriche di valutazione della sicurezza dei dati
Metrica Descrizione
HAP Misura se nei dati di input o output del modello sono presenti contenuti tossici che contengono odio, abusi o bestemmie.
PII Misura se i dati di input o output del modello contengono informazioni di identificazione personale utilizzando il modello di estrazione delle entità di Watson Natural Language Processing

Metriche multi-etichetta/classe

È possibile utilizzare le seguenti metriche multi-label/di classe per misurare le prestazioni del modello per le previsioni multi-label/multi-classe:

Tabella 8. Descrizioni delle metriche di valutazione multi-label/classe
Metrica Descrizione
Punteggio macro F1 La media dei punteggi dell' F1, calcolata separatamente per ogni classe
Precisione macro La media dei punteggi di precisione calcolata separatamente per ogni classe
Richiamo macro La media dei punteggi di richiamo calcolati separatamente per ogni classe
Punteggio micro F1 Calcola la media armonica di precisione e e richiamo
Precisione micro Il rapporto tra il numero di previsioni corrette su tutte le classi e il numero totale di previsioni.
Richiamo micro Il rapporto tra il numero di previsioni corrette su tutte le classi e il numero di campioni veri.

Metriche di qualità del recupero

È possibile utilizzare le metriche di qualità del reperimento per misurare la qualità del modo in cui il sistema di reperimento classifica i contesti pertinenti. Le metriche di qualità del recupero sono calcolate con modelli LLM-as-a-judge. Per calcolare le metriche con i modelli LLM-as-a-judge, è possibile creare una funzione di scoring che richiama i modelli. Per ulteriori informazioni, consultare il quaderno operativo Computing Answer Quality and Retrieval Quality Metrics using IBM watsonx.governance for RAG.

È possibile calcolare le seguenti metriche di qualità del recupero:

Tabella 9. Descrizioni delle metriche di valutazione della qualità del reperimento
Metrica Descrizione
Precisione media Valuta se tutti i contesti rilevanti sono classificati più in alto o meno, calcolando la media dei punteggi di precisione dei contesti rilevanti
Pertinenza del contesto Misura la pertinenza del contesto che il modello recupera rispetto alla domanda specificata nel prompt
Tasso di riscontri Misura se c'è almeno un contesto rilevante tra quelli recuperati.
Guadagno cumulativo scontato normalizzato Misura la qualità del ranking dei contesti recuperati
Livello reciproco Il rango reciproco del primo contesto rilevante
Precisione di recupero Misura la quantità di contesti rilevanti rispetto al totale dei contesti recuperati

Metriche di valutazione del modello di monitoraggio della salute

Le metriche di valutazione dello stato di salute del modello possono aiutare a comprendere il comportamento e le prestazioni del modello, determinando l'efficienza con cui la distribuzione del modello elabora le transazioni. Le metriche di valutazione dello stato di salute del modello sono abilitate per impostazione predefinita per le valutazioni dei modelli di apprendimento automatico nella produzione e nelle implementazioni di risorse di intelligenza artificiale generativa. Watsonx.governance supporta le seguenti metriche di valutazione del modello di monitor sanitario:

Tabella 10. Descrizioni delle metriche di valutazione del monitor di salute del modello
Metrica Descrizione
Dimensione payload La dimensione totale, media, minima, massima e mediana del payload dei record di transazione che l'implementazione del modello elabora attraverso le richieste di scoring, in kilobyte (KB)
Record Il numero totale, medio, minimo, massimo e mediano di record di transazione elaborati nelle richieste di scoring
Richieste di calcolo del punteggio Il numero di richieste di punteggio che l'implementazione del modello riceve
Utenti Il numero di utenti che inviano richieste di punteggio alle distribuzioni del modello

Watsonx.governance supporta anche le seguenti diverse categorie di metriche di valutazione del monitoraggio dello stato del modello:

Conteggio dei gettoni

Le seguenti metriche di conteggio dei token calcolano il numero di token elaborati tra le richieste di punteggio per la distribuzione del modello:

Tabella 11. Descrizioni delle metriche di valutazione del conteggio dei token del monitoraggio sanitario del modello
Metrica Descrizione
Conteggio token di input Calcola il totale, la media, il minimo, il massimo e la mediana dei token di input tra più richieste di punteggio durante le valutazioni
Conteggio dei token di output Calcola il conteggio totale, medio, minimo, massimo e mediano dei token di output tra le richieste di punteggio durante le valutazioni

Throughput e latenza

Le valutazioni del modello di monitoraggio della salute calcolano la latenza monitorando il tempo necessario per elaborare le richieste di punteggio e i record delle transazioni per millisecondo (ms). La produttività viene calcolata monitorando il numero di richieste di incisione e di registrazioni di transazioni elaborate al secondo.

Le seguenti metriche sono calcolate per misurare il throughput e la latenza durante le valutazioni:

Tabella 12. Descrizioni delle metriche di throughput e latenza del modello di monitoraggio dello stato
Metrica Descrizione
Latenza API Tempo impiegato (in ms) per elaborare una richiesta di scoring da parte del tuo modello di distribuzione.
Portata API Numero di richieste di registrazione elaborate dal tuo modello di distribuzione al secondo

Metriche di valutazione della qualità

Le valutazioni della qualità possono aiutarti a misurare la capacità del tuo modello di fornire risultati corretti in base alle sue prestazioni. Watsonx.governance supporta i seguenti parametri di valutazione della qualità:

Tabella 13. Descrizioni delle metriche di valutazione della qualità
Metrica Descrizione
Accuratezza Misura quanto siano corrette le previsioni del modello calcolando la proporzione di risultati corretti sul numero totale di risultati.
Area sotto la curva PR Misura quanto bene il tuo modello è bilanciato, identificando correttamente le classi positive e trovando tutte le classi positive
Area sotto la curva ROC Misura quanto bene il tuo modello identifica le differenze tra le classi.
Punteggio Brier Misura la differenza media al quadrato tra la probabilità prevista e il valore target.
F1-Measure Misure Media armonica di precisione e richiamo
Coefficiente di Gini Misura la capacità dei modelli di distinguere tra due classi
Etichetta obliqua Misura l'asimmetria della distribuzione delle etichette
Perdita logaritmica Media dei logaritmi Probabilità della classe target (fiducia)
Coefficiente di correlazione di Matthews La qualità delle classificazioni binarie e multiclassifiche tenendo conto dei veri e falsi positivi e negativi
Errore medio assoluto Media della differenza assoluta tra previsione del modello e il valore obiettivo
Errore percentuale assoluto medio Misura la differenza percentuale media di errore tra i valori previsti e quelli effettivi
Errore quadratico medio Media della differenza al quadrato tra la previsione del modello e il valore obiettivo
Coefficiente di correlazione di Pearson Misura la relazione lineare tra la previsione del modello e i valori target.
Precisione Percentuale di previsioni corrette nelle previsioni di classe positiva
Varianza spiegata dalla proporzione Il rapporto tra varianza spiegata e varianza obiettivo. La varianza spiegata è la differenza tra la varianza obiettivo e la varianza di errore di previsione.
Richiamo Percentuale di previsioni corrette nella classe positiva
Radice dell'errore quadratico medio Radice quadrata della media della differenza quadratica tra previsione del modello e valore obiettivo.
R-quadrato Rapporto tra la differenza tra la varianza target e la varianza per l'errore di previsione rispetto alla varianza target
coefficiente di correlazione di Spearman Misura la monotonia del rapporto tra le previsioni del modello e i valori target.
Errore percentuale assoluto medio simmetrico Misura la media simmetrica dell'errore percentuale di differenza tra i valori previsti e quelli effettivi
Tasso di veri positivi Percentuale di previsioni corrette nelle previsioni di classe positiva
Tasso ponderato di falsi positivi Percentuale di previsioni errate nella classe positiva
Misura F1 ponderata Media ponderata di un F1-measure e con pesi pari alla probabilità di classe
Precisione ponderata Media ponderata della precisione con pesi pari alla probabilità di classe
Richiamo ponderato Media ponderata del ricordo con pesi uguali alla probabilità di classe

Argomento principale: Valutazione dei modelli di IA