Le metriche di valutazione possono aiutarvi a monitorare costantemente le prestazioni dei vostri modelli di IA per fornire approfondimenti durante l'intero ciclo di vita dell'IA. Con watsonx.governance è possibile utilizzare queste metriche per garantire la conformità ai requisiti normativi e identificare i miglioramenti da apportare per ridurre i rischi.
È possibile eseguire valutazioni in Watsonx.governance per generare metriche con monitoraggio automatico che possono fornire informazioni utili per raggiungere gli obiettivi di governance dell'IA. Queste metriche possono essere utilizzate per raggiungere i seguenti obiettivi:
Garantire la conformità : Traccia automaticamente l'aderenza alle normative in evoluzione e alle politiche organizzative, con avvisi che si attivano quando vengono violate le soglie.
Promuovere la trasparenza : Generare una documentazione dettagliata per fornire informazioni chiare sul comportamento del modello, sulle prestazioni e sulla spiegabilità dei risultati.
Mitigare i rischi : Individuare e risolvere problemi come la distorsione o la deriva dell'accuratezza attraverso una valutazione continua e valutazioni proattive del rischio.
Proteggere la privacy e la sicurezza : Monitorare le vulnerabilità della sicurezza, come l'esposizione di informazioni di identificazione personale (PII), e applicare le barriere di sicurezza per prevenire l'uso improprio dei dati sensibili.
Le metriche che si possono utilizzare per fornire informazioni sulle prestazioni del modello sono determinate dal tipo di valutazioni abilitate. Ogni tipo di valutazione genera metriche diverse che possono essere analizzate per ottenere informazioni.
Puoi anche usare il ibm-watsonx-govPython SDK per calcolare le metriche in un ambiente di runtime notebook o scaricate come processi Spark su IBM Analytics Engine per le valutazioni. L'SDK ( Python ) è una libreria di strumenti ( Python ) che puoi utilizzare per monitorare, gestire e controllare programmaticamente i modelli di apprendimento automatico. Alcune metriche potrebbero essere disponibili solo con l'SDK di Python. Per ulteriori informazioni, vedere Metrics computation with the Python SDK.
Metriche di valutazione della deriva
Copy link to section
Le metriche di valutazione della deriva possono aiutarvi a rilevare i cali di accuratezza e di coerenza dei dati nei vostri modelli per determinare quanto il vostro modello sia in grado di prevedere i risultati nel tempo. Watsonx.governance supporta le seguenti metriche di valutazione del drift per l'apprendimento automatico models.:
Tabella 1. Descrizioni delle metriche di valutazione della deriva
Confronta le transazioni in tempo reale con gli schemi delle transazioni nei dati di formazione per identificare le incoerenze
Metriche di valutazione della deriva v2
Copy link to section
Le metriche di valutazione della deriva v2 possono aiutare a misurare le variazioni dei dati nel tempo per garantire risultati coerenti per il modello. È possibile utilizzare queste metriche per identificare i cambiamenti nell'output del modello, l'accuratezza delle previsioni e la distribuzione dei dati di input. Watsonx.governance supporta le seguenti metriche di deriva v2 :
Tabella 2. Descrizioni delle metriche di valutazione della deriva v2
Misura la variazione della distribuzione delle classi previste da LLM.
Metriche di valutazione dell'equità
Copy link to section
Le metriche di valutazione dell'equità possono aiutare a determinare se il modello produce risultati distorti. È possibile utilizzare queste metriche per identificare quando il modello mostra una tendenza a fornire risultati favorevoli più spesso per un gruppo rispetto a un altro. Watsonx.governance supporta le seguenti metriche di valutazione della correttezza:
Tabella 3. Descrizioni delle metriche di valutazione dell'equità
Confronta il tasso di selezione dei gruppi monitorati per ottenere risultati favorevoli con il tasso di selezione dei gruppi di riferimento per ottenere risultati favorevoli.
Confronta la percentuale di esiti favorevoli dei gruppi monitorati con quella dei gruppi di riferimento.
Metriche di valutazione della qualità dell'IA generativa
Copy link to section
Le metriche di valutazione della qualità dell'IA generativa possono aiutarti a misurare il rendimento del tuo modello di base nell'esecuzione dei compiti. Watsonx.governance supporta le seguenti metriche di valutazione della qualità dell'IA generativa:
Tabella 4. Descrizioni di metriche di valutazione della qualità dell'IA generativa
Confronta le frasi tradotte dalle traduzioni automatiche con le frasi delle traduzioni di riferimento per misurare la somiglianza tra i testi di riferimento e le previsioni
Determina la difficoltà di lettura dell'output del modello misurando caratteristiche quali la lunghezza delle frasi e la complessità delle parole
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
Misurare la qualità dei riassunti o delle traduzioni generate rispetto ai risultati di riferimento.
SARI (output del sistema rispetto ai riferimenti e alla frase di input)
Confronta l'output della frase prevista con l'output della frase di riferimento per misurare la qualità delle parole che il modello utilizza per generare le frasi
Valuta l'output di un modello rispetto ai dataset di SuperGLUE misurando il punteggio, la precisione e il richiamo di F1 rispetto alle previsioni del modello e ai suoi dati di riferimento
Watsonx.governance supporta anche le seguenti categorie di metriche di qualità dell'IA generativa:
Metriche di qualità delle risposte
Copy link to section
È possibile utilizzare le metriche di qualità delle risposte per valutare la qualità delle risposte del modello. Le metriche di qualità delle risposte sono calcolate con modelli LLM-as-a-judge. Per calcolare le metriche con i modelli LLM-as-a-judge, è possibile creare una funzione di scoring che richiama i modelli. Per ulteriori informazioni, consultare il quaderno operativo Computing Answer Quality and Retrieval Quality Metrics using IBM watsonx.governance for RAG.
È possibile calcolare le seguenti metriche di qualità delle risposte:
Tabella 5. Descrizione delle metriche di valutazione della qualità delle risposte
Misura la somiglianza della risposta o del testo generato con la verità di base o la risposta di riferimento per determinare la qualità delle prestazioni del modello
Misura quanto l'output del modello sia fondato sul contesto del modello e fornisce le attribuzioni dal contesto per mostrare le frasi più importanti che contribuiscono all'output del modello.
Misura il rapporto tra le domande a cui si risponde in modo errato e il numero totale di domande
Metriche di analisi dei contenuti
Copy link to section
È possibile utilizzare le seguenti metriche di analisi dei contenuti per valutare il risultato del modello rispetto all'input o al contesto del modello:
Tabella 6. Analisi dei contenuti Descrizione delle metriche di valutazione
Misura quanto è più breve il riassunto rispetto al testo di partenza calcolando il rapporto tra il numero di parole nel testo originale e il numero di parole nell'output del modello di base
Misura la misura in cui l'output del modello di base è generato dall'input del modello calcolando la percentuale di testo in uscita che è presente anche nell'input
Misura quanto il riassunto nell'output del modello di base sia estraente dall'input del modello calcolando la media dei frammenti estraenti che assomigliano molto a estrazioni letterali dal testo originale
Misura la percentuale di n-grammi che si ripetono nel modello di base in uscita calcolando il numero di n-grammi ripetuti e il numero totale di n-grammi nel modello in uscita
Metriche di sicurezza dei dati
Copy link to section
È possibile utilizzare le seguenti metriche di sicurezza dei dati per identificare se l'input o l'output del modello contiene informazioni dannose o sensibili:
Tabella 7. Descrizioni delle metriche di valutazione della sicurezza dei dati
Misura se i dati di input o output del modello contengono informazioni di identificazione personale utilizzando il modello di estrazione delle entità di Watson Natural Language Processing
Metriche multi-etichetta/classe
Copy link to section
È possibile utilizzare le seguenti metriche multi-label/di classe per misurare le prestazioni del modello per le previsioni multi-label/multi-classe:
Tabella 8. Descrizioni delle metriche di valutazione multi-label/classe
Il rapporto tra il numero di previsioni corrette su tutte le classi e il numero di campioni veri.
Metriche di qualità del recupero
Copy link to section
È possibile utilizzare le metriche di qualità del reperimento per misurare la qualità del modo in cui il sistema di reperimento classifica i contesti pertinenti. Le metriche di qualità del recupero sono calcolate con modelli LLM-as-a-judge. Per calcolare le metriche con i modelli LLM-as-a-judge, è possibile creare una funzione di scoring che richiama i modelli. Per ulteriori informazioni, consultare il quaderno operativo Computing Answer Quality and Retrieval Quality Metrics using IBM watsonx.governance for RAG.
È possibile calcolare le seguenti metriche di qualità del recupero:
Tabella 9. Descrizioni delle metriche di valutazione della qualità del reperimento
Misura la quantità di contesti rilevanti rispetto al totale dei contesti recuperati
Metriche di valutazione del modello di monitoraggio della salute
Copy link to section
Le metriche di valutazione dello stato di salute del modello possono aiutare a comprendere il comportamento e le prestazioni del modello, determinando l'efficienza con cui la distribuzione del modello elabora le transazioni. Le metriche di valutazione dello stato di salute del modello sono abilitate per impostazione predefinita per le valutazioni dei modelli di apprendimento automatico nella produzione e nelle implementazioni di risorse di intelligenza artificiale generativa. Watsonx.governance supporta le seguenti metriche di valutazione del modello di monitor sanitario:
Tabella 10. Descrizioni delle metriche di valutazione del monitor di salute del modello
La dimensione totale, media, minima, massima e mediana del payload dei record di transazione che l'implementazione del modello elabora attraverso le richieste di scoring, in kilobyte (KB)
Calcola il conteggio totale, medio, minimo, massimo e mediano dei token di output tra le richieste di punteggio durante le valutazioni
Throughput e latenza
Copy link to section
Le valutazioni del modello di monitoraggio della salute calcolano la latenza monitorando il tempo necessario per elaborare le richieste di punteggio e i record delle transazioni per millisecondo (ms). La produttività viene calcolata monitorando il numero di richieste di incisione e di registrazioni di transazioni elaborate al secondo.
Le seguenti metriche sono calcolate per misurare il throughput e la latenza durante le valutazioni:
Tabella 12. Descrizioni delle metriche di throughput e latenza del modello di monitoraggio dello stato
Numero di richieste di registrazione elaborate dal tuo modello di distribuzione al secondo
Metriche di valutazione della qualità
Copy link to section
Le valutazioni della qualità possono aiutarti a misurare la capacità del tuo modello di fornire risultati corretti in base alle sue prestazioni. Watsonx.governance supporta i seguenti parametri di valutazione della qualità:
Tabella 13. Descrizioni delle metriche di valutazione della qualità
Misura quanto bene il tuo modello identifica le differenze tra le classi.
Punteggio Brier
Misura la differenza media al quadrato tra la probabilità prevista e il valore target.
F1-Measure
Misure Media armonica di precisione e richiamo
Coefficiente di Gini
Misura la capacità dei modelli di distinguere tra due classi
Etichetta obliqua
Misura l'asimmetria della distribuzione delle etichette
Perdita logaritmica
Media dei logaritmi Probabilità della classe target (fiducia)
Coefficiente di correlazione di Matthews
La qualità delle classificazioni binarie e multiclassifiche tenendo conto dei veri e falsi positivi e negativi
Errore medio assoluto
Media della differenza assoluta tra previsione del modello e il valore obiettivo
Errore percentuale assoluto medio
Misura la differenza percentuale media di errore tra i valori previsti e quelli effettivi
Errore quadratico medio
Media della differenza al quadrato tra la previsione del modello e il valore obiettivo
Coefficiente di correlazione di Pearson
Misura la relazione lineare tra la previsione del modello e i valori target.
Precisione
Percentuale di previsioni corrette nelle previsioni di classe positiva
Varianza spiegata dalla proporzione
Il rapporto tra varianza spiegata e varianza obiettivo. La varianza spiegata è la differenza tra la varianza obiettivo e la varianza di errore di previsione.
Richiamo
Percentuale di previsioni corrette nella classe positiva
Radice dell'errore quadratico medio
Radice quadrata della media della differenza quadratica tra previsione del modello e valore obiettivo.
R-quadrato
Rapporto tra la differenza tra la varianza target e la varianza per l'errore di previsione rispetto alla varianza target
coefficiente di correlazione di Spearman
Misura la monotonia del rapporto tra le previsioni del modello e i valori target.
Errore percentuale assoluto medio simmetrico
Misura la media simmetrica dell'errore percentuale di differenza tra i valori previsti e quelli effettivi
Tasso di veri positivi
Percentuale di previsioni corrette nelle previsioni di classe positiva
Tasso ponderato di falsi positivi
Percentuale di previsioni errate nella classe positiva
Misura F1 ponderata
Media ponderata di un F1-measure e con pesi pari alla probabilità di classe
Precisione ponderata
Media ponderata della precisione con pesi pari alla probabilità di classe
Richiamo ponderato
Media ponderata del ricordo con pesi uguali alla probabilità di classe