Metriche di valutazione

Ultimo aggiornamento: 27 mar 2025

Le metriche di valutazione possono aiutarvi a monitorare costantemente le prestazioni dei vostri modelli di IA per fornire approfondimenti durante l'intero ciclo di vita dell'IA. Con watsonx.governance è possibile utilizzare queste metriche per garantire la conformità ai requisiti normativi e identificare i miglioramenti da apportare per ridurre i rischi.

È possibile eseguire valutazioni in Watsonx.governance per generare metriche con monitoraggio automatico che possono fornire informazioni utili per raggiungere gli obiettivi di governance dell'IA. Queste metriche possono essere utilizzate per raggiungere i seguenti obiettivi:

Garantire la conformità : Traccia automaticamente l'aderenza alle normative in evoluzione e alle politiche organizzative, con avvisi che si attivano quando vengono violate le soglie.
Promuovere la trasparenza : Generare una documentazione dettagliata per fornire informazioni chiare sul comportamento del modello, sulle prestazioni e sulla spiegabilità dei risultati.
Mitigare i rischi : Individuare e risolvere problemi come la distorsione o la deriva dell'accuratezza attraverso una valutazione continua e valutazioni proattive del rischio.
Proteggere la privacy e la sicurezza : Monitorare le vulnerabilità della sicurezza, come l'esposizione di informazioni di identificazione personale (PII), e applicare le barriere di sicurezza per prevenire l'uso improprio dei dati sensibili.

Le metriche che si possono utilizzare per fornire informazioni sulle prestazioni del modello sono determinate dal tipo di valutazioni abilitate. Ogni tipo di valutazione genera metriche diverse che possono essere analizzate per ottenere informazioni.

Puoi anche usare il ibm-watsonx-gov Python SDK per calcolare le metriche in un ambiente di runtime notebook o scaricate come processi Spark su IBM Analytics Engine per le valutazioni. L'SDK ( Python ) è una libreria di strumenti ( Python ) che puoi utilizzare per monitorare, gestire e controllare programmaticamente i modelli di apprendimento automatico. Alcune metriche potrebbero essere disponibili solo con l'SDK di Python. Per ulteriori informazioni, vedere Metrics computation with the Python SDK.

Metriche di valutazione della deriva

Le metriche di valutazione della deriva possono aiutarvi a rilevare i cali di accuratezza e di coerenza dei dati nei vostri modelli per determinare quanto il vostro modello sia in grado di prevedere i risultati nel tempo. Watsonx.governance supporta le seguenti metriche di valutazione del drift per l'apprendimento automatico models.:

Tabella 1. Descrizioni delle metriche di valutazione della deriva
Metrica	Descrizione
Calo di accuratezza	Stima il calo di accuratezza del modello in fase di esecuzione rispetto ai dati di addestramento
Calo di congruenza dei dati	Confronta le transazioni in tempo reale con gli schemi delle transazioni nei dati di formazione per identificare le incoerenze

Metriche di valutazione della deriva v2

Le metriche di valutazione della deriva v2 possono aiutare a misurare le variazioni dei dati nel tempo per garantire risultati coerenti per il modello. È possibile utilizzare queste metriche per identificare i cambiamenti nell'output del modello, l'accuratezza delle previsioni e la distribuzione dei dati di input. Watsonx.governance supporta le seguenti metriche di deriva v2 :

Tabella 2. Descrizioni delle metriche di valutazione della deriva v2
Metrica	Descrizione
Deviazione funzione	Misura la variazione della distribuzione dei valori per le caratteristiche più importanti
Deviazione qualità modello	Confronta l'accuratezza di runtime stimata con l'accuratezza di addestramento per misurare il calo di accuratezza.
Deviazione output	Misura la variazione della distribuzione di fiducia del modello

Metriche di valutazione dell'equità

Le metriche di valutazione dell'equità possono aiutare a determinare se il modello produce risultati distorti. È possibile utilizzare queste metriche per identificare quando il modello mostra una tendenza a fornire risultati favorevoli più spesso per un gruppo rispetto a un altro. Watsonx.governance supporta le seguenti metriche di valutazione della correttezza:

Tabella 3. Descrizioni delle metriche di valutazione dell'equità
Metrica	Descrizione
Differenza odds assoluti media	Confronta la media delle differenze assolute nei tassi di falsi positivi e di veri positivi tra i gruppi monitorati e i gruppi di riferimento
Differenza odds media	Misura la differenza tra i tassi di falsi positivi e falsi negativi tra i gruppi monitorati e di riferimento
Impatto disparato	Confronta la percentuale di esiti favorevoli di un gruppo monitorato con la percentuale di esiti favorevoli di un gruppo di riferimento
Differenza tasso di errore	La percentuale di transazioni che vengono valutate in modo errato dal vostro modello
Differenza tasso di rilevamento falsi	La quantità di transazioni false positive come percentuale di tutte le transazioni con esito positivo
Differenza tasso di falsi negativi	La percentuale di transazioni positive che sono state erroneamente classificate come negative dal vostro modello
Differenza tasso di omissione falsi	Il numero di transazioni false negative come percentuale di tutte le transazioni con esito negativo
Differenza tasso di falsi positivi	La percentuale di transazioni negative che sono state erroneamente classificate come positive dal vostro modello.
Punteggio impatto	Confronta il tasso di selezione dei gruppi monitorati per ottenere risultati favorevoli con il tasso di selezione dei gruppi di riferimento per ottenere risultati favorevoli.
Differenza di parità statistica	Confronta la percentuale di esiti favorevoli dei gruppi monitorati con quella dei gruppi di riferimento.

Metriche di valutazione del modello di monitoraggio della salute

Le metriche di valutazione dello stato di salute del modello possono aiutare a comprendere il comportamento e le prestazioni del modello, determinando l'efficienza con cui la distribuzione del modello elabora le transazioni. Le metriche di valutazione dello stato di salute del modello sono abilitate per impostazione predefinita per le valutazioni dei modelli di apprendimento automatico in produzione. Watsonx.governance supporta le seguenti metriche di valutazione del modello di monitor sanitario:

Tabella 12. Descrizioni delle metriche di valutazione del monitor di salute del modello
Metrica	Descrizione
Dimensione payload	La dimensione totale, media, minima, massima e mediana del payload dei record di transazione che l'implementazione del modello elabora attraverso le richieste di scoring, in kilobyte (KB)
Record	Il numero totale, medio, minimo, massimo e mediano di record di transazione elaborati nelle richieste di scoring
Richieste di calcolo del punteggio	Il numero di richieste di punteggio che l'implementazione del modello riceve
Utenti	Il numero di utenti che inviano richieste di punteggio alle distribuzioni del modello

Throughput e latenza

Le valutazioni del modello di monitoraggio della salute calcolano la latenza monitorando il tempo necessario per elaborare le richieste di punteggio e i record delle transazioni per millisecondo (ms). La produttività viene calcolata monitorando il numero di richieste di incisione e di registrazioni di transazioni elaborate al secondo.

Le seguenti metriche sono calcolate per misurare il throughput e la latenza durante le valutazioni:

Tabella 12. Descrizioni delle metriche di throughput e latenza del modello di monitoraggio dello stato
Metrica	Descrizione
Latenza API	Tempo impiegato (in ms) per elaborare una richiesta di scoring da parte del tuo modello di distribuzione.
Portata API	Numero di richieste di registrazione elaborate dal tuo modello di distribuzione al secondo

Metriche di valutazione della qualità

Le valutazioni della qualità possono aiutarti a misurare la capacità del tuo modello di fornire risultati corretti in base alle sue prestazioni. Watsonx.governance supporta i seguenti parametri di valutazione della qualità:

Tabella 13. Descrizioni delle metriche di valutazione della qualità
Metrica	Descrizione
Accuratezza	Misura quanto siano corrette le previsioni del modello calcolando la proporzione di risultati corretti sul numero totale di risultati.
Area sotto la curva PR	Misura quanto bene il tuo modello è bilanciato, identificando correttamente le classi positive e trovando tutte le classi positive
Area sotto la curva ROC	Misura quanto bene il tuo modello identifica le differenze tra le classi.
Punteggio Brier	Misura la differenza media al quadrato tra la probabilità prevista e il valore target.
F1-Measure	Misure Media armonica di precisione e richiamo
Coefficiente di Gini	Misura la capacità dei modelli di distinguere tra due classi
Etichetta obliqua	Misura l'asimmetria della distribuzione delle etichette
Perdita logaritmica	Media dei logaritmi Probabilità della classe target (fiducia)
Coefficiente di correlazione di Matthews	La qualità delle classificazioni binarie e multiclassifiche tenendo conto dei veri e falsi positivi e negativi
Errore medio assoluto	Media della differenza assoluta tra previsione del modello e il valore obiettivo
Errore percentuale assoluto medio	Misura la differenza percentuale media di errore tra i valori previsti e quelli effettivi
Errore quadratico medio	Media della differenza al quadrato tra la previsione del modello e il valore obiettivo
Coefficiente di correlazione di Pearson	Misura la relazione lineare tra la previsione del modello e i valori target.
Precisione	Percentuale di previsioni corrette nelle previsioni di classe positiva
Varianza spiegata dalla proporzione	Il rapporto tra varianza spiegata e varianza obiettivo. La varianza spiegata è la differenza tra la varianza obiettivo e la varianza di errore di previsione.
Richiamo	Percentuale di previsioni corrette nella classe positiva
Radice dell'errore quadratico medio	Radice quadrata della media della differenza quadratica tra previsione del modello e valore obiettivo.
R-quadrato	Rapporto tra la differenza tra la varianza target e la varianza per l'errore di previsione rispetto alla varianza target
coefficiente di correlazione di Spearman	Misura la monotonia del rapporto tra le previsioni del modello e i valori target.
Errore percentuale assoluto medio simmetrico	Misura la media simmetrica dell'errore percentuale di differenza tra i valori previsti e quelli effettivi
Tasso di veri positivi	Percentuale di previsioni corrette nelle previsioni di classe positiva
Tasso ponderato di falsi positivi	Percentuale di previsioni errate nella classe positiva
Misura F1 ponderata	Media ponderata di un F1-measure e con pesi pari alla probabilità di classe
Precisione ponderata	Media ponderata della precisione con pesi pari alla probabilità di classe
Richiamo ponderato	Media ponderata del ricordo con pesi uguali alla probabilità di classe