Metriche di valutazione

Ultimo aggiornamento: 27 mar 2025
Metriche di valutazione

Le metriche di valutazione possono aiutarvi a monitorare costantemente le prestazioni dei vostri modelli di IA per fornire approfondimenti durante l'intero ciclo di vita dell'IA. Con watsonx.governance è possibile utilizzare queste metriche per garantire la conformità ai requisiti normativi e identificare i miglioramenti da apportare per ridurre i rischi.

È possibile eseguire valutazioni in Watsonx.governance per generare metriche con monitoraggio automatico che possono fornire informazioni utili per raggiungere gli obiettivi di governance dell'IA. Queste metriche possono essere utilizzate per raggiungere i seguenti obiettivi:

  • Garantire la conformità : Traccia automaticamente l'aderenza alle normative in evoluzione e alle politiche organizzative, con avvisi che si attivano quando vengono violate le soglie.
  • Promuovere la trasparenza : Generare una documentazione dettagliata per fornire informazioni chiare sul comportamento del modello, sulle prestazioni e sulla spiegabilità dei risultati.
  • Mitigare i rischi : Individuare e risolvere problemi come la distorsione o la deriva dell'accuratezza attraverso una valutazione continua e valutazioni proattive del rischio.
  • Proteggere la privacy e la sicurezza : Monitorare le vulnerabilità della sicurezza, come l'esposizione di informazioni di identificazione personale (PII), e applicare le barriere di sicurezza per prevenire l'uso improprio dei dati sensibili.

Le metriche che si possono utilizzare per fornire informazioni sulle prestazioni del modello sono determinate dal tipo di valutazioni abilitate. Ogni tipo di valutazione genera metriche diverse che possono essere analizzate per ottenere informazioni.

Puoi anche usare il ibm-watsonx-gov Python SDK per calcolare le metriche in un ambiente di runtime notebook o scaricate come processi Spark su IBM Analytics Engine per le valutazioni. L'SDK ( Python ) è una libreria di strumenti ( Python ) che puoi utilizzare per monitorare, gestire e controllare programmaticamente i modelli di apprendimento automatico. Alcune metriche potrebbero essere disponibili solo con l'SDK di Python. Per ulteriori informazioni, vedere Metrics computation with the Python SDK.

Metriche di valutazione della deriva

Le metriche di valutazione della deriva possono aiutarvi a rilevare i cali di accuratezza e di coerenza dei dati nei vostri modelli per determinare quanto il vostro modello sia in grado di prevedere i risultati nel tempo. Watsonx.governance supporta le seguenti metriche di valutazione del drift per l'apprendimento automatico models.:

Tabella 1. Descrizioni delle metriche di valutazione della deriva
Metrica Descrizione
Calo di accuratezza Stima il calo di accuratezza del modello in fase di esecuzione rispetto ai dati di addestramento
Calo di congruenza dei dati Confronta le transazioni in tempo reale con gli schemi delle transazioni nei dati di formazione per identificare le incoerenze

Metriche di valutazione della deriva v2

Le metriche di valutazione della deriva v2 possono aiutare a misurare le variazioni dei dati nel tempo per garantire risultati coerenti per il modello. È possibile utilizzare queste metriche per identificare i cambiamenti nell'output del modello, l'accuratezza delle previsioni e la distribuzione dei dati di input. Watsonx.governance supporta le seguenti metriche di deriva v2 :

Tabella 2. Descrizioni delle metriche di valutazione della deriva v2
Metrica Descrizione
Deviazione funzione Misura la variazione della distribuzione dei valori per le caratteristiche più importanti
Deviazione qualità modello Confronta l'accuratezza di runtime stimata con l'accuratezza di addestramento per misurare il calo di accuratezza.
Deviazione output Misura la variazione della distribuzione di fiducia del modello

Metriche di valutazione dell'equità

Le metriche di valutazione dell'equità possono aiutare a determinare se il modello produce risultati distorti. È possibile utilizzare queste metriche per identificare quando il modello mostra una tendenza a fornire risultati favorevoli più spesso per un gruppo rispetto a un altro. Watsonx.governance supporta le seguenti metriche di valutazione della correttezza:

Tabella 3. Descrizioni delle metriche di valutazione dell'equità
Metrica Descrizione
Differenza odds assoluti media Confronta la media delle differenze assolute nei tassi di falsi positivi e di veri positivi tra i gruppi monitorati e i gruppi di riferimento
Differenza odds media Misura la differenza tra i tassi di falsi positivi e falsi negativi tra i gruppi monitorati e di riferimento
Impatto disparato Confronta la percentuale di esiti favorevoli di un gruppo monitorato con la percentuale di esiti favorevoli di un gruppo di riferimento
Differenza tasso di errore La percentuale di transazioni che vengono valutate in modo errato dal vostro modello
Differenza tasso di rilevamento falsi La quantità di transazioni false positive come percentuale di tutte le transazioni con esito positivo
Differenza tasso di falsi negativi La percentuale di transazioni positive che sono state erroneamente classificate come negative dal vostro modello
Differenza tasso di omissione falsi Il numero di transazioni false negative come percentuale di tutte le transazioni con esito negativo
Differenza tasso di falsi positivi La percentuale di transazioni negative che sono state erroneamente classificate come positive dal vostro modello.
Punteggio impatto Confronta il tasso di selezione dei gruppi monitorati per ottenere risultati favorevoli con il tasso di selezione dei gruppi di riferimento per ottenere risultati favorevoli.
Differenza di parità statistica Confronta la percentuale di esiti favorevoli dei gruppi monitorati con quella dei gruppi di riferimento.

Metriche di valutazione del modello di monitoraggio della salute

Le metriche di valutazione dello stato di salute del modello possono aiutare a comprendere il comportamento e le prestazioni del modello, determinando l'efficienza con cui la distribuzione del modello elabora le transazioni. Le metriche di valutazione dello stato di salute del modello sono abilitate per impostazione predefinita per le valutazioni dei modelli di apprendimento automatico in produzione. Watsonx.governance supporta le seguenti metriche di valutazione del modello di monitor sanitario:

Tabella 12. Descrizioni delle metriche di valutazione del monitor di salute del modello
Metrica Descrizione
Dimensione payload La dimensione totale, media, minima, massima e mediana del payload dei record di transazione che l'implementazione del modello elabora attraverso le richieste di scoring, in kilobyte (KB)
Record Il numero totale, medio, minimo, massimo e mediano di record di transazione elaborati nelle richieste di scoring
Richieste di calcolo del punteggio Il numero di richieste di punteggio che l'implementazione del modello riceve
Utenti Il numero di utenti che inviano richieste di punteggio alle distribuzioni del modello

Throughput e latenza

Le valutazioni del modello di monitoraggio della salute calcolano la latenza monitorando il tempo necessario per elaborare le richieste di punteggio e i record delle transazioni per millisecondo (ms). La produttività viene calcolata monitorando il numero di richieste di incisione e di registrazioni di transazioni elaborate al secondo.

Le seguenti metriche sono calcolate per misurare il throughput e la latenza durante le valutazioni:

Tabella 12. Descrizioni delle metriche di throughput e latenza del modello di monitoraggio dello stato
Metrica Descrizione
Latenza API Tempo impiegato (in ms) per elaborare una richiesta di scoring da parte del tuo modello di distribuzione.
Portata API Numero di richieste di registrazione elaborate dal tuo modello di distribuzione al secondo

Metriche di valutazione della qualità

Le valutazioni della qualità possono aiutarti a misurare la capacità del tuo modello di fornire risultati corretti in base alle sue prestazioni. Watsonx.governance supporta i seguenti parametri di valutazione della qualità:

Tabella 13. Descrizioni delle metriche di valutazione della qualità
Metrica Descrizione
Accuratezza Misura quanto siano corrette le previsioni del modello calcolando la proporzione di risultati corretti sul numero totale di risultati.
Area sotto la curva PR Misura quanto bene il tuo modello è bilanciato, identificando correttamente le classi positive e trovando tutte le classi positive
Area sotto la curva ROC Misura quanto bene il tuo modello identifica le differenze tra le classi.
Punteggio Brier Misura la differenza media al quadrato tra la probabilità prevista e il valore target.
F1-Measure Misure Media armonica di precisione e richiamo
Coefficiente di Gini Misura la capacità dei modelli di distinguere tra due classi
Etichetta obliqua Misura l'asimmetria della distribuzione delle etichette
Perdita logaritmica Media dei logaritmi Probabilità della classe target (fiducia)
Coefficiente di correlazione di Matthews La qualità delle classificazioni binarie e multiclassifiche tenendo conto dei veri e falsi positivi e negativi
Errore medio assoluto Media della differenza assoluta tra previsione del modello e il valore obiettivo
Errore percentuale assoluto medio Misura la differenza percentuale media di errore tra i valori previsti e quelli effettivi
Errore quadratico medio Media della differenza al quadrato tra la previsione del modello e il valore obiettivo
Coefficiente di correlazione di Pearson Misura la relazione lineare tra la previsione del modello e i valori target.
Precisione Percentuale di previsioni corrette nelle previsioni di classe positiva
Varianza spiegata dalla proporzione Il rapporto tra varianza spiegata e varianza obiettivo. La varianza spiegata è la differenza tra la varianza obiettivo e la varianza di errore di previsione.
Richiamo Percentuale di previsioni corrette nella classe positiva
Radice dell'errore quadratico medio Radice quadrata della media della differenza quadratica tra previsione del modello e valore obiettivo.
R-quadrato Rapporto tra la differenza tra la varianza target e la varianza per l'errore di previsione rispetto alla varianza target
coefficiente di correlazione di Spearman Misura la monotonia del rapporto tra le previsioni del modello e i valori target.
Errore percentuale assoluto medio simmetrico Misura la media simmetrica dell'errore percentuale di differenza tra i valori previsti e quelli effettivi
Tasso di veri positivi Percentuale di previsioni corrette nelle previsioni di classe positiva
Tasso ponderato di falsi positivi Percentuale di previsioni errate nella classe positiva
Misura F1 ponderata Media ponderata di un F1-measure e con pesi pari alla probabilità di classe
Precisione ponderata Media ponderata della precisione con pesi pari alla probabilità di classe
Richiamo ponderato Media ponderata del ricordo con pesi uguali alla probabilità di classe

Argomento principale: Valutazione dei modelli di IA