Metriche di valutazione
Le metriche di valutazione possono aiutarvi a monitorare costantemente le prestazioni dei vostri modelli di IA per fornire approfondimenti durante l'intero ciclo di vita dell'IA. Con watsonx.governance è possibile utilizzare queste metriche per garantire la conformità ai requisiti normativi e identificare i miglioramenti da apportare per ridurre i rischi.
È possibile eseguire valutazioni in Watsonx.governance per generare metriche con monitoraggio automatico che possono fornire informazioni utili per raggiungere gli obiettivi di governance dell'IA. Queste metriche possono essere utilizzate per raggiungere i seguenti obiettivi:
- Garantire la conformità : Traccia automaticamente l'aderenza alle normative in evoluzione e alle politiche organizzative, con avvisi che si attivano quando vengono violate le soglie.
- Promuovere la trasparenza : Generare una documentazione dettagliata per fornire informazioni chiare sul comportamento del modello, sulle prestazioni e sulla spiegabilità dei risultati.
- Mitigare i rischi : Individuare e risolvere problemi come la distorsione o la deriva dell'accuratezza attraverso una valutazione continua e valutazioni proattive del rischio.
- Proteggere la privacy e la sicurezza : Monitorare le vulnerabilità della sicurezza, come l'esposizione di informazioni di identificazione personale (PII), e applicare le barriere di sicurezza per prevenire l'uso improprio dei dati sensibili.
Le metriche che si possono utilizzare per fornire informazioni sulle prestazioni del modello sono determinate dal tipo di valutazioni abilitate. Ogni tipo di valutazione genera metriche diverse che possono essere analizzate per ottenere informazioni.
Puoi anche usare il
Python SDK per calcolare le metriche in un ambiente di runtime notebook o scaricate come processi Spark su IBM Analytics Engine per le valutazioni. L'SDK ( Python ) è una libreria di strumenti ( Python ) che puoi utilizzare per monitorare, gestire e controllare programmaticamente i modelli di apprendimento automatico. Alcune metriche potrebbero essere disponibili solo con l'SDK di Python. Per ulteriori informazioni, vedere Metrics computation with the Python SDK.ibm-watsonx-gov
Metriche di valutazione della deriva
Le metriche di valutazione della deriva possono aiutarvi a rilevare i cali di accuratezza e di coerenza dei dati nei vostri modelli per determinare quanto il vostro modello sia in grado di prevedere i risultati nel tempo. Watsonx.governance supporta le seguenti metriche di valutazione del drift per l'apprendimento automatico models.:
Metrica | Descrizione |
---|---|
Calo di accuratezza | Stima il calo di accuratezza del modello in fase di esecuzione rispetto ai dati di addestramento |
Calo di congruenza dei dati | Confronta le transazioni in tempo reale con gli schemi delle transazioni nei dati di formazione per identificare le incoerenze |
Metriche di valutazione della deriva v2
Le metriche di valutazione della deriva v2 possono aiutare a misurare le variazioni dei dati nel tempo per garantire risultati coerenti per il modello. È possibile utilizzare queste metriche per identificare i cambiamenti nell'output del modello, l'accuratezza delle previsioni e la distribuzione dei dati di input. Watsonx.governance supporta le seguenti metriche di deriva v2 :
Metrica | Descrizione |
---|---|
Deviazione funzione | Misura la variazione della distribuzione dei valori per le caratteristiche più importanti |
Deviazione qualità modello | Confronta l'accuratezza di runtime stimata con l'accuratezza di addestramento per misurare il calo di accuratezza. |
Deviazione output | Misura la variazione della distribuzione di fiducia del modello |
Metriche di valutazione dell'equità
Le metriche di valutazione dell'equità possono aiutare a determinare se il modello produce risultati distorti. È possibile utilizzare queste metriche per identificare quando il modello mostra una tendenza a fornire risultati favorevoli più spesso per un gruppo rispetto a un altro. Watsonx.governance supporta le seguenti metriche di valutazione della correttezza:
Metrica | Descrizione |
---|---|
Differenza odds assoluti media | Confronta la media delle differenze assolute nei tassi di falsi positivi e di veri positivi tra i gruppi monitorati e i gruppi di riferimento |
Differenza odds media | Misura la differenza tra i tassi di falsi positivi e falsi negativi tra i gruppi monitorati e di riferimento |
Impatto disparato | Confronta la percentuale di esiti favorevoli di un gruppo monitorato con la percentuale di esiti favorevoli di un gruppo di riferimento |
Differenza tasso di errore | La percentuale di transazioni che vengono valutate in modo errato dal vostro modello |
Differenza tasso di rilevamento falsi | La quantità di transazioni false positive come percentuale di tutte le transazioni con esito positivo |
Differenza tasso di falsi negativi | La percentuale di transazioni positive che sono state erroneamente classificate come negative dal vostro modello |
Differenza tasso di omissione falsi | Il numero di transazioni false negative come percentuale di tutte le transazioni con esito negativo |
Differenza tasso di falsi positivi | La percentuale di transazioni negative che sono state erroneamente classificate come positive dal vostro modello. |
Punteggio impatto | Confronta il tasso di selezione dei gruppi monitorati per ottenere risultati favorevoli con il tasso di selezione dei gruppi di riferimento per ottenere risultati favorevoli. |
Differenza di parità statistica | Confronta la percentuale di esiti favorevoli dei gruppi monitorati con quella dei gruppi di riferimento. |
Metriche di valutazione del modello di monitoraggio della salute
Le metriche di valutazione dello stato di salute del modello possono aiutare a comprendere il comportamento e le prestazioni del modello, determinando l'efficienza con cui la distribuzione del modello elabora le transazioni. Le metriche di valutazione dello stato di salute del modello sono abilitate per impostazione predefinita per le valutazioni dei modelli di apprendimento automatico in produzione. Watsonx.governance supporta le seguenti metriche di valutazione del modello di monitor sanitario:
Metrica | Descrizione |
---|---|
Dimensione payload | La dimensione totale, media, minima, massima e mediana del payload dei record di transazione che l'implementazione del modello elabora attraverso le richieste di scoring, in kilobyte (KB) |
Record | Il numero totale, medio, minimo, massimo e mediano di record di transazione elaborati nelle richieste di scoring |
Richieste di calcolo del punteggio | Il numero di richieste di punteggio che l'implementazione del modello riceve |
Utenti | Il numero di utenti che inviano richieste di punteggio alle distribuzioni del modello |
Throughput e latenza
Le valutazioni del modello di monitoraggio della salute calcolano la latenza monitorando il tempo necessario per elaborare le richieste di punteggio e i record delle transazioni per millisecondo (ms). La produttività viene calcolata monitorando il numero di richieste di incisione e di registrazioni di transazioni elaborate al secondo.
Le seguenti metriche sono calcolate per misurare il throughput e la latenza durante le valutazioni:
Metrica | Descrizione |
---|---|
Latenza API | Tempo impiegato (in ms) per elaborare una richiesta di scoring da parte del tuo modello di distribuzione. |
Portata API | Numero di richieste di registrazione elaborate dal tuo modello di distribuzione al secondo |
Metriche di valutazione della qualità
Le valutazioni della qualità possono aiutarti a misurare la capacità del tuo modello di fornire risultati corretti in base alle sue prestazioni. Watsonx.governance supporta i seguenti parametri di valutazione della qualità:
Metrica | Descrizione |
---|---|
Accuratezza | Misura quanto siano corrette le previsioni del modello calcolando la proporzione di risultati corretti sul numero totale di risultati. |
Area sotto la curva PR | Misura quanto bene il tuo modello è bilanciato, identificando correttamente le classi positive e trovando tutte le classi positive |
Area sotto la curva ROC | Misura quanto bene il tuo modello identifica le differenze tra le classi. |
Punteggio Brier | Misura la differenza media al quadrato tra la probabilità prevista e il valore target. |
F1-Measure | Misure Media armonica di precisione e richiamo |
Coefficiente di Gini | Misura la capacità dei modelli di distinguere tra due classi |
Etichetta obliqua | Misura l'asimmetria della distribuzione delle etichette |
Perdita logaritmica | Media dei logaritmi Probabilità della classe target (fiducia) |
Coefficiente di correlazione di Matthews | La qualità delle classificazioni binarie e multiclassifiche tenendo conto dei veri e falsi positivi e negativi |
Errore medio assoluto | Media della differenza assoluta tra previsione del modello e il valore obiettivo |
Errore percentuale assoluto medio | Misura la differenza percentuale media di errore tra i valori previsti e quelli effettivi |
Errore quadratico medio | Media della differenza al quadrato tra la previsione del modello e il valore obiettivo |
Coefficiente di correlazione di Pearson | Misura la relazione lineare tra la previsione del modello e i valori target. |
Precisione | Percentuale di previsioni corrette nelle previsioni di classe positiva |
Varianza spiegata dalla proporzione | Il rapporto tra varianza spiegata e varianza obiettivo. La varianza spiegata è la differenza tra la varianza obiettivo e la varianza di errore di previsione. |
Richiamo | Percentuale di previsioni corrette nella classe positiva |
Radice dell'errore quadratico medio | Radice quadrata della media della differenza quadratica tra previsione del modello e valore obiettivo. |
R-quadrato | Rapporto tra la differenza tra la varianza target e la varianza per l'errore di previsione rispetto alla varianza target |
coefficiente di correlazione di Spearman | Misura la monotonia del rapporto tra le previsioni del modello e i valori target. |
Errore percentuale assoluto medio simmetrico | Misura la media simmetrica dell'errore percentuale di differenza tra i valori previsti e quelli effettivi |
Tasso di veri positivi | Percentuale di previsioni corrette nelle previsioni di classe positiva |
Tasso ponderato di falsi positivi | Percentuale di previsioni errate nella classe positiva |
Misura F1 ponderata | Media ponderata di un F1-measure e con pesi pari alla probabilità di classe |
Precisione ponderata | Media ponderata della precisione con pesi pari alla probabilità di classe |
Richiamo ponderato | Media ponderata del ricordo con pesi uguali alla probabilità di classe |
Argomento principale: Valutazione dei modelli di IA