È possibile configurare le valutazioni di Drift v2 per misurare le variazioni dei dati nel tempo e garantire risultati coerenti per il modello. Utilizzare le valutazioni di drift v2 per identificare i cambiamenti nell'output del modello, l'accuratezza delle previsioni e la distribuzione dei dati di input.
Le seguenti sezioni descrivono come configurare le valutazioni di deviazione v2 :
Configurazione delle valutazioni drift v2 per i modelli di apprendimento automatico
Se si registrano i dati del carico utile quando si preparano le valutazioni del modello, è possibile configurare le valutazioni drift v2 per i modelli di apprendimento automatico per capire come le modifiche dei dati influiscono sui risultati del modello.
Calcolare l'archivio di deviazione
È necessario scegliere il metodo da utilizzare per analizzare i dati di addestramento e determinare le distribuzioni dei dati delle caratteristiche del modello. Se si collegano i dati di allenamento e la loro dimensione è inferiore a 500 MB, si può scegliere di calcolare l'archivio drift v2.
Se non si collegano i dati di allenamento o se le dimensioni dei dati sono superiori a 500 MB, è necessario scegliere di calcolare l'archivio drift v2 in un notebook. È necessario calcolare anche l'archivio drift v2 nei notebook se si vogliono valutare modelli di immagini o di testo.
È possibile specificare un limite per le dimensioni dei dati di allenamento impostando le dimensioni massime dei campioni per la quantità di dati di allenamento utilizzati per il punteggio e il calcolo dell'archivio drift v2. Per le implementazioni non-watsonx.ai Runtime, l'elaborazione dell'archivio Drift v2 ha un costo associato allo scoring dei dati di training rispetto all'endpoint di scoring del modello.
Imposta soglie di deviazione
È necessario impostare valori di soglia per ogni metrica per identificare i problemi relativi ai risultati della valutazione. I valori impostati creano avvisi nel dashboard Insight che vengono visualizzati quando i punteggi delle metriche violano le soglie. È necessario impostare i valori compresi tra 0 e 1. I punteggi della metrica devono essere inferiori ai valori di soglia per evitare violazioni.
Selezionare funzioni importanti
Solo per i modelli tabulari, l'importanza delle caratteristiche viene calcolata per determinare l'impatto della deriva delle caratteristiche sul modello. Per calcolare l'importanza delle caratteristiche, è possibile selezionare le caratteristiche importanti e più importanti del modello che hanno il maggiore impatto sui risultati del modello.
Quando si configurano le spiegazioni di SHAP, le caratteristiche importanti vengono rilevate automaticamente utilizzando le spiegazioni globali.
Puoi anche caricare un elenco di funzionalità importanti caricando un file JSON. Vengono forniti degli snippet di esempio che possono essere utilizzati per caricare un file JSON. Per ulteriori informazioni, vedi Frammenti di importanza della funzione.
Imposta la dimensione del campione
Le dimensioni del campione sono utilizzate per capire come elaborare il numero di transazioni che vengono valutate durante le valutazioni. È necessario impostare una dimensione minima del campione per indicare il numero minimo di transazioni che si desidera valutare. È inoltre possibile impostare una dimensione massima del campione per indicare il numero massimo di transazioni che si desidera valutare.
Configurazione delle valutazioni di drift v2 per i modelli di IA generativa
Quando si valuta i modelli di prompt, è possibile esaminare un riepilogo dei risultati della valutazione della deviazione v2 per i seguenti tipi di attività:
- Riepilogo del testo
- Classificazione testo
- Generazione di contenuto
- Estrazione di entità
- Risposta alle domande
- Richiamo RAG (augmented Generation)
Imposta soglie di deviazione
Per configurare le valutazioni di deviazione v2 con le proprie impostazioni, è possibile impostare una dimensione di esempio minima e massima per ogni metrica. La dimensione minima o massima del campione indica il numero minimo o massimo di transazioni modello che si desidera valutare.
È inoltre possibile configurare i dati della baseline e impostare i valori di soglia per ogni metrica. I valori di soglia creano avvisi nella pagina di riepilogo della valutazione che apper quando i punteggi della metrica violano le soglie. È necessario impostare i valori compresi tra 0 e 1. I punteggi della metrica devono essere inferiori ai valori di soglia per evitare violazioni.
Calcolare l'archivio di deviazione
Watsonx.governance utilizza i record payload per definire la baseline per le valutazioni della deviazione v2 . È necessario configurare il numero di record che si desidera calcolare come dati di base. È possibile utilizzare un notebook per generare l'archivio dei dati della baseline v2 di deviazione per configurare le valutazioni.
Calcolo delle incorporazioni
Per calcolare le metriche di deriva dell'incorporazione, è necessario fornire le incorporazioni con i dati di prova. È possibile usare notebook per aiutare a generare e persistere gli embedding.
Metriche v2 di deviazione supportate
Quando si attivano le valutazioni drift v2 per i modelli di apprendimento automatico o di IA generativa, è possibile visualizzare un riepilogo dei risultati della valutazione con le metriche relative al tipo di modello che si sta valutando.
Se si stanno valutando modelli di apprendimento automatico, è possibile visualizzare i risultati delle valutazioni di Drift v2 nella dashboard Insights. Per ulteriori informazioni, vedere Revisione dei risultati del drift v2.
Le seguenti metriche sono supportate dalle valutazioni della deviazione v2 :
Deviazione dell'integrazione
La deriva dell'incorporazione rileva la percentuale di record che sono outlier rispetto ai dati di base.
- Come funziona: È necessario fornire gli embeddings con i dati di riferimento quando si attiva la metrica di deriva degli embeddings per generare i risultati della valutazione. Watsonx.governance costruisce un autocodificatore che elabora le incorporazioni nei dati di base e calcola metriche di distanza coseno ed euclidea predefinite per l'output del modello. Watsonx.governance identifica la distribuzione delle metriche di distanza per impostare una soglia per il rilevamento degli outlier e rileva la deriva se il valore della metrica di distanza è superiore alla soglia. Per i compiti RAG, le incorporazioni per tutte le colonne del contesto nel record del modello vengono combinate in un unico vettore per determinare la deriva.
- Fare i conti: Watsonx.governance utilizza le seguenti formule per calcolare la deriva di incorporazione:
- Modelli supportati: LLM
- Si Applica alle valutazioni del template di prompt: Sì
- Tipi di attività:
- Riepilogo del testo
- Classificazione testo
- Generazione di contenuto
- Estrazione di entità
- Risposta alle domande
- Richiamo RAG (augmented Generation)
- Tipi di attività:
Deviazione output
La deriva dell'output misura la variazione della distribuzione di fiducia del modello.
Come funziona
Viene misurata la quantità di variazioni dell'output del modello rispetto al momento dell'addestramento del modello stesso. Per i modelli di regressione, la deriva dell'uscita viene calcolata misurando la variazione della distribuzione delle previsioni sui dati di addestramento e sul carico utile. Per i modelli di classificazione, la deriva dell'output viene calcolata per ogni probabilità di classe misurando la variazione della distribuzione delle probabilità di classe sui dati di addestramento e di payload. Per i modelli di multiclassificazione, la deriva dell'output viene aggregata per ogni probabilità di classe misurando una media ponderata.Calcolo
Per calcolare la deriva dell'uscita si utilizzano le seguenti formule:Modelli supportati: apprendimento automatico tradizionale e LLM
Si Applica alle valutazioni del template di prompt: Sì
- Tipi di attività:
- Riepilogo del testo
- Classificazione testo
- Generazione di contenuto
- Estrazione di entità
- Risposta alle domande
- Tipi di attività:
Deviazione qualità modello
La deriva della qualità del modello confronta l'accuratezza stimata in fase di esecuzione con l'accuratezza di addestramento per misurare il calo di accuratezza.
- Come funziona:
Viene creato un modello di rilevamento della deriva che elabora i dati del carico utile quando si configurano le valutazioni della deriva v2 per prevedere se il modello genera previsioni accurate senza la verità di base. Il modello di rilevamento della deviazione utilizza le funzioni di input e le probabilità di classe del modello per creare le proprie funzioni di input.
- Eseguire le operazioni matematiche:
Per calcolare la deriva della qualità del modello si utilizza la seguente formula:
L'accuratezza del modello viene calcolata come base_accuracy
misurando la frazione di transazioni correttamente previste nei dati di addestramento. Durante le valutazioni, il punteggio delle transazioni viene calcolato rispetto al modello di rilevamento della deviazione per misurare la quantità di transazioni probabilmente previste correttamente dal modello. Queste transazioni vengono confrontate con il numero totale di transazioni elaborate per calcolare l'predicted_accuracy
. Se il valore predicted_accuracy
è inferiore al valore base_accuracy
, viene generato un punteggio di deriva della qualità del modello.
- Modelli supportati: apprendimento automatico tradizionale
- Si applica alle valutazioni del modello di prompt: No
Deviazione funzione
La deriva delle caratteristiche misura il cambiamento nella distribuzione dei valori delle caratteristiche importanti.
- Come funziona:
La deriva viene calcolata per le caratteristiche categoriali e numeriche misurando la distribuzione di probabilità dei valori continui e discreti. Per identificare i valori discreti delle caratteristiche numeriche, si utilizza un logaritmo binario per confrontare il numero di valori distinti di ciascuna caratteristica con il numero totale di valori di ciascuna caratteristica. La seguente formula del logaritmo binario viene utilizzata per identificare le caratteristiche numeriche discrete:
Se distinct_values_count
è inferiore al logaritmo binario di total_count
, la funzione viene identificata come discreta.
- Eseguire le operazioni matematiche:
Per calcolare la deriva delle caratteristiche si utilizzano le seguenti formule:
Modelli supportati: apprendimento automatico tradizionale
Si applica alle valutazioni del modello di prompt: No
Deviazione della previsione
La deviazione della previsione misura il cambiamento nella distribuzione delle classi previste LLM.
- Eseguire le operazioni matematiche:
Watsonx.governance utilizza la formula Distanza Shannon Jensen per calcolare la deviazione della previsione.
Si Applica alle valutazioni del template di prompt: Sì
- Tipi di attività: classificazione del testo
Modelli supportati: LLM
Deviazione dei metadati di input
La deviazione dei metadati di input misura la modifica nella distribuzione dei metadati di testo di input LLM.
Come funziona:
Watsonx.governance calcola i seguenti metadati con il testo di input LLM:
Conteggio caratteri: Numero totale di caratteri nel testo di input
Conteggio parole: Numero totale di parole nel testo di input
Conteggio token: Numero totale di token nel testo di input
Conteggio frasi: Numero totale di frasi nel testo di input
Lunghezza media parola: lunghezza media delle parole nel testo di input
Lunghezza totale parola: lunghezza totale delle parole nel testo di immissione
Lunghezza media frase: lunghezza media delle frasi nel testo di immissioneWatsonx.governance calcola la deviazione dei dati di input misurando la modifica nella distribuzione delle colonne di metadati. La colonna conteggio token di input, se presente nel payload, viene utilizzata anche per calcolare la deviazione dei metadati di input. È anche possibile scegliere di specificare qualsiasi meta - campo durante l'aggiunta di record alla tabella payload. Questi metadati vengono utilizzati anche per calcolare la deviazione dei metadati di input. Per identificare le colonne di metadati di input numerici discreti, watsonx.governance utilizza la seguente formula logaritmica binaria:
Se
distinct_values_count
è inferiore al logaritmo binario ditotal_count
, la funzione viene identificata come discreta.Per colonne di metadati di input discreti, watsonx.governance utilizza la formula Jensen Shannon distance per calcolare la deviazione dei metadati di input.
Per le colonne di metadati di input continui, watsonx.governance utilizza le formule distanza variazione totale e coefficiente di sovrapposizione per calcolare la deviazione dei metadati di input.
Si Applica alle valutazioni del template di prompt: Sì
- Tipi di attività:
- Riepilogo del testo
- Classificazione testo
- Generazione di contenuto
- Estrazione di entità
- Risposta alle domande
- Tipi di attività:
Modelli supportati: LLM
Deviazione dei metadati di output
La deviazione dei metadati di output misura la modifica nella distribuzione dei metadati di output LLM.
Come funziona:
Watsonx.governance calcola i seguenti metadati con il testo di output LLM:
Conteggio caratteri: Numero totale di caratteri nel testo di output
Conteggio parole: Numero totale di parole nel testo di output
Conteggio token: Numero totale di token nel testo di output
Conteggio frasi: Numero totale di frasi nel testo di output
Lunghezza media parola: lunghezza media delle parole nel testo di output
Lunghezza media frase: lunghezza media delle frasi nel testo di output
Lunghezza totale parola: lunghezza totale delle parole nel testo di outputWatsonx.governance calcola la deviazione dei metadati di output misurando la modifica nella distribuzione delle colonne di metadati. La colonna conteggio token di output, se presente nel payload, viene utilizzata anche per calcolare la deviazione dei metadati di output. È anche possibile scegliere di specificare qualsiasi meta - campo durante l'aggiunta di record alla tabella payload. Questi metadati vengono utilizzati anche per calcolare la deviazione dei metadati di output. Per identificare le colonne di metadati di output numerici discreti, watsonx.governance usa la seguente formula logaritmica binaria:
Se
distinct_values_count
è inferiore al logaritmo binario ditotal_count
, la funzione viene identificata come discreta.Per le colonne di metadati di output discreti, watsonx.governance utilizza la formula Jensen Shannon distance per calcolare la deviazione dei metadati di input.
Per le colonne di metadati di output continui, watsonx.governance utilizza le formule distanza variazione totale e coefficiente di sovrapposizione per calcolare la deviazione dei dati di output:
Si Applica alle valutazioni del template di prompt: Sì
- Tipi di attività:
- Riepilogo del testo
- Classificazione testo
- Generazione di contenuto
- Risposta alle domande
- Tipi di attività:
Modelli supportati: LLM
Le seguenti formule vengono utilizzate per calcolare le metriche di valutazione della deviazione v2 :
Distanza di variazione totale
La distanza di variazione totale misura la differenza massima tra le probabilità che due distribuzioni di probabilità, baseline (B) e produzione (P), assegnano alla stessa transazione come mostrato nella seguente formula:
Se le due distribuzioni sono uguali, la distanza di variazione totale tra loro diventa 0.
La seguente formula viene utilizzata per calcolare la distanza di variazione totale:
𝑥 è una serie di campioni equidistanti che coprono il dominio di che va dal minimo combinato dei dati di base e di produzione al massimo combinato dei dati di base e di produzione.
è la differenza tra due campioni 𝑥 consecutivi.
è il valore della funzione di densità per i dati di produzione in un campione 𝑥.
è il valore della funzione di densità per i dati di base per un campione 𝑥.
Il denominatore rappresenta l'area totale sotto i grafici della funzione di densità per la produzione e i dati di base. Queste sommazioni sono un'approssimazione delle integrazioni nello spazio di dominio ed entrambi i termini devono essere 1 e il totale deve essere 2.
Coefficiente di sovrapposizione
Il coefficiente di sovrapposizione viene calcolato misurando l'area totale dell'intersezione tra due distribuzioni di probabilità. Per misurare la dissimilarità tra le distribuzioni, l'intersezione o l'area di sovrapposizione viene sottratta da 1 per calcolare la quantità di deviazione. La seguente formula viene utilizzata per calcolare il coefficiente di sovrapposizione:
𝑥 è una serie di campioni equidistanti che coprono il dominio di che va dal minimo combinato dei dati di base e di produzione al massimo combinato dei dati di base e di produzione.
è la differenza tra due campioni 𝑥 consecutivi.
è il valore della funzione di densità per i dati di produzione in un campione 𝑥.
è il valore della funzione di densità per i dati di base per un campione 𝑥.
Distanza di Jensen Shannon
La distanza di Jensen Shannon è la forma normalizzata della Divergenza di Kullback-Leibler (KL) che misura quanto una distribuzione di probabilità differisca dalla seconda distribuzione di probabillità. La distanza di Jensen Shannon è un punteggio simmetrico e ha sempre un valore finito.
La seguente formula viene utilizzata per calcolare la distanza di Jensen Shannon per due distribuzioni di probabilità, baseline (B) e produzione (P):
è la divergenza KL.
Distanza del coseno
La distanza coseno misura la differenza tra i vettori di incorporamento. Per misurare la distanza del coseno si utilizza la seguente formula:
La distanza del coseno varia da 0, che indica vettori identici, a 1, che indica assenza di correlazione tra i vettori, a 2, che indica vettori opposti.
distanza euclidea
La distanza euclidea è la distanza più breve tra i vettori di incorporamento nello spazio euclideo. Per misurare la distanza euclidea si utilizza la seguente formula:
La distanza euclidea varia da 0, che indica vettori completamente identici, a infinito. Tuttavia, per i vettori normalizzati in modo da avere lunghezza unitaria, la massima distanza euclidea è la .
Argomento principale Configurazione delle valutazioni del modello