È possibile configurare le valutazioni della qualità per misurare la capacità del modello di fornire risultati corretti in base alle sue prestazioni.
Le valutazioni della qualità misurano la capacità del modello di prevedere risultati accurati, identificando i casi in cui la qualità del modello diminuisce, in modo da poter riqualificare il modello in modo appropriato. Per valutare il modello, fornisci i dati di feedback, ovvero i dati etichettati in cui è noto il risultato. Le valutazioni della qualità utilizzano le metriche per valutare il modo in cui il modello prevede il risultato che corrisponde ai risultati effettivi nell'insieme di dati etichettato.
Le sezioni seguenti descrivono come configurare le valutazioni di qualità:
Configurazione delle valutazioni di qualità per i modelli di apprendimento automatico
Copy link to section
Prima di iniziare: fornire i dati di feedback
Copy link to section
I dati di feedback sono come fornire un foglio di risposta con i risultati effettivamente osservati. Il monitor può eseguire il modello come se le risposte non fossero note, quindi confrontare i risultati previsti con i risultati effettivi e fornire punteggi di precisione basati sulle metriche di qualità.
Per fornire i dati di feedback che verranno utilizzati per valutare il modello, fare clic sulla pagina Endpoint ed effettuare una delle seguenti operazioni:
Fare clic su Carica dati di feedback e caricare un file con dati etichettati.
Fare clic sulla scheda Endpoint e specificare un endpoint che si connette all'origine dati di feedback.
Dopo che i dati di feedback sono disponibili per la valutazione, configurare le impostazioni di monitoraggio. Le soglie per le prestazioni accettabili per il modello vengono impostate rispetto ai risultati noti.
Per impostare i valori di soglia, dalla scheda Qualità , fare clic sull'icona Modifica per immettere i valori per la casella Soglia qualità , quindi modificare i valori per la dimensione del campione.
Soglia di avviso della qualità
Copy link to section
Selezionare un valore che rappresenti un livello di accuratezza accettabile. Ad esempio, nel Modello di rischio di credito tedesco di esempio fornito con la configurazione automatica, l'avviso per la metrica Area sotto ROC è impostato su 95%. Se la qualità misurata per il modello scende al di sotto di tale valore, viene attivato un avviso. Un valore tipico per Area sotto ROC è l'80%.
Dimensioni minime e massime del campione
Copy link to section
Impostando una dimensione minima del campione, si preveniene la misurazione della qualità fino a quando non sia disponibile un numero minimo di record nel dataset di valutazione. Ciò garantisce che la dimensione del campione non sia troppo piccola per l'asimmetria dei risultati. A ogni esecuzione del controllo di qualità, viene utilizzata la dimensione minima del campione per decidere il numero di record in base al quale eseguire il calcolo delle metriche di qualità.
La dimensione massima del campione consente di gestire al meglio il tempo e le risorse richieste per valutare il dataset. Se questa dimensione viene superata, vengono valutati solo i record più recenti. Ad esempio, nel campione Modello di rischio di credito tedesco , la dimensione minima del campione è impostata su 50 e non è specificata alcuna dimensione massima poiché si tratta di un campione di piccole dimensioni.
Configurazione delle valutazioni di qualità per i modelli di IA generativa
Copy link to section
Quando si valutano i modelli di prompt, è possibile esaminare un riepilogo dei risultati della valutazione della qualità per il tipo di attività di classificazione del testo.
Il riepilogo visualizza i punteggi e violazioni per le metriche calcolate con le impostazioni predefinite.
Per configurare le valutazioni di qualità con le proprie impostazioni, è possibile impostare una dimensione di esempio minima e impostare valori di soglia per ogni metrica. La dimensione minima del campione indica il numero minimo di record di transazione del modello che si desidera valutare e i valori di soglia creano avvisi quando i punteggi della metrica violano le soglie. I punteggi della metrica devono essere superiori ai valori di soglia per evitare violazioni. Valori di metrica più elevati indicano punteggi migliori.
Metriche di qualità supportate
Copy link to section
Lingue supportate: Solo inglese
Quando si abilita la valutazione della qualità, è possibile generare metriche che aiutano a determinare la bontà del modello nel prevedere i risultati. I valori impostati come soglie della metrica determinano il modo in cui è possibile interpretare i punteggi della metrica. Per le metriche configurate con soglie più basse, punteggi più elevati indicano risultati migliori. Per le metriche configurate con soglie superiori, i punteggi inferiori indicano risultati migliori.
Le valutazioni di qualità generano le seguenti metriche:
Area sotto la curva ROC
Copy link to section
Modelli supportati: Apprendimento automatico
Descrizione: Area sotto la curva di richiamo e tasso di falsi positivi per calcolare la sensibilità rispetto al tasso di fallout
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Area sotto la curva PR
Copy link to section
Modelli supportati: Apprendimento automatico
Descrizione: l'area sotto la curva di precisione e richiamo
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:
L'area sotto Richiamo precisione fornisce il totale per entrambi Precision + Recall.
n
AveP = ∑ P(k)∆r(k)
k=1
Copy to clipboardCopiato negli appunti
La precisione (P) è definita come il numero di veri positivi (Tp) rispetto al numero di veri positivi più il numero di falsi positivi (Fp).
number of true positives
Precision = ______________________________________________________
(number of true positives + number of false positives)
Copy to clipboardCopiato negli appunti
Il richiamo (R) è definito come il numero di veri positivi (Tp) sul numero di veri positivi più il numero di falsi negativi (Fn).
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
Copy to clipboardCopiato negli appunti
Accuratezza
Copy link to section
Modelli supportati: Apprendimento automatico e IA generativa
Descrizione: la proporzione di previsioni corrette
Soglie predefinite: limite inferiore = 80%
Tipi di problema: classificazione binaria e classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Comprensione dell'accuratezza: l'accuratezza può significare cose differenti a seconda del tipo di algoritmo;
Classificazione multi-classe: l'accuratezza misura il numero di volte in cui una qualsiasi classe è stata prevista correttamente, normalizzata per il numero di punti di dati. Per ulteriori dettagli, vedi Multi - class classification nella documentazione di Apache Spark .
Classificazione binaria: per un algoritmo di classificazione binaria, l'accuratezza è misurata come l'area sotto una curva di ROC. Per ulteriori dettagli, vedi Classificazione binaria nella documentazione di Apache Spark .
Regressione: gli algoritmi di regressione vengono misurati utilizzando il coefficiente di determinazione o R2. Per ulteriori dettagli, vedi Valutazione del modello di regressione nella documentazione Apache Spark .
Tasso di veri positivi
Copy link to section
Modelli supportati: Apprendimento automatico
Descrizione: la proporzione delle previsioni corrette nelle previsioni della classe dei positivi
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:
Il tasso di veri positivi è calcolato con la formula seguente:
number of true positives
TPR = _________________________________________________________
(number of true positives + number of false negatives)
Copy to clipboardCopiato negli appunti
Tasso di falsi positivi
Copy link to section
Modelli supportati: Apprendimento automatico
Descrizione: la proporzione di previsioni errate nella classe dei positivi
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:
La percentuale di falsi positivi è il quoziente del numero totale di falsi positivi diviso per la somma dei falsi positivi e dei veri negativi.
number of false positives
False positive rate = ______________________________________________________
(number of false positives + number of true negatives)
Copy to clipboardCopiato negli appunti
Punteggio Brier
Copy link to section
Modelli supportati: Apprendimento automatico
Descrizione: misura la differenza quadratica media tra la probabilità prevista e il valore di destinazione. Punteggi più elevati indicano che le probabilità previste del modello non corrispondono al valore di destinazione.
Soglie predefinite:
Limite superiore= 80%
Tipo di problema: classificazione binaria
Eseguire le operazioni matematiche:
La metrica del punteggio più alto viene calcolata con la seguente formula:
BrierScore = 1/N * sum( (p - y)^2 )
Where y = actual outcome, and p = predicted probability
Coefficiente Gini
Copy link to section
Modelli supportati: Apprendimento automatico
Descrizione: il coefficiente di Gini misura il modo in cui i modelli distinguono tra due classi. Viene calcolata come due volte l'area tra la curva ROC e la linea diagonale del grafico. Se il valore del coefficiente di Gini è 0, il modello non mostra alcuna capacità di discriminazione e il valore 1 indica una discriminazione perfetta.
Soglie predefinite:
Limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:
La metrica del coefficiente Gini viene calcolata con la formula seguente:
Gini = 2 * Area under ROC - 1
Copy to clipboardCopiato negli appunti
Disallineamento etichetta
Copy link to section
Modelli supportati: IA generativa e apprendimento automatico
Descrizione: misura l'asimmetria delle distribuzioni di etichette. Se la skewness è 0, il set di dati è perfettamente bilanciato, se è inferiore a -1 o superiore a 1, la distribuzione è altamente skewed, tutto ciò che sta in mezzo è moderatamente skewed.
Soglie predefinite:
Limite inferiore = -0.5
Limite superiore = 0.5
Tipi di problema: classificazione binaria e classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Coefficiente di correlazione di Matthews
Copy link to section
Modelli supportati: IA generativa e apprendimento automatico
Descrizione: misura la qualità delle classificazioni binarie e multiclasse tenendo conto di veri e falsi positivi e negativi. Misura bilanciata che può essere utilizzata anche se le classi sono di dimensioni diverse. Un valore del coefficiente di correlazione compreso tra -1 e +1. Un coefficiente di +1 rappresenta una previsione perfetta, 0 una previsione media casuale e -1 una previsione inversa.
Soglie predefinite: limite inferiore = 80%
Tipi di problema: classificazione binaria e classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli della metrica disponibili: matrice di confusione
Errore percentuale assoluto medio
Copy link to section
Modelli supportati: apprendimento automatico
Soglie predefinite: Limite superiore = 0.2
Tipo di problema: regressione
Descrizione: Misura la differenza percentuale media di errore tra i valori previsti e quelli effettivi
Eseguire le operazioni matematiche:
L'errore percentuale medio assoluto viene calcolato con la seguente formula:
A è il valore effettivo e P è il valore previsto.
Errore percentuale assoluto medio simmetrico
Copy link to section
Modelli supportati: Apprendimento automatico
Soglie predefinite: Limite superiore = 0.2
Tipo di problema: regressione
Descrizione: Misura la media simmetrica dell'errore percentuale di differenza tra i valori previsti e quelli effettivi
Eseguire le operazioni matematiche:
L'errore percentuale assoluto medio simmetrico viene calcolato con la seguente formula:
A è il valore effettivo e P è il valore previsto.
Coefficiente di correlazione di Pearson
Copy link to section
Modelli supportati: Apprendimento automatico
Soglia predefinita: Limite inferiore = 80%
Tipo di problema: regressione
Descrizione: La metrica del coefficiente di correlazione di Pearson (Pearson) misura la relazione lineare tra la previsione del modello e i valori target. La metrica di Pearson calcola un valore del coefficiente di correlazione tra -1 e +1. Un valore di correlazione di -1 o +1 indica l'esistenza di una relazione lineare esatta, mentre un valore di 0 indica l'assenza di correlazione. Le correlazioni positive indicano che le variabili aumentano contemporaneamente, mentre le correlazioni negative indicano che all'aumentare di una variabile, un'altra diminuisce. Valori positivi elevati indicano che il modello predice valori simili ai valori target.
coefficiente di correlazione di Spearman
Copy link to section
Modelli supportati: Apprendimento automatico
Soglia predefinita: Limite inferiore = 80%
Tipo di problema: regressione
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Descrizione: La metrica del coefficiente di correlazione di rango spearman (spearman) misura la monotonicità della relazione tra le previsioni del modello e i valori target. La metrica di Spearman calcola un valore del coefficiente di correlazione compreso tra -1 e +1. Un valore di correlazione di -1 o +1 indica l'esistenza di una relazione monotona esatta, mentre un valore di 0 indica l'assenza di correlazione. Le correlazioni positive indicano che le variabili aumentano contemporaneamente, mentre le correlazioni negative indicano che all'aumentare di una variabile, un'altra diminuisce.
Richiamo
Copy link to section
Modelli supportati: Apprendimento automatico
Descrizione: la proporzione di previsioni corrette nella classe dei positivi
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:
Il richiamo (R) è definito come il numero di veri positivi (Tp) sul numero di veri positivi più il numero di falsi negativi (Fn).
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
Copy to clipboardCopiato negli appunti
Precisione
Copy link to section
Modelli supportati: Apprendimento automatico
Descrizione: la proporzione delle previsioni corrette nelle previsioni della classe dei positivi
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:
La precisione (P) è definita come il numero di veri positivi (Tp) rispetto al numero di veri positivi più il numero di falsi positivi (Fp).
number of true positives
Precision = __________________________________________________________
(number of true positives + the number of false positives)
Copy to clipboardCopiato negli appunti
F1-Measure
Copy link to section
Modelli supportati: Apprendimento automatico
Descrizione: la media armonica di precisione e richiamo
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:
La F1-measure è la media armonica ponderata o la media di precisione e richiamo.
Descrizione: la media delle probabilità della classe obiettivo dei logaritmi (confidenza). È anche nota come Log-verosimiglianza prevista.
Soglie predefinite: limite inferiore = 80%
Tipi di problema: classificazione binaria e classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:
Per un modello binario, la perdita logaritmica è calcolata utilizzando la seguente formula:
-(y log(p) + (1-y)log(1-p))
Copy to clipboardCopiato negli appunti
dove p = etichetta vero e y = probabilità prevista
Per un modello multi-classe, la perdita logaritmica è calcolata utilizzando la seguente formula:
M
-SUM Yo,c log(Po,c)
c=1
Copy to clipboardCopiato negli appunti
dove M > 2, p = etichetta vero e y = probabilità prevista
Varianza spiegata dalla proporzione
Copy link to section
Modelli supportati: Apprendimento automatico
Descrizione: la varianza spiegata dalla proporzione rappresenta il rapporto tra varianza spiegata e varianza obiettivo. La varianza spiegata è la differenza tra la varianza obiettivo e la varianza di errore di previsione.
Soglie predefinite: limite inferiore = 80%
Tipo di problema: regressione
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:
La varianza spiegata della proporzione viene calcolata calcolando la media dei numeri, quindi per ogni numero sottrarre la media e quadrare i risultati. Quindi, elaborare le piazze.
sum of squares between groups
Proportion explained variance = ________________________________
sum of squares total
Copy to clipboardCopiato negli appunti
Errore assoluto della media
Copy link to section
Modelli supportati: Apprendimento automatico
Descrizione: la media della differenza assoluta tra previsione del modello e valore obiettivo
Soglie predefinite: limite superiore = 80%
Tipo di problema: regressione
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:
L'errore assoluto medio è calcolato sommando tutti gli errori assoluti e diviendoli per il numero di errori.
SUM | Yi - Xi |
Mean absolute errors = ____________________
number of errors
Copy to clipboardCopiato negli appunti
Errore quadratico medio
Copy link to section
Modelli supportati: Apprendimento automatico
Descrizione: la media della differenza quadratica tra previsione del modello e valore obiettivo
Soglie predefinite: limite superiore = 80%
Tipo di problema: regressione
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:
L'errore quadratico medio nella sua forma più semplice è rappresentato dalla formula seguente.
SUM (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors = ____________________________
number of errors
Copy to clipboardCopiato negli appunti
R-quadrato
Copy link to section
Modelli supportati: Apprendimento automatico
Descrizione: il rapporto di differenza tra la varianza obiettivo e la varianza dell'errore di previsione rispetto alla varianza obiettivo
Soglie predefinite: limite inferiore = 80%
Tipo di problema: regressione
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:
La metrica R - quadrato è definita nella seguente formula.
explained variation
R-squared = _____________________
total variation
Copy to clipboardCopiato negli appunti
Radice dell'errore quadratico medio
Copy link to section
Modelli supportati: Apprendimento automatico
Descrizione: la radice quadrata della media della differenza quadratica tra previsione del modello e valore obiettivo
Soglie predefinite: limite superiore = 80%
Tipo di problema: regressione
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:
La radice dell'errore quadratico medio è uguale alla radice quadrata della media dei quadrati (previsioni meno valori osservati).
Modelli supportati: Apprendimento automatico e IA generativa
Descrizione: la media ponderata della classe TPR con pesi uguali alla probabilità della classe
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:
Il tasso di veri positivi è calcolato con la formula seguente:
number of true positives
TPR = _________________________________________________________
number of true positives + number of false negatives
Copy to clipboardCopiato negli appunti
Tasso falsi positivi pesati
Copy link to section
Modelli supportati: Apprendimento automatico e IA generativa
Descrizione: la proporzione di previsioni errate nella classe dei positivi
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:
Il tasso ponderato di falsi positivi è l'applicazione dell'FPR con i dati ponderati.
number of false positives
FPR = ______________________________________________________
(number of false positives + number of true negatives)
Copy to clipboardCopiato negli appunti
Richiamo ponderato
Copy link to section
Modelli supportati: Apprendimento automatico e IA generativa
Descrizione: la media ponderata del richiamo con pesi uguali alla probabilità della classe
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:
Il richiamo ponderato (wR) è definito come il numero di veri positivi (Tp) sul numero di veri positivi più il numero di falsi negativi (Fn) utilizzati con i dati ponderati.
number of true positives
Recall = ______________________________________________________
number of true positives + number of false negatives
Copy to clipboardCopiato negli appunti
Precisione ponderata
Copy link to section
Modelli supportati: Apprendimento automatico e IA generativa
Descrizione: la media ponderata della precisione con pesi uguali alla probabilità della classe
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:
La precisione (P) è definita come il numero di veri positivi (Tp) rispetto al numero di veri positivi più il numero di falsi positivi (Fp).
number of true positives
Precision = ________________________________________________________
number of true positives + the number of false positives
Copy to clipboardCopiato negli appunti
Misura F1 ponderata
Copy link to section
Modelli supportati: Apprendimento automatico e IA generativa
Descrizione: la media ponderata della misura F1 con pesi uguali alla probabilità della classe
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:
La misura F1 ponderata è il risultato dell'utilizzo dei dati ponderati.
Configurazione di valutazioni della qualità con dati storici
Copy link to section
È inoltre possibile configurare le valutazioni della qualità per generare metriche con i dati storici dei feedback ottenuti da finestre temporali precedenti. Per configurare le valutazioni con i dati storici di feedback segnati, è possibile utilizzare l'SDKPython per specificare i parametri per calcolare le metriche in una singola finestra temporale con date di inizio e fine: