Le valutazioni della qualità misurano la capacità del modello di fornire risultati corretti in base alle prestazioni del modello utilizzando dati di test etichettati chiamati dati di feedback.
Misurazione dell'accuratezza del modello con valutazioni di qualità
Le valutazioni della qualità monitorano il modo in cui il modello prevede risultati accurati. Rileva quando la qualità del modello diminuisce, in modo da poter sottoporre il modello a un nuovo training appropriato. Per valutare il modello, fornisci i dati di feedback, ovvero i dati etichettati in cui è noto il risultato. Le valutazioni della qualità utilizzano una serie di metriche di scienza dei dati standard per valutare il modo in cui il modello prevede il risultato che corrisponde ai risultati effettivi nel dataset etichettato.
È possibile impostare le soglie di qualità accettabili per le metriche utilizzate per valutare il modello. È anche possibile impostare la dimensione del campione, che è il numero di righe di dati di feedback, da considerare per la valutazione.
Prima di iniziare: fornire i dati di feedback
I dati di feedback sono come fornire un foglio di risposta con i risultati effettivamente osservati. Il monitor può eseguire il modello come se le risposte non fossero note, quindi confrontare i risultati previsti con i risultati effettivi e fornire punteggi di precisione basati sulle metriche di qualità.
Per fornire i dati di feedback per i modelli di apprendimento automatico, è necessario aprire la pagina Endpoints ed eseguire una delle seguenti operazioni:
- Fare clic su Carica dati di feedback e caricare un file con dati etichettati.
- Fare clic sulla scheda Endpoint e specificare un endpoint che si connette all'origine dati di feedback.
Per i dettagli, consultare Gestione dei dati di feedback.
Impostazione delle soglie di qualità
Dopo che i dati di feedback sono disponibili per la valutazione, configurare le impostazioni di monitoraggio. Le soglie per le prestazioni accettabili per il modello vengono impostate rispetto ai risultati noti.
Per impostare i valori di soglia, dalla scheda Qualità , fare clic sull'icona Modifica per immettere i valori per la casella Soglia qualità , quindi modificare i valori per la dimensione del campione.
Soglia di avviso della qualità
Selezionare un valore che rappresenti un livello di accuratezza accettabile. Ad esempio, nel Modello di rischio di credito tedesco di esempio fornito con la configurazione automatica, l'avviso per la metrica Area sotto ROC è impostato su 95%. Se la qualità misurata per il modello scende al di sotto di tale valore, viene attivato un avviso. Un valore tipico per Area sotto ROC è l'80%.
Per i dettagli sulle metriche standard per il monitor Qualità, consultare Panoramica delle metriche Qualità.
Dimensioni minime e massime del campione
Impostando una dimensione minima del campione, si preveniene la misurazione della qualità fino a quando non sia disponibile un numero minimo di record nel dataset di valutazione. Ciò garantisce che la dimensione del campione non sia troppo piccola per l'asimmetria dei risultati. A ogni esecuzione del controllo di qualità, viene utilizzata la dimensione minima del campione per decidere il numero di record in base al quale eseguire il calcolo delle metriche di qualità.
La dimensione massima del campione consente di gestire al meglio il tempo e le risorse richieste per valutare il dataset. Se questa dimensione viene superata, vengono valutati solo i record più recenti. Ad esempio, nel campione Modello di rischio di credito tedesco , la dimensione minima del campione è impostata su 50 e non è specificata alcuna dimensione massima poiché si tratta di un campione di piccole dimensioni.
Metriche di qualità supportate
Quando si abilita la valutazione della qualità, è possibile generare metriche che aiutano a determinare la bontà del modello nel prevedere i risultati.
È possibile visualizzare i risultati delle valutazioni della qualità nella pagina di riepilogo delle valutazioni. Per visualizzare i risultati, è possibile selezionare un riquadro di distribuzione del modello e fare clic sulla freccia nella sezione di valutazione Qualità per visualizzare un riepilogo delle metriche di qualità dall'ultima valutazione. Per ulteriori informazioni, consultare Revisione dei risultati della qualità.
Area sotto la curva ROC
- Descrizione: Area sotto la curva di richiamo e tasso di falsi positivi per calcolare la sensibilità rispetto al tasso di fallout
- Soglie predefinite: limite inferiore = 80%
- Tipo di problema: classificazione binaria
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: matrice di confusione
Area sotto la curva PR
- Descrizione: l'area sotto la curva di precisione e richiamo
- Soglie predefinite: limite inferiore = 80%
- Tipo di problema: classificazione binaria
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: matrice di confusione
- Eseguire le operazioni matematiche:
L'area sotto Richiamo precisione fornisce il totale per entrambi Precision + Recall
.
n
AveP = ∑ P(k)∆r(k)
k=1
La precisione (P) è definita come il numero di veri positivi (Tp) rispetto al numero di veri positivi più il numero di falsi positivi (Fp).
number of true positives
Precision = ______________________________________________________
(number of true positives + number of false positives)
Il richiamo (R) è definito come il numero di veri positivi (Tp) sul numero di veri positivi più il numero di falsi negativi (Fn).
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
Accuratezza
- Descrizione: la proporzione di previsioni corrette
- Soglie predefinite: limite inferiore = 80%
- Tipi di problema: classificazione binaria e classificazione multi-classe
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: matrice di confusione
- Comprensione dell'accuratezza:
l'accuratezza può significare cose differenti a seconda del tipo di algoritmo;Classificazione multi-classe: l'accuratezza misura il numero di volte in cui una qualsiasi classe è stata prevista correttamente, normalizzata per il numero di punti di dati. Per ulteriori dettagli, vedi Multi - class classification nella documentazione di Apache Spark .
Classificazione binaria: per un algoritmo di classificazione binaria, l'accuratezza è misurata come l'area sotto una curva di ROC. Per ulteriori dettagli, vedi Classificazione binaria nella documentazione di Apache Spark .
Regressione: gli algoritmi di regressione vengono misurati utilizzando il coefficiente di determinazione o R2. Per ulteriori dettagli, vedi Valutazione del modello di regressione nella documentazione Apache Spark .
Tasso di veri positivi
- Descrizione: la proporzione delle previsioni corrette nelle previsioni della classe dei positivi
- Soglie predefinite: limite inferiore = 80%
- Tipo di problema: classificazione binaria
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: matrice di confusione
- Eseguire le operazioni matematiche:
Il tasso di veri positivi è calcolato con la formula seguente:
number of true positives
TPR = _________________________________________________________
(number of true positives + number of false negatives)
Tasso di falsi positivi
- Descrizione: la proporzione di previsioni errate nella classe dei positivi
- Soglie predefinite: limite inferiore = 80%
- Tipo di problema: classificazione binaria
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: matrice di confusione
- Eseguire le operazioni matematiche:
La percentuale di falsi positivi è il quoziente del numero totale di falsi positivi diviso per la somma dei falsi positivi e dei veri negativi.
number of false positives
False positive rate = ______________________________________________________
(number of false positives + number of true negatives)
Richiamo
- Descrizione: la proporzione di previsioni corrette nella classe dei positivi
- Soglie predefinite: limite inferiore = 80%
- Tipo di problema: classificazione binaria
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: matrice di confusione
- Esegui operazioni matematiche:
Il richiamo (R) è definito come il numero di veri positivi (Tp) sul numero di veri positivi più il numero di falsi negativi (Fn).
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
Precisione
- Descrizione: la proporzione delle previsioni corrette nelle previsioni della classe dei positivi
- Soglie predefinite: limite inferiore = 80%
- Tipo di problema: classificazione binaria
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: matrice di confusione
- Eseguire le operazioni matematiche:
La precisione (P) è definita come il numero di veri positivi (Tp) rispetto al numero di veri positivi più il numero di falsi positivi (Fp).
number of true positives
Precision = __________________________________________________________
(number of true positives + the number of false positives)
F1-Measure
- Descrizione: la media armonica di precisione e richiamo
- Soglie predefinite: limite inferiore = 80%
- Tipo di problema: classificazione binaria
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: matrice di confusione
- Eseguire le operazioni matematiche:
La F1-measure è la media armonica ponderata o la media di precisione e richiamo.
(precision * recall)
F1 = 2 * ____________________
(precision + recall)
Coefficiente Gini
- Descrizione: il coefficiente di Gini misura il modo in cui i modelli distinguono tra due classi. Viene calcolata come due volte l'area tra la curva ROC e la linea diagonale del grafico. Se il valore del coefficiente di Gini è 0, il modello non mostra alcuna capacità di discriminazione e il valore 1 indica una discriminazione perfetta.
- Soglie predefinite:
- Limite inferiore = 80%
- Tipo di problema: classificazione binaria
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: matrice di confusione
- Eseguire le operazioni matematiche:
La metrica del coefficiente Gini viene calcolata con la formula seguente:
Gini = 2 * Area under ROC - 1
Perdita logaritmica
- Descrizione: la media delle probabilità della classe obiettivo dei logaritmi (confidenza). È anche nota come Log-verosimiglianza prevista.
- Soglie predefinite: limite inferiore = 80%
- Tipi di problema: classificazione binaria e classificazione multi-classe
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: nessuno
- Eseguire le operazioni matematiche:
Per un modello binario, la perdita logaritmica è calcolata utilizzando la seguente formula:
-(y log(p) + (1-y)log(1-p))
dove p = etichetta vero e y = probabilità prevista
Per un modello multi-classe, la perdita logaritmica è calcolata utilizzando la seguente formula:
M
-SUM Yo,c log(Po,c)
c=1
dove M > 2, p = etichetta vero e y = probabilità prevista
Varianza spiegata dalla proporzione
- Descrizione: la varianza spiegata dalla proporzione rappresenta il rapporto tra varianza spiegata e varianza obiettivo. La varianza spiegata è la differenza tra la varianza obiettivo e la varianza di errore di previsione.
- Soglie predefinite: limite inferiore = 80%
- Tipo di problema: regressione
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: nessuno
- Eseguire le operazioni matematiche:
La varianza spiegata della proporzione viene calcolata calcolando la media dei numeri, quindi per ogni numero sottrarre la media e quadrare i risultati. Quindi, elaborare le piazze.
sum of squares between groups
Proportion explained variance = ________________________________
sum of squares total
Errore assoluto della media
- Descrizione: la media della differenza assoluta tra previsione del modello e valore obiettivo
- Soglie predefinite: limite superiore = 80%
- Tipo di problema: regressione
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: nessuno
- Eseguire le operazioni matematiche:
L'errore assoluto medio è calcolato sommando tutti gli errori assoluti e diviendoli per il numero di errori.
SUM | Yi - Xi |
Mean absolute errors = ____________________
number of errors
Errore quadratico medio
- Descrizione: la media della differenza quadratica tra previsione del modello e valore obiettivo
- Soglie predefinite: limite superiore = 80%
- Tipo di problema: regressione
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: nessuno
- Eseguire le operazioni matematiche:
L'errore quadratico medio nella sua forma più semplice è rappresentato dalla formula seguente.
SUM (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors = ____________________________
number of errors
R-quadrato
- Descrizione: il rapporto di differenza tra la varianza obiettivo e la varianza dell'errore di previsione rispetto alla varianza obiettivo
- Soglie predefinite: limite inferiore = 80%
- Tipo di problema: regressione
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: nessuno
- Eseguire le operazioni matematiche:
La metrica R - quadrato è definita nella seguente formula.
explained variation
R-squared = _____________________
total variation
Radice dell'errore quadratico medio
- Descrizione: la radice quadrata della media della differenza quadratica tra previsione del modello e valore obiettivo
- Soglie predefinite: limite superiore = 80%
- Tipo di problema: regressione
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: nessuno
- Eseguire le operazioni matematiche:
La radice dell'errore quadratico medio è uguale alla radice quadrata della media dei quadrati (previsioni meno valori osservati).
___________________________________________________________
RMSE = √(forecasts - observed values)*(forecasts - observed values)
Tasso veri positivi pesati
- Descrizione: la media ponderata della classe TPR con pesi uguali alla probabilità della classe
- Soglie predefinite: limite inferiore = 80%
- Tipo di problema: classificazione multi-classe
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: matrice di confusione
- Eseguire le operazioni matematiche:
Il tasso di veri positivi è calcolato con la formula seguente:
number of true positives
TPR = _________________________________________________________
number of true positives + number of false negatives
Tasso falsi positivi pesati
- Descrizione: la proporzione di previsioni errate nella classe dei positivi
- Soglie predefinite: limite inferiore = 80%
- Tipo di problema: classificazione multi-classe
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: matrice di confusione
- Eseguire le operazioni matematiche:
Il tasso ponderato di falsi positivi è l'applicazione dell'FPR con i dati ponderati.
number of false positives
FPR = ______________________________________________________
(number of false positives + number of true negatives)
Richiamo ponderato
- Descrizione: la media ponderata del richiamo con pesi uguali alla probabilità della classe
- Soglie predefinite: limite inferiore = 80%
- Tipo di problema: classificazione multi-classe
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: matrice di confusione
- Eseguire le operazioni matematiche:
Il richiamo ponderato (wR) è definito come il numero di veri positivi (Tp) sul numero di veri positivi più il numero di falsi negativi (Fn) utilizzati con i dati ponderati.
number of true positives
Recall = ______________________________________________________
number of true positives + number of false negatives
Precisione ponderata
- Descrizione: la media ponderata della precisione con pesi uguali alla probabilità della classe
- Soglie predefinite: limite inferiore = 80%
- Tipo di problema: classificazione multi-classe
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: matrice di confusione
- Eseguire le operazioni matematiche:
La precisione (P) è definita come il numero di veri positivi (Tp) rispetto al numero di veri positivi più il numero di falsi positivi (Fp).
number of true positives
Precision = ________________________________________________________
number of true positives + the number of false positives
Misura F1 ponderata
- Descrizione: la media ponderata della misura F1 con pesi uguali alla probabilità della classe
- Soglie predefinite: limite inferiore = 80%
- Tipo di problema: classificazione multi-classe
- Valori del grafico: l'ultimo valore nell'intervallo di tempo
- Dettagli di metriche disponibili: matrice di confusione
- Eseguire le operazioni matematiche:
La misura F1 ponderata è il risultato dell'utilizzo dei dati ponderati.
precision * recall
F1 = 2 * ____________________
precision + recall
Configurazione di valutazioni della qualità con dati storici
È inoltre possibile configurare le valutazioni della qualità per generare metriche con i dati storici dei feedback ottenuti da finestre temporali precedenti. Per configurare le valutazioni con i dati storici di feedback segnati, è possibile utilizzare l'SDKPython per specificare i parametri per calcolare le metriche in una singola finestra temporale con date di inizio e fine:
parameters = {
"start_date": "2024-08-05T11:00:18.0000Z",
"end_date": "2024-08-05T14:00:18.0000Z"
}
run_details = wos_client.monitor_instances.run(monitor_instance_id=quality_monitor_instance_id, parameters = run_parameters, background_mode=False).result
Ulteriori informazioni
Revisione dei risultati di qualità per i modelli di apprendimento automatico
Argomento principale Configurazione delle valutazioni del modello