Valutazioni della qualità

Ultimo aggiornamento: 26 nov 2024

Le valutazioni della qualità misurano la capacità del modello di fornire risultati corretti in base alle prestazioni del modello utilizzando dati di test etichettati chiamati dati di feedback.

Misurazione dell'accuratezza del modello con valutazioni di qualità

Le valutazioni della qualità monitorano il modo in cui il modello prevede risultati accurati. Rileva quando la qualità del modello diminuisce, in modo da poter sottoporre il modello a un nuovo training appropriato. Per valutare il modello, fornisci i dati di feedback, ovvero i dati etichettati in cui è noto il risultato. Le valutazioni della qualità utilizzano una serie di metriche di scienza dei dati standard per valutare il modo in cui il modello prevede il risultato che corrisponde ai risultati effettivi nel dataset etichettato.

È possibile impostare le soglie di qualità accettabili per le metriche utilizzate per valutare il modello. È anche possibile impostare la dimensione del campione, che è il numero di righe di dati di feedback, da considerare per la valutazione.

Prima di iniziare: fornire i dati di feedback

I dati di feedback sono come fornire un foglio di risposta con i risultati effettivamente osservati. Il monitor può eseguire il modello come se le risposte non fossero note, quindi confrontare i risultati previsti con i risultati effettivi e fornire punteggi di precisione basati sulle metriche di qualità.

Per fornire i dati di feedback per i modelli di apprendimento automatico, è necessario aprire la pagina Endpoints ed eseguire una delle seguenti operazioni:

Fare clic su Carica dati di feedback e caricare un file con dati etichettati.
Fare clic sulla scheda Endpoint e specificare un endpoint che si connette all'origine dati di feedback.

Per i dettagli, consultare Gestione dei dati di feedback.

Impostazione delle soglie di qualità

Dopo che i dati di feedback sono disponibili per la valutazione, configurare le impostazioni di monitoraggio. Le soglie per le prestazioni accettabili per il modello vengono impostate rispetto ai risultati noti.

Per impostare i valori di soglia, dalla scheda Qualità , fare clic sull'icona Modifica per immettere i valori per la casella Soglia qualità , quindi modificare i valori per la dimensione del campione.

Soglia di avviso della qualità

Selezionare un valore che rappresenti un livello di accuratezza accettabile. Ad esempio, nel Modello di rischio di credito tedesco di esempio fornito con la configurazione automatica, l'avviso per la metrica Area sotto ROC è impostato su 95%. Se la qualità misurata per il modello scende al di sotto di tale valore, viene attivato un avviso. Un valore tipico per Area sotto ROC è l'80%.

Per i dettagli sulle metriche standard per il monitor Qualità, consultare Panoramica delle metriche Qualità.

Dimensioni minime e massime del campione

Impostando una dimensione minima del campione, si preveniene la misurazione della qualità fino a quando non sia disponibile un numero minimo di record nel dataset di valutazione. Ciò garantisce che la dimensione del campione non sia troppo piccola per l'asimmetria dei risultati. A ogni esecuzione del controllo di qualità, viene utilizzata la dimensione minima del campione per decidere il numero di record in base al quale eseguire il calcolo delle metriche di qualità.

La dimensione massima del campione consente di gestire al meglio il tempo e le risorse richieste per valutare il dataset. Se questa dimensione viene superata, vengono valutati solo i record più recenti. Ad esempio, nel campione Modello di rischio di credito tedesco , la dimensione minima del campione è impostata su 50 e non è specificata alcuna dimensione massima poiché si tratta di un campione di piccole dimensioni.

Metriche di qualità supportate

Quando si abilita la valutazione della qualità, è possibile generare metriche che aiutano a determinare la bontà del modello nel prevedere i risultati.

È possibile visualizzare i risultati delle valutazioni della qualità nella pagina di riepilogo delle valutazioni. Per visualizzare i risultati, è possibile selezionare un riquadro di distribuzione del modello e fare clic sulla freccia nella sezione di valutazione Qualità per visualizzare un riepilogo delle metriche di qualità dall'ultima valutazione. Per ulteriori informazioni, consultare Revisione dei risultati della qualità.

Area sotto la curva ROC

Descrizione: Area sotto la curva di richiamo e tasso di falsi positivi per calcolare la sensibilità rispetto al tasso di fallout
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione

Area sotto la curva PR

Descrizione: l'area sotto la curva di precisione e richiamo
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

L'area sotto Richiamo precisione fornisce il totale per entrambi Precision + Recall.

       n
AveP = ∑ P(k)∆r(k)
      k=1

La precisione (P) è definita come il numero di veri positivi (Tp) rispetto al numero di veri positivi più il numero di falsi positivi (Fp).

               number of true positives
Precision =   ______________________________________________________

              (number of true positives + number of false positives)

Il richiamo (R) è definito come il numero di veri positivi (Tp) sul numero di veri positivi più il numero di falsi negativi (Fn).

            number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

Accuratezza

Descrizione: la proporzione di previsioni corrette
Soglie predefinite: limite inferiore = 80%
Tipi di problema: classificazione binaria e classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Comprensione dell'accuratezza:
l'accuratezza può significare cose differenti a seconda del tipo di algoritmo;
- Classificazione multi-classe: l'accuratezza misura il numero di volte in cui una qualsiasi classe è stata prevista correttamente, normalizzata per il numero di punti di dati. Per ulteriori dettagli, vedi Multi - class classification nella documentazione di Apache Spark .
- Classificazione binaria: per un algoritmo di classificazione binaria, l'accuratezza è misurata come l'area sotto una curva di ROC. Per ulteriori dettagli, vedi Classificazione binaria nella documentazione di Apache Spark .
- Regressione: gli algoritmi di regressione vengono misurati utilizzando il coefficiente di determinazione o R2. Per ulteriori dettagli, vedi Valutazione del modello di regressione nella documentazione Apache Spark .

Tasso di veri positivi

Descrizione: la proporzione delle previsioni corrette nelle previsioni della classe dei positivi
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

Il tasso di veri positivi è calcolato con la formula seguente:

                  number of true positives
TPR =  _________________________________________________________

        (number of true positives + number of false negatives)

Tasso di falsi positivi

Descrizione: la proporzione di previsioni errate nella classe dei positivi
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

La percentuale di falsi positivi è il quoziente del numero totale di falsi positivi diviso per la somma dei falsi positivi e dei veri negativi.

                        number of false positives
False positive rate =  ______________________________________________________

                       (number of false positives + number of true negatives)

Richiamo

Descrizione: la proporzione di previsioni corrette nella classe dei positivi
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Esegui operazioni matematiche:

Il richiamo (R) è definito come il numero di veri positivi (Tp) sul numero di veri positivi più il numero di falsi negativi (Fn).

                       number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

Precisione

Descrizione: la proporzione delle previsioni corrette nelle previsioni della classe dei positivi
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

La precisione (P) è definita come il numero di veri positivi (Tp) rispetto al numero di veri positivi più il numero di falsi positivi (Fp).

                           number of true positives
Precision =  __________________________________________________________

             (number of true positives + the number of false positives)

F1-Measure

Descrizione: la media armonica di precisione e richiamo
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

La F1-measure è la media armonica ponderata o la media di precisione e richiamo.

          (precision * recall)
F1 = 2 *  ____________________

          (precision + recall)

Coefficiente Gini

Descrizione: il coefficiente di Gini misura il modo in cui i modelli distinguono tra due classi. Viene calcolata come due volte l'area tra la curva ROC e la linea diagonale del grafico. Se il valore del coefficiente di Gini è 0, il modello non mostra alcuna capacità di discriminazione e il valore 1 indica una discriminazione perfetta.
Soglie predefinite:
- Limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

La metrica del coefficiente Gini viene calcolata con la formula seguente:


Gini = 2 * Area under ROC - 1

Perdita logaritmica

Descrizione: la media delle probabilità della classe obiettivo dei logaritmi (confidenza). È anche nota come Log-verosimiglianza prevista.
Soglie predefinite: limite inferiore = 80%
Tipi di problema: classificazione binaria e classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:

Per un modello binario, la perdita logaritmica è calcolata utilizzando la seguente formula:

-(y log(p) + (1-y)log(1-p))

dove p = etichetta vero e y = probabilità prevista

Per un modello multi-classe, la perdita logaritmica è calcolata utilizzando la seguente formula:

  M
-SUM Yo,c log(Po,c)
 c=1

dove M > 2, p = etichetta vero e y = probabilità prevista

Varianza spiegata dalla proporzione

Descrizione: la varianza spiegata dalla proporzione rappresenta il rapporto tra varianza spiegata e varianza obiettivo. La varianza spiegata è la differenza tra la varianza obiettivo e la varianza di errore di previsione.
Soglie predefinite: limite inferiore = 80%
Tipo di problema: regressione
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:

La varianza spiegata della proporzione viene calcolata calcolando la media dei numeri, quindi per ogni numero sottrarre la media e quadrare i risultati. Quindi, elaborare le piazze.

                                  sum of squares between groups 
Proportion explained variance =  ________________________________

                                      sum of squares total

Errore assoluto della media

Descrizione: la media della differenza assoluta tra previsione del modello e valore obiettivo
Soglie predefinite: limite superiore = 80%
Tipo di problema: regressione
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:

L'errore assoluto medio è calcolato sommando tutti gli errori assoluti e diviendoli per il numero di errori.

                         SUM  | Yi - Xi | 
Mean absolute errors =  ____________________

                          number of errors

Errore quadratico medio

Descrizione: la media della differenza quadratica tra previsione del modello e valore obiettivo
Soglie predefinite: limite superiore = 80%
Tipo di problema: regressione
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:

L'errore quadratico medio nella sua forma più semplice è rappresentato dalla formula seguente.

                         SUM  (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors  =  ____________________________

                             number of errors

R-quadrato

Descrizione: il rapporto di differenza tra la varianza obiettivo e la varianza dell'errore di previsione rispetto alla varianza obiettivo
Soglie predefinite: limite inferiore = 80%
Tipo di problema: regressione
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:

La metrica R - quadrato è definita nella seguente formula.

                  explained variation
R-squared =       _____________________

                    total variation

Radice dell'errore quadratico medio

Descrizione: la radice quadrata della media della differenza quadratica tra previsione del modello e valore obiettivo
Soglie predefinite: limite superiore = 80%
Tipo di problema: regressione
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:

La radice dell'errore quadratico medio è uguale alla radice quadrata della media dei quadrati (previsioni meno valori osservati).

          ___________________________________________________________
RMSE  =  √(forecasts - observed values)*(forecasts - observed values)

Tasso veri positivi pesati

Descrizione: la media ponderata della classe TPR con pesi uguali alla probabilità della classe
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

Il tasso di veri positivi è calcolato con la formula seguente:

                  number of true positives
TPR =  _________________________________________________________

        number of true positives + number of false negatives

Tasso falsi positivi pesati

Descrizione: la proporzione di previsioni errate nella classe dei positivi
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

Il tasso ponderato di falsi positivi è l'applicazione dell'FPR con i dati ponderati.

                   number of false positives
FPR =  ______________________________________________________

       (number of false positives + number of true negatives)

Richiamo ponderato

Descrizione: la media ponderata del richiamo con pesi uguali alla probabilità della classe
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

Il richiamo ponderato (wR) è definito come il numero di veri positivi (Tp) sul numero di veri positivi più il numero di falsi negativi (Fn) utilizzati con i dati ponderati.

                          number of true positives
Recall =   ______________________________________________________

           number of true positives + number of false negatives

Precisione ponderata

Descrizione: la media ponderata della precisione con pesi uguali alla probabilità della classe
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

La precisione (P) è definita come il numero di veri positivi (Tp) rispetto al numero di veri positivi più il numero di falsi positivi (Fp).

                            number of true positives
Precision =  ________________________________________________________

             number of true positives + the number of false positives

Misura F1 ponderata

Descrizione: la media ponderata della misura F1 con pesi uguali alla probabilità della classe
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

La misura F1 ponderata è il risultato dell'utilizzo dei dati ponderati.

           precision * recall
F1 = 2 *  ____________________

           precision + recall

Configurazione di valutazioni della qualità con dati storici

È inoltre possibile configurare le valutazioni della qualità per generare metriche con i dati storici dei feedback ottenuti da finestre temporali precedenti. Per configurare le valutazioni con i dati storici di feedback segnati, è possibile utilizzare l'SDKPython per specificare i parametri per calcolare le metriche in una singola finestra temporale con date di inizio e fine:

parameters = {
    "start_date": "2024-08-05T11:00:18.0000Z",
    "end_date": "2024-08-05T14:00:18.0000Z"
}
run_details = wos_client.monitor_instances.run(monitor_instance_id=quality_monitor_instance_id, parameters = run_parameters, background_mode=False).result

Ulteriori informazioni

Revisione dei risultati di qualità per i modelli di apprendimento automatico

Argomento principale Configurazione delle valutazioni del modello

L'argomento è stato utile?

0/1000

Misurazione dell'accuratezza del modello con valutazioni di qualitàCopy link to section

Prima di iniziare: fornire i dati di feedbackCopy link to section

Impostazione delle soglie di qualitàCopy link to section

Soglia di avviso della qualitàCopy link to section

Dimensioni minime e massime del campioneCopy link to section

Metriche di qualità supportateCopy link to section

Area sotto la curva ROCCopy link to section

Area sotto la curva PRCopy link to section

AccuratezzaCopy link to section

Tasso di veri positiviCopy link to section

Tasso di falsi positiviCopy link to section

RichiamoCopy link to section

PrecisioneCopy link to section

F1-MeasureCopy link to section

Coefficiente GiniCopy link to section

Perdita logaritmicaCopy link to section

Varianza spiegata dalla proporzioneCopy link to section

Errore assoluto della mediaCopy link to section

Errore quadratico medioCopy link to section

R-quadratoCopy link to section

Radice dell'errore quadratico medioCopy link to section

Tasso veri positivi pesatiCopy link to section

Tasso falsi positivi pesatiCopy link to section

Richiamo ponderatoCopy link to section

Precisione ponderataCopy link to section

Misura F1 ponderataCopy link to section

Configurazione di valutazioni della qualità con dati storiciCopy link to section

Ulteriori informazioniCopy link to section

Misurazione dell'accuratezza del modello con valutazioni di qualità

Prima di iniziare: fornire i dati di feedback

Impostazione delle soglie di qualità

Soglia di avviso della qualità

Dimensioni minime e massime del campione

Metriche di qualità supportate

Area sotto la curva ROC

Area sotto la curva PR

Accuratezza

Tasso di veri positivi

Tasso di falsi positivi

Richiamo

Precisione

F1-Measure

Coefficiente Gini

Perdita logaritmica

Varianza spiegata dalla proporzione

Errore assoluto della media

Errore quadratico medio

R-quadrato

Radice dell'errore quadratico medio

Tasso veri positivi pesati

Tasso falsi positivi pesati

Richiamo ponderato

Precisione ponderata

Misura F1 ponderata

Configurazione di valutazioni della qualità con dati storici

Ulteriori informazioni