Configurazione delle valutazioni della qualità

Ultimo aggiornamento: 11 mar 2025
Configurazione delle valutazioni della qualità

È possibile configurare le valutazioni della qualità per misurare la capacità del modello di fornire risultati corretti in base alle sue prestazioni.

Le valutazioni della qualità misurano la capacità del modello di prevedere risultati accurati, identificando i casi in cui la qualità del modello diminuisce, in modo da poter riqualificare il modello in modo appropriato. Per valutare il modello, fornisci i dati di feedback, ovvero i dati etichettati in cui è noto il risultato. Le valutazioni della qualità utilizzano le metriche per valutare il modo in cui il modello prevede il risultato che corrisponde ai risultati effettivi nell'insieme di dati etichettato.

Le sezioni seguenti descrivono come configurare le valutazioni di qualità:

Configurazione delle valutazioni di qualità per i modelli di apprendimento automatico

Prima di iniziare: fornire i dati di feedback

I dati di feedback sono come fornire un foglio di risposta con i risultati effettivamente osservati. Il monitor può eseguire il modello come se le risposte non fossero note, quindi confrontare i risultati previsti con i risultati effettivi e fornire punteggi di precisione basati sulle metriche di qualità.

Per fornire i dati di feedback che verranno utilizzati per valutare il modello, fare clic sulla pagina Endpoint ed effettuare una delle seguenti operazioni:

  • Fare clic su Carica dati di feedback e caricare un file con dati etichettati.
  • Fare clic sulla scheda Endpoint e specificare un endpoint che si connette all'origine dati di feedback.

Per i dettagli, consultare Gestione dei dati di feedback.

Impostazione delle soglie di qualità

Dopo che i dati di feedback sono disponibili per la valutazione, configurare le impostazioni di monitoraggio. Le soglie per le prestazioni accettabili per il modello vengono impostate rispetto ai risultati noti.

Per impostare i valori di soglia, dalla scheda Qualità , fare clic sull'icona Modifica L'icona di modifica per immettere i valori per la casella Soglia qualità , quindi modificare i valori per la dimensione del campione.

Soglia di avviso della qualità

Selezionare un valore che rappresenti un livello di accuratezza accettabile. Ad esempio, nel Modello di rischio di credito tedesco di esempio fornito con la configurazione automatica, l'avviso per la metrica Area sotto ROC è impostato su 95%. Se la qualità misurata per il modello scende al di sotto di tale valore, viene attivato un avviso. Un valore tipico per Area sotto ROC è l'80%.

Dimensioni minime e massime del campione

Impostando una dimensione minima del campione, si preveniene la misurazione della qualità fino a quando non sia disponibile un numero minimo di record nel dataset di valutazione. Ciò garantisce che la dimensione del campione non sia troppo piccola per l'asimmetria dei risultati. A ogni esecuzione del controllo di qualità, viene utilizzata la dimensione minima del campione per decidere il numero di record in base al quale eseguire il calcolo delle metriche di qualità.

La dimensione massima del campione consente di gestire al meglio il tempo e le risorse richieste per valutare il dataset. Se questa dimensione viene superata, vengono valutati solo i record più recenti. Ad esempio, nel campione Modello di rischio di credito tedesco , la dimensione minima del campione è impostata su 50 e non è specificata alcuna dimensione massima poiché si tratta di un campione di piccole dimensioni.

Configurazione delle valutazioni di qualità per i modelli di IA generativa

Quando si valutano i modelli di prompt, è possibile esaminare un riepilogo dei risultati della valutazione della qualità per il tipo di attività di classificazione del testo.

Il riepilogo visualizza i punteggi e violazioni per le metriche calcolate con le impostazioni predefinite.

Per configurare le valutazioni di qualità con le proprie impostazioni, è possibile impostare una dimensione di esempio minima e impostare valori di soglia per ogni metrica. La dimensione minima del campione indica il numero minimo di record di transazione del modello che si desidera valutare e i valori di soglia creano avvisi quando i punteggi della metrica violano le soglie. I punteggi della metrica devono essere superiori ai valori di soglia per evitare violazioni. Valori di metrica più elevati indicano punteggi migliori.

Metriche di qualità supportate

Quando si abilita la valutazione della qualità, è possibile generare metriche che aiutano a determinare la bontà del modello nel prevedere i risultati. I valori impostati come soglie della metrica determinano il modo in cui è possibile interpretare i punteggi della metrica. Per le metriche configurate con soglie più basse, punteggi più elevati indicano risultati migliori. Per le metriche configurate con soglie superiori, i punteggi inferiori indicano risultati migliori.

Le valutazioni di qualità generano le seguenti metriche:

Area sotto la curva ROC

  • Modelli supportati: Apprendimento automatico
  • Descrizione: Area sotto la curva di richiamo e tasso di falsi positivi per calcolare la sensibilità rispetto al tasso di fallout
  • Soglie predefinite: limite inferiore = 80%
  • Tipo di problema: classificazione binaria
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: matrice di confusione

Area sotto la curva PR

  • Modelli supportati: Apprendimento automatico
  • Descrizione: l'area sotto la curva di precisione e richiamo
  • Soglie predefinite: limite inferiore = 80%
  • Tipo di problema: classificazione binaria
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: matrice di confusione
  • Eseguire le operazioni matematiche:

L'area sotto Richiamo precisione fornisce il totale per entrambi Precision + Recall.

       n
AveP = ∑ P(k)∆r(k)
      k=1

La precisione (P) è definita come il numero di veri positivi (Tp) rispetto al numero di veri positivi più il numero di falsi positivi (Fp).

               number of true positives
Precision =   ______________________________________________________

              (number of true positives + number of false positives)

Il richiamo (R) è definito come il numero di veri positivi (Tp) sul numero di veri positivi più il numero di falsi negativi (Fn).

            number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

Accuratezza

  • Modelli supportati: Apprendimento automatico e IA generativa
  • Descrizione: la proporzione di previsioni corrette
  • Soglie predefinite: limite inferiore = 80%
  • Tipi di problema: classificazione binaria e classificazione multi-classe
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: matrice di confusione
  • Comprensione dell'accuratezza:
    l'accuratezza può significare cose differenti a seconda del tipo di algoritmo;
    • Classificazione multi-classe: l'accuratezza misura il numero di volte in cui una qualsiasi classe è stata prevista correttamente, normalizzata per il numero di punti di dati. Per ulteriori dettagli, vedi Multi - class classification nella documentazione di Apache Spark .

    • Classificazione binaria: per un algoritmo di classificazione binaria, l'accuratezza è misurata come l'area sotto una curva di ROC. Per ulteriori dettagli, vedi Classificazione binaria nella documentazione di Apache Spark .

    • Regressione: gli algoritmi di regressione vengono misurati utilizzando il coefficiente di determinazione o R2. Per ulteriori dettagli, vedi Valutazione del modello di regressione nella documentazione Apache Spark .

Tasso di veri positivi

  • Modelli supportati: Apprendimento automatico
  • Descrizione: la proporzione delle previsioni corrette nelle previsioni della classe dei positivi
  • Soglie predefinite: limite inferiore = 80%
  • Tipo di problema: classificazione binaria
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: matrice di confusione
  • Eseguire le operazioni matematiche:

Il tasso di veri positivi è calcolato con la formula seguente:

                  number of true positives
TPR =  _________________________________________________________

        (number of true positives + number of false negatives)

Tasso di falsi positivi

  • Modelli supportati: Apprendimento automatico
  • Descrizione: la proporzione di previsioni errate nella classe dei positivi
  • Soglie predefinite: limite inferiore = 80%
  • Tipo di problema: classificazione binaria
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: matrice di confusione
  • Eseguire le operazioni matematiche:

La percentuale di falsi positivi è il quoziente del numero totale di falsi positivi diviso per la somma dei falsi positivi e dei veri negativi.

                        number of false positives
False positive rate =  ______________________________________________________

                       (number of false positives + number of true negatives)

Punteggio Brier

  • Modelli supportati: Apprendimento automatico
  • Descrizione: misura la differenza quadratica media tra la probabilità prevista e il valore di destinazione. Punteggi più elevati indicano che le probabilità previste del modello non corrispondono al valore di destinazione.
  • Soglie predefinite:
    • Limite superiore= 80%
  • Tipo di problema: classificazione binaria
  • Eseguire le operazioni matematiche:

La metrica del punteggio più alto viene calcolata con la seguente formula:

BrierScore = 1/N * sum( (p - y)^2 )
Where  y = actual outcome, and p = predicted probability

Coefficiente Gini

  • Modelli supportati: Apprendimento automatico
  • Descrizione: il coefficiente di Gini misura il modo in cui i modelli distinguono tra due classi. Viene calcolata come due volte l'area tra la curva ROC e la linea diagonale del grafico. Se il valore del coefficiente di Gini è 0, il modello non mostra alcuna capacità di discriminazione e il valore 1 indica una discriminazione perfetta.
  • Soglie predefinite:
    • Limite inferiore = 80%
  • Tipo di problema: classificazione binaria
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: matrice di confusione
  • Eseguire le operazioni matematiche:

La metrica del coefficiente Gini viene calcolata con la formula seguente:


Gini = 2 * Area under ROC - 1

Disallineamento etichetta

  • Modelli supportati: IA generativa e apprendimento automatico
  • Descrizione: misura l'asimmetria delle distribuzioni di etichette. Se la skewness è 0, il set di dati è perfettamente bilanciato, se è inferiore a -1 o superiore a 1, la distribuzione è altamente skewed, tutto ciò che sta in mezzo è moderatamente skewed.
  • Soglie predefinite:
    • Limite inferiore = -0.5
    • Limite superiore = 0.5
  • Tipi di problema: classificazione binaria e classificazione multi-classe
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo

Coefficiente di correlazione di Matthews

  • Modelli supportati: IA generativa e apprendimento automatico
  • Descrizione: misura la qualità delle classificazioni binarie e multiclasse tenendo conto di veri e falsi positivi e negativi. Misura bilanciata che può essere utilizzata anche se le classi sono di dimensioni diverse. Un valore del coefficiente di correlazione compreso tra -1 e +1. Un coefficiente di +1 rappresenta una previsione perfetta, 0 una previsione media casuale e -1 una previsione inversa.
  • Soglie predefinite: limite inferiore = 80%
  • Tipi di problema: classificazione binaria e classificazione multi-classe
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli della metrica disponibili: matrice di confusione

Errore percentuale assoluto medio

  • Modelli supportati: apprendimento automatico
  • Soglie predefinite: Limite superiore = 0.2
  • Tipo di problema: regressione
  • Descrizione: Misura la differenza percentuale media di errore tra i valori previsti e quelli effettivi
  • Eseguire le operazioni matematiche:

L'errore percentuale medio assoluto viene calcolato con la seguente formula:

Viene visualizzata la formula dell'errore percentuale medio assoluto

A è il valore effettivo e P è il valore previsto.

Errore percentuale assoluto medio simmetrico

  • Modelli supportati: Apprendimento automatico
  • Soglie predefinite: Limite superiore = 0.2
  • Tipo di problema: regressione
  • Descrizione: Misura la media simmetrica dell'errore percentuale di differenza tra i valori previsti e quelli effettivi
  • Eseguire le operazioni matematiche:

L'errore percentuale assoluto medio simmetrico viene calcolato con la seguente formula:

Viene visualizzata la formula dell'errore percentuale assoluto medio simmetrico

A è il valore effettivo e P è il valore previsto.

Coefficiente di correlazione di Pearson

  • Modelli supportati: Apprendimento automatico
  • Soglia predefinita: Limite inferiore = 80%
  • Tipo di problema: regressione
  • Descrizione: La metrica del coefficiente di correlazione di Pearson (Pearson) misura la relazione lineare tra la previsione del modello e i valori target. La metrica di Pearson calcola un valore del coefficiente di correlazione tra -1 e +1. Un valore di correlazione di -1 o +1 indica l'esistenza di una relazione lineare esatta, mentre un valore di 0 indica l'assenza di correlazione. Le correlazioni positive indicano che le variabili aumentano contemporaneamente, mentre le correlazioni negative indicano che all'aumentare di una variabile, un'altra diminuisce. Valori positivi elevati indicano che il modello predice valori simili ai valori target.

coefficiente di correlazione di Spearman

  • Modelli supportati: Apprendimento automatico
  • Soglia predefinita: Limite inferiore = 80%
  • Tipo di problema: regressione
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Descrizione: La metrica del coefficiente di correlazione di rango spearman (spearman) misura la monotonicità della relazione tra le previsioni del modello e i valori target. La metrica di Spearman calcola un valore del coefficiente di correlazione compreso tra -1 e +1. Un valore di correlazione di -1 o +1 indica l'esistenza di una relazione monotona esatta, mentre un valore di 0 indica l'assenza di correlazione. Le correlazioni positive indicano che le variabili aumentano contemporaneamente, mentre le correlazioni negative indicano che all'aumentare di una variabile, un'altra diminuisce.

Richiamo

  • Modelli supportati: Apprendimento automatico
  • Descrizione: la proporzione di previsioni corrette nella classe dei positivi
  • Soglie predefinite: limite inferiore = 80%
  • Tipo di problema: classificazione binaria
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: matrice di confusione
  • Eseguire le operazioni matematiche:

Il richiamo (R) è definito come il numero di veri positivi (Tp) sul numero di veri positivi più il numero di falsi negativi (Fn).

                       number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

Precisione

  • Modelli supportati: Apprendimento automatico
  • Descrizione: la proporzione delle previsioni corrette nelle previsioni della classe dei positivi
  • Soglie predefinite: limite inferiore = 80%
  • Tipo di problema: classificazione binaria
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: matrice di confusione
  • Eseguire le operazioni matematiche:

La precisione (P) è definita come il numero di veri positivi (Tp) rispetto al numero di veri positivi più il numero di falsi positivi (Fp).

                           number of true positives
Precision =  __________________________________________________________

             (number of true positives + the number of false positives)

F1-Measure

  • Modelli supportati: Apprendimento automatico
  • Descrizione: la media armonica di precisione e richiamo
  • Soglie predefinite: limite inferiore = 80%
  • Tipo di problema: classificazione binaria
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: matrice di confusione
  • Eseguire le operazioni matematiche:

La F1-measure è la media armonica ponderata o la media di precisione e richiamo.

          (precision * recall)
F1 = 2 *  ____________________

          (precision + recall)

Perdita logaritmica

  • Modelli supportati: Apprendimento automatico
  • Descrizione: la media delle probabilità della classe obiettivo dei logaritmi (confidenza). È anche nota come Log-verosimiglianza prevista.
  • Soglie predefinite: limite inferiore = 80%
  • Tipi di problema: classificazione binaria e classificazione multi-classe
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: nessuno
  • Eseguire le operazioni matematiche:

Per un modello binario, la perdita logaritmica è calcolata utilizzando la seguente formula:

-(y log(p) + (1-y)log(1-p))

dove p = etichetta vero e y = probabilità prevista

Per un modello multi-classe, la perdita logaritmica è calcolata utilizzando la seguente formula:

  M
-SUM Yo,c log(Po,c)
 c=1 

dove M > 2, p = etichetta vero e y = probabilità prevista

Varianza spiegata dalla proporzione

  • Modelli supportati: Apprendimento automatico
  • Descrizione: la varianza spiegata dalla proporzione rappresenta il rapporto tra varianza spiegata e varianza obiettivo. La varianza spiegata è la differenza tra la varianza obiettivo e la varianza di errore di previsione.
  • Soglie predefinite: limite inferiore = 80%
  • Tipo di problema: regressione
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: nessuno
  • Eseguire le operazioni matematiche:

La varianza spiegata della proporzione viene calcolata calcolando la media dei numeri, quindi per ogni numero sottrarre la media e quadrare i risultati. Quindi, elaborare le piazze.

                                  sum of squares between groups 
Proportion explained variance =  ________________________________

                                      sum of squares total

Errore assoluto della media

  • Modelli supportati: Apprendimento automatico
  • Descrizione: la media della differenza assoluta tra previsione del modello e valore obiettivo
  • Soglie predefinite: limite superiore = 80%
  • Tipo di problema: regressione
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: nessuno
  • Eseguire le operazioni matematiche:

L'errore assoluto medio è calcolato sommando tutti gli errori assoluti e diviendoli per il numero di errori.

                         SUM  | Yi - Xi | 
Mean absolute errors =  ____________________

                          number of errors

Errore quadratico medio

  • Modelli supportati: Apprendimento automatico
  • Descrizione: la media della differenza quadratica tra previsione del modello e valore obiettivo
  • Soglie predefinite: limite superiore = 80%
  • Tipo di problema: regressione
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: nessuno
  • Eseguire le operazioni matematiche:

L'errore quadratico medio nella sua forma più semplice è rappresentato dalla formula seguente.

                         SUM  (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors  =  ____________________________

                             number of errors

R-quadrato

  • Modelli supportati: Apprendimento automatico
  • Descrizione: il rapporto di differenza tra la varianza obiettivo e la varianza dell'errore di previsione rispetto alla varianza obiettivo
  • Soglie predefinite: limite inferiore = 80%
  • Tipo di problema: regressione
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: nessuno
  • Eseguire le operazioni matematiche:

La metrica R - quadrato è definita nella seguente formula.

                  explained variation
R-squared =       _____________________

                    total variation

Radice dell'errore quadratico medio

  • Modelli supportati: Apprendimento automatico
  • Descrizione: la radice quadrata della media della differenza quadratica tra previsione del modello e valore obiettivo
  • Soglie predefinite: limite superiore = 80%
  • Tipo di problema: regressione
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: nessuno
  • Eseguire le operazioni matematiche:

La radice dell'errore quadratico medio è uguale alla radice quadrata della media dei quadrati (previsioni meno valori osservati).

          ___________________________________________________________
RMSE  =  √(forecasts - observed values)*(forecasts - observed values)

Tasso veri positivi pesati

  • Modelli supportati: Apprendimento automatico e IA generativa
  • Descrizione: la media ponderata della classe TPR con pesi uguali alla probabilità della classe
  • Soglie predefinite: limite inferiore = 80%
  • Tipo di problema: classificazione multi-classe
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: matrice di confusione
  • Eseguire le operazioni matematiche:

Il tasso di veri positivi è calcolato con la formula seguente:

                  number of true positives
TPR =  _________________________________________________________

        number of true positives + number of false negatives

Tasso falsi positivi pesati

  • Modelli supportati: Apprendimento automatico e IA generativa
  • Descrizione: la proporzione di previsioni errate nella classe dei positivi
  • Soglie predefinite: limite inferiore = 80%
  • Tipo di problema: classificazione multi-classe
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: matrice di confusione
  • Eseguire le operazioni matematiche:

Il tasso ponderato di falsi positivi è l'applicazione dell'FPR con i dati ponderati.

                   number of false positives
FPR =  ______________________________________________________

       (number of false positives + number of true negatives)

Richiamo ponderato

  • Modelli supportati: Apprendimento automatico e IA generativa
  • Descrizione: la media ponderata del richiamo con pesi uguali alla probabilità della classe
  • Soglie predefinite: limite inferiore = 80%
  • Tipo di problema: classificazione multi-classe
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: matrice di confusione
  • Eseguire le operazioni matematiche:

Il richiamo ponderato (wR) è definito come il numero di veri positivi (Tp) sul numero di veri positivi più il numero di falsi negativi (Fn) utilizzati con i dati ponderati.

                          number of true positives
Recall =   ______________________________________________________

           number of true positives + number of false negatives

Precisione ponderata

  • Modelli supportati: Apprendimento automatico e IA generativa
  • Descrizione: la media ponderata della precisione con pesi uguali alla probabilità della classe
  • Soglie predefinite: limite inferiore = 80%
  • Tipo di problema: classificazione multi-classe
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: matrice di confusione
  • Eseguire le operazioni matematiche:

La precisione (P) è definita come il numero di veri positivi (Tp) rispetto al numero di veri positivi più il numero di falsi positivi (Fp).

                            number of true positives
Precision =  ________________________________________________________

             number of true positives + the number of false positives

Misura F1 ponderata

  • Modelli supportati: Apprendimento automatico e IA generativa
  • Descrizione: la media ponderata della misura F1 con pesi uguali alla probabilità della classe
  • Soglie predefinite: limite inferiore = 80%
  • Tipo di problema: classificazione multi-classe
  • Valori del grafico: l'ultimo valore nell'intervallo di tempo
  • Dettagli di metriche disponibili: matrice di confusione
  • Eseguire le operazioni matematiche:

La misura F1 ponderata è il risultato dell'utilizzo dei dati ponderati.

           precision * recall
F1 = 2 *  ____________________

           precision + recall

Configurazione di valutazioni della qualità con dati storici

È inoltre possibile configurare le valutazioni della qualità per generare metriche con i dati storici dei feedback ottenuti da finestre temporali precedenti. Per configurare le valutazioni con i dati storici di feedback segnati, è possibile utilizzare l'SDKPython per specificare i parametri per calcolare le metriche in una singola finestra temporale con date di inizio e fine:

parameters = {
    "start_date": "2024-08-05T11:00:18.0000Z",
    "end_date": "2024-08-05T14:00:18.0000Z"
}
run_details = wos_client.monitor_instances.run(monitor_instance_id=quality_monitor_instance_id, parameters = run_parameters, background_mode=False).result

Ulteriori informazioni

Revisione dei risultati di qualità per i modelli di apprendimento automatico

Argomento principale Configurazione delle valutazioni del modello