Configurazione delle valutazioni della qualità

Ultimo aggiornamento: 11 mar 2025

È possibile configurare le valutazioni della qualità per misurare la capacità del modello di fornire risultati corretti in base alle sue prestazioni.

Le valutazioni della qualità misurano la capacità del modello di prevedere risultati accurati, identificando i casi in cui la qualità del modello diminuisce, in modo da poter riqualificare il modello in modo appropriato. Per valutare il modello, fornisci i dati di feedback, ovvero i dati etichettati in cui è noto il risultato. Le valutazioni della qualità utilizzano le metriche per valutare il modo in cui il modello prevede il risultato che corrisponde ai risultati effettivi nell'insieme di dati etichettato.

Le sezioni seguenti descrivono come configurare le valutazioni di qualità:

Configurazione delle valutazioni di qualità per i modelli di apprendimento automatico

Prima di iniziare: fornire i dati di feedback

I dati di feedback sono come fornire un foglio di risposta con i risultati effettivamente osservati. Il monitor può eseguire il modello come se le risposte non fossero note, quindi confrontare i risultati previsti con i risultati effettivi e fornire punteggi di precisione basati sulle metriche di qualità.

Per fornire i dati di feedback che verranno utilizzati per valutare il modello, fare clic sulla pagina Endpoint ed effettuare una delle seguenti operazioni:

Fare clic su Carica dati di feedback e caricare un file con dati etichettati.
Fare clic sulla scheda Endpoint e specificare un endpoint che si connette all'origine dati di feedback.

Per i dettagli, consultare Gestione dei dati di feedback.

Impostazione delle soglie di qualità

Dopo che i dati di feedback sono disponibili per la valutazione, configurare le impostazioni di monitoraggio. Le soglie per le prestazioni accettabili per il modello vengono impostate rispetto ai risultati noti.

Per impostare i valori di soglia, dalla scheda Qualità , fare clic sull'icona Modifica per immettere i valori per la casella Soglia qualità , quindi modificare i valori per la dimensione del campione.

Soglia di avviso della qualità

Selezionare un valore che rappresenti un livello di accuratezza accettabile. Ad esempio, nel Modello di rischio di credito tedesco di esempio fornito con la configurazione automatica, l'avviso per la metrica Area sotto ROC è impostato su 95%. Se la qualità misurata per il modello scende al di sotto di tale valore, viene attivato un avviso. Un valore tipico per Area sotto ROC è l'80%.

Dimensioni minime e massime del campione

Impostando una dimensione minima del campione, si preveniene la misurazione della qualità fino a quando non sia disponibile un numero minimo di record nel dataset di valutazione. Ciò garantisce che la dimensione del campione non sia troppo piccola per l'asimmetria dei risultati. A ogni esecuzione del controllo di qualità, viene utilizzata la dimensione minima del campione per decidere il numero di record in base al quale eseguire il calcolo delle metriche di qualità.

La dimensione massima del campione consente di gestire al meglio il tempo e le risorse richieste per valutare il dataset. Se questa dimensione viene superata, vengono valutati solo i record più recenti. Ad esempio, nel campione Modello di rischio di credito tedesco , la dimensione minima del campione è impostata su 50 e non è specificata alcuna dimensione massima poiché si tratta di un campione di piccole dimensioni.

Configurazione delle valutazioni di qualità per i modelli di IA generativa

Quando si valutano i modelli di prompt, è possibile esaminare un riepilogo dei risultati della valutazione della qualità per il tipo di attività di classificazione del testo.

Il riepilogo visualizza i punteggi e violazioni per le metriche calcolate con le impostazioni predefinite.

Per configurare le valutazioni di qualità con le proprie impostazioni, è possibile impostare una dimensione di esempio minima e impostare valori di soglia per ogni metrica. La dimensione minima del campione indica il numero minimo di record di transazione del modello che si desidera valutare e i valori di soglia creano avvisi quando i punteggi della metrica violano le soglie. I punteggi della metrica devono essere superiori ai valori di soglia per evitare violazioni. Valori di metrica più elevati indicano punteggi migliori.

Metriche di qualità supportate

Quando si abilita la valutazione della qualità, è possibile generare metriche che aiutano a determinare la bontà del modello nel prevedere i risultati. I valori impostati come soglie della metrica determinano il modo in cui è possibile interpretare i punteggi della metrica. Per le metriche configurate con soglie più basse, punteggi più elevati indicano risultati migliori. Per le metriche configurate con soglie superiori, i punteggi inferiori indicano risultati migliori.

Le valutazioni di qualità generano le seguenti metriche:

Area sotto la curva ROC

Modelli supportati: Apprendimento automatico
Descrizione: Area sotto la curva di richiamo e tasso di falsi positivi per calcolare la sensibilità rispetto al tasso di fallout
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione

Area sotto la curva PR

Modelli supportati: Apprendimento automatico
Descrizione: l'area sotto la curva di precisione e richiamo
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

L'area sotto Richiamo precisione fornisce il totale per entrambi Precision + Recall.

       n
AveP = ∑ P(k)∆r(k)
      k=1

La precisione (P) è definita come il numero di veri positivi (Tp) rispetto al numero di veri positivi più il numero di falsi positivi (Fp).

               number of true positives
Precision =   ______________________________________________________

              (number of true positives + number of false positives)

Il richiamo (R) è definito come il numero di veri positivi (Tp) sul numero di veri positivi più il numero di falsi negativi (Fn).

            number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

Accuratezza

Modelli supportati: Apprendimento automatico e IA generativa
Descrizione: la proporzione di previsioni corrette
Soglie predefinite: limite inferiore = 80%
Tipi di problema: classificazione binaria e classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Comprensione dell'accuratezza:
l'accuratezza può significare cose differenti a seconda del tipo di algoritmo;
- Classificazione multi-classe: l'accuratezza misura il numero di volte in cui una qualsiasi classe è stata prevista correttamente, normalizzata per il numero di punti di dati. Per ulteriori dettagli, vedi Multi - class classification nella documentazione di Apache Spark .
- Classificazione binaria: per un algoritmo di classificazione binaria, l'accuratezza è misurata come l'area sotto una curva di ROC. Per ulteriori dettagli, vedi Classificazione binaria nella documentazione di Apache Spark .
- Regressione: gli algoritmi di regressione vengono misurati utilizzando il coefficiente di determinazione o R2. Per ulteriori dettagli, vedi Valutazione del modello di regressione nella documentazione Apache Spark .

Tasso di veri positivi

Modelli supportati: Apprendimento automatico
Descrizione: la proporzione delle previsioni corrette nelle previsioni della classe dei positivi
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

Il tasso di veri positivi è calcolato con la formula seguente:

                  number of true positives
TPR =  _________________________________________________________

        (number of true positives + number of false negatives)

Tasso di falsi positivi

Modelli supportati: Apprendimento automatico
Descrizione: la proporzione di previsioni errate nella classe dei positivi
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

La percentuale di falsi positivi è il quoziente del numero totale di falsi positivi diviso per la somma dei falsi positivi e dei veri negativi.

                        number of false positives
False positive rate =  ______________________________________________________

                       (number of false positives + number of true negatives)

Punteggio Brier

Modelli supportati: Apprendimento automatico
Descrizione: misura la differenza quadratica media tra la probabilità prevista e il valore di destinazione. Punteggi più elevati indicano che le probabilità previste del modello non corrispondono al valore di destinazione.
Soglie predefinite:
- Limite superiore= 80%
Tipo di problema: classificazione binaria
Eseguire le operazioni matematiche:

La metrica del punteggio più alto viene calcolata con la seguente formula:

BrierScore = 1/N * sum( (p - y)^2 )
Where  y = actual outcome, and p = predicted probability

Coefficiente Gini

Modelli supportati: Apprendimento automatico
Descrizione: il coefficiente di Gini misura il modo in cui i modelli distinguono tra due classi. Viene calcolata come due volte l'area tra la curva ROC e la linea diagonale del grafico. Se il valore del coefficiente di Gini è 0, il modello non mostra alcuna capacità di discriminazione e il valore 1 indica una discriminazione perfetta.
Soglie predefinite:
- Limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

La metrica del coefficiente Gini viene calcolata con la formula seguente:


Gini = 2 * Area under ROC - 1

Disallineamento etichetta

Modelli supportati: IA generativa e apprendimento automatico
Descrizione: misura l'asimmetria delle distribuzioni di etichette. Se la skewness è 0, il set di dati è perfettamente bilanciato, se è inferiore a -1 o superiore a 1, la distribuzione è altamente skewed, tutto ciò che sta in mezzo è moderatamente skewed.
Soglie predefinite:
- Limite inferiore = -0.5
- Limite superiore = 0.5
Tipi di problema: classificazione binaria e classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo

Coefficiente di correlazione di Matthews

Modelli supportati: IA generativa e apprendimento automatico
Descrizione: misura la qualità delle classificazioni binarie e multiclasse tenendo conto di veri e falsi positivi e negativi. Misura bilanciata che può essere utilizzata anche se le classi sono di dimensioni diverse. Un valore del coefficiente di correlazione compreso tra -1 e +1. Un coefficiente di +1 rappresenta una previsione perfetta, 0 una previsione media casuale e -1 una previsione inversa.
Soglie predefinite: limite inferiore = 80%
Tipi di problema: classificazione binaria e classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli della metrica disponibili: matrice di confusione

Errore percentuale assoluto medio

Modelli supportati: apprendimento automatico
Soglie predefinite: Limite superiore = 0.2
Tipo di problema: regressione
Descrizione: Misura la differenza percentuale media di errore tra i valori previsti e quelli effettivi
Eseguire le operazioni matematiche:

L'errore percentuale medio assoluto viene calcolato con la seguente formula:

Viene visualizzata la formula dell'errore percentuale medio assoluto

A è il valore effettivo e P è il valore previsto.

Errore percentuale assoluto medio simmetrico

Modelli supportati: Apprendimento automatico
Soglie predefinite: Limite superiore = 0.2
Tipo di problema: regressione
Descrizione: Misura la media simmetrica dell'errore percentuale di differenza tra i valori previsti e quelli effettivi
Eseguire le operazioni matematiche:

L'errore percentuale assoluto medio simmetrico viene calcolato con la seguente formula:

Viene visualizzata la formula dell'errore percentuale assoluto medio simmetrico

A è il valore effettivo e P è il valore previsto.

Coefficiente di correlazione di Pearson

Modelli supportati: Apprendimento automatico
Soglia predefinita: Limite inferiore = 80%
Tipo di problema: regressione
Descrizione: La metrica del coefficiente di correlazione di Pearson (Pearson) misura la relazione lineare tra la previsione del modello e i valori target. La metrica di Pearson calcola un valore del coefficiente di correlazione tra -1 e +1. Un valore di correlazione di -1 o +1 indica l'esistenza di una relazione lineare esatta, mentre un valore di 0 indica l'assenza di correlazione. Le correlazioni positive indicano che le variabili aumentano contemporaneamente, mentre le correlazioni negative indicano che all'aumentare di una variabile, un'altra diminuisce. Valori positivi elevati indicano che il modello predice valori simili ai valori target.

coefficiente di correlazione di Spearman

Modelli supportati: Apprendimento automatico
Soglia predefinita: Limite inferiore = 80%
Tipo di problema: regressione
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Descrizione: La metrica del coefficiente di correlazione di rango spearman (spearman) misura la monotonicità della relazione tra le previsioni del modello e i valori target. La metrica di Spearman calcola un valore del coefficiente di correlazione compreso tra -1 e +1. Un valore di correlazione di -1 o +1 indica l'esistenza di una relazione monotona esatta, mentre un valore di 0 indica l'assenza di correlazione. Le correlazioni positive indicano che le variabili aumentano contemporaneamente, mentre le correlazioni negative indicano che all'aumentare di una variabile, un'altra diminuisce.

Richiamo

Modelli supportati: Apprendimento automatico
Descrizione: la proporzione di previsioni corrette nella classe dei positivi
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

Il richiamo (R) è definito come il numero di veri positivi (Tp) sul numero di veri positivi più il numero di falsi negativi (Fn).

                       number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

Precisione

Modelli supportati: Apprendimento automatico
Descrizione: la proporzione delle previsioni corrette nelle previsioni della classe dei positivi
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

La precisione (P) è definita come il numero di veri positivi (Tp) rispetto al numero di veri positivi più il numero di falsi positivi (Fp).

                           number of true positives
Precision =  __________________________________________________________

             (number of true positives + the number of false positives)

F1-Measure

Modelli supportati: Apprendimento automatico
Descrizione: la media armonica di precisione e richiamo
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione binaria
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

La F1-measure è la media armonica ponderata o la media di precisione e richiamo.

          (precision * recall)
F1 = 2 *  ____________________

          (precision + recall)

Perdita logaritmica

Modelli supportati: Apprendimento automatico
Descrizione: la media delle probabilità della classe obiettivo dei logaritmi (confidenza). È anche nota come Log-verosimiglianza prevista.
Soglie predefinite: limite inferiore = 80%
Tipi di problema: classificazione binaria e classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:

Per un modello binario, la perdita logaritmica è calcolata utilizzando la seguente formula:

-(y log(p) + (1-y)log(1-p))

dove p = etichetta vero e y = probabilità prevista

Per un modello multi-classe, la perdita logaritmica è calcolata utilizzando la seguente formula:

  M
-SUM Yo,c log(Po,c)
 c=1

dove M > 2, p = etichetta vero e y = probabilità prevista

Varianza spiegata dalla proporzione

Modelli supportati: Apprendimento automatico
Descrizione: la varianza spiegata dalla proporzione rappresenta il rapporto tra varianza spiegata e varianza obiettivo. La varianza spiegata è la differenza tra la varianza obiettivo e la varianza di errore di previsione.
Soglie predefinite: limite inferiore = 80%
Tipo di problema: regressione
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:

La varianza spiegata della proporzione viene calcolata calcolando la media dei numeri, quindi per ogni numero sottrarre la media e quadrare i risultati. Quindi, elaborare le piazze.

                                  sum of squares between groups 
Proportion explained variance =  ________________________________

                                      sum of squares total

Errore assoluto della media

Modelli supportati: Apprendimento automatico
Descrizione: la media della differenza assoluta tra previsione del modello e valore obiettivo
Soglie predefinite: limite superiore = 80%
Tipo di problema: regressione
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:

L'errore assoluto medio è calcolato sommando tutti gli errori assoluti e diviendoli per il numero di errori.

                         SUM  | Yi - Xi | 
Mean absolute errors =  ____________________

                          number of errors

Errore quadratico medio

Modelli supportati: Apprendimento automatico
Descrizione: la media della differenza quadratica tra previsione del modello e valore obiettivo
Soglie predefinite: limite superiore = 80%
Tipo di problema: regressione
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:

L'errore quadratico medio nella sua forma più semplice è rappresentato dalla formula seguente.

                         SUM  (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors  =  ____________________________

                             number of errors

R-quadrato

Modelli supportati: Apprendimento automatico
Descrizione: il rapporto di differenza tra la varianza obiettivo e la varianza dell'errore di previsione rispetto alla varianza obiettivo
Soglie predefinite: limite inferiore = 80%
Tipo di problema: regressione
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:

La metrica R - quadrato è definita nella seguente formula.

                  explained variation
R-squared =       _____________________

                    total variation

Radice dell'errore quadratico medio

Modelli supportati: Apprendimento automatico
Descrizione: la radice quadrata della media della differenza quadratica tra previsione del modello e valore obiettivo
Soglie predefinite: limite superiore = 80%
Tipo di problema: regressione
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: nessuno
Eseguire le operazioni matematiche:

La radice dell'errore quadratico medio è uguale alla radice quadrata della media dei quadrati (previsioni meno valori osservati).

          ___________________________________________________________
RMSE  =  √(forecasts - observed values)*(forecasts - observed values)

Tasso veri positivi pesati

Modelli supportati: Apprendimento automatico e IA generativa
Descrizione: la media ponderata della classe TPR con pesi uguali alla probabilità della classe
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

Il tasso di veri positivi è calcolato con la formula seguente:

                  number of true positives
TPR =  _________________________________________________________

        number of true positives + number of false negatives

Tasso falsi positivi pesati

Modelli supportati: Apprendimento automatico e IA generativa
Descrizione: la proporzione di previsioni errate nella classe dei positivi
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

Il tasso ponderato di falsi positivi è l'applicazione dell'FPR con i dati ponderati.

                   number of false positives
FPR =  ______________________________________________________

       (number of false positives + number of true negatives)

Richiamo ponderato

Modelli supportati: Apprendimento automatico e IA generativa
Descrizione: la media ponderata del richiamo con pesi uguali alla probabilità della classe
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

Il richiamo ponderato (wR) è definito come il numero di veri positivi (Tp) sul numero di veri positivi più il numero di falsi negativi (Fn) utilizzati con i dati ponderati.

                          number of true positives
Recall =   ______________________________________________________

           number of true positives + number of false negatives

Precisione ponderata

Modelli supportati: Apprendimento automatico e IA generativa
Descrizione: la media ponderata della precisione con pesi uguali alla probabilità della classe
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

La precisione (P) è definita come il numero di veri positivi (Tp) rispetto al numero di veri positivi più il numero di falsi positivi (Fp).

                            number of true positives
Precision =  ________________________________________________________

             number of true positives + the number of false positives

Misura F1 ponderata

Modelli supportati: Apprendimento automatico e IA generativa
Descrizione: la media ponderata della misura F1 con pesi uguali alla probabilità della classe
Soglie predefinite: limite inferiore = 80%
Tipo di problema: classificazione multi-classe
Valori del grafico: l'ultimo valore nell'intervallo di tempo
Dettagli di metriche disponibili: matrice di confusione
Eseguire le operazioni matematiche:

La misura F1 ponderata è il risultato dell'utilizzo dei dati ponderati.

           precision * recall
F1 = 2 *  ____________________

           precision + recall

Configurazione di valutazioni della qualità con dati storici

È inoltre possibile configurare le valutazioni della qualità per generare metriche con i dati storici dei feedback ottenuti da finestre temporali precedenti. Per configurare le valutazioni con i dati storici di feedback segnati, è possibile utilizzare l'SDKPython per specificare i parametri per calcolare le metriche in una singola finestra temporale con date di inizio e fine:

parameters = {
    "start_date": "2024-08-05T11:00:18.0000Z",
    "end_date": "2024-08-05T14:00:18.0000Z"
}
run_details = wos_client.monitor_instances.run(monitor_instance_id=quality_monitor_instance_id, parameters = run_parameters, background_mode=False).result

Ulteriori informazioni

Revisione dei risultati di qualità per i modelli di apprendimento automatico

Argomento principale Configurazione delle valutazioni del modello

L'argomento è stato utile?

0/1000

Configurazione delle valutazioni di qualità per i modelli di apprendimento automaticoCopy link to section

Prima di iniziare: fornire i dati di feedbackCopy link to section

Impostazione delle soglie di qualitàCopy link to section

Soglia di avviso della qualitàCopy link to section

Dimensioni minime e massime del campioneCopy link to section

Configurazione delle valutazioni di qualità per i modelli di IA generativaCopy link to section

Metriche di qualità supportateCopy link to section

Area sotto la curva ROCCopy link to section

Area sotto la curva PRCopy link to section

AccuratezzaCopy link to section

Tasso di veri positiviCopy link to section

Tasso di falsi positiviCopy link to section

Punteggio BrierCopy link to section

Coefficiente GiniCopy link to section

Disallineamento etichettaCopy link to section

Coefficiente di correlazione di MatthewsCopy link to section

Errore percentuale assoluto medioCopy link to section

Errore percentuale assoluto medio simmetricoCopy link to section

Coefficiente di correlazione di PearsonCopy link to section

coefficiente di correlazione di SpearmanCopy link to section

RichiamoCopy link to section

PrecisioneCopy link to section

F1-MeasureCopy link to section

Perdita logaritmicaCopy link to section

Varianza spiegata dalla proporzioneCopy link to section

Errore assoluto della mediaCopy link to section

Errore quadratico medioCopy link to section

R-quadratoCopy link to section

Radice dell'errore quadratico medioCopy link to section

Tasso veri positivi pesatiCopy link to section

Tasso falsi positivi pesatiCopy link to section

Richiamo ponderatoCopy link to section

Precisione ponderataCopy link to section

Misura F1 ponderataCopy link to section

Configurazione di valutazioni della qualità con dati storiciCopy link to section

Ulteriori informazioniCopy link to section

Configurazione delle valutazioni di qualità per i modelli di apprendimento automatico

Prima di iniziare: fornire i dati di feedback

Impostazione delle soglie di qualità

Soglia di avviso della qualità

Dimensioni minime e massime del campione

Configurazione delle valutazioni di qualità per i modelli di IA generativa

Metriche di qualità supportate

Area sotto la curva ROC

Area sotto la curva PR

Accuratezza

Tasso di veri positivi

Tasso di falsi positivi

Punteggio Brier

Coefficiente Gini

Disallineamento etichetta

Coefficiente di correlazione di Matthews

Errore percentuale assoluto medio

Errore percentuale assoluto medio simmetrico

Coefficiente di correlazione di Pearson

coefficiente di correlazione di Spearman

Richiamo

Precisione

F1-Measure

Perdita logaritmica

Varianza spiegata dalla proporzione

Errore assoluto della media

Errore quadratico medio

R-quadrato

Radice dell'errore quadratico medio

Tasso veri positivi pesati

Tasso falsi positivi pesati

Richiamo ponderato

Precisione ponderata

Misura F1 ponderata

Configurazione di valutazioni della qualità con dati storici

Ulteriori informazioni