0 / 0
Torna alla versione inglese della documentazione
Revisione dei risultati della valutazione
Ultimo aggiornamento: 25 ott 2024
Revisione dei risultati della valutazione

Quando si configurano le valutazioni, è possibile analizzare i risultati delle valutazioni per ottenere informazioni sulle prestazioni del modello. Un dashboard fornisce gli strumenti per esaminare i dettagli delle prestazioni, condividere le informazioni sugli avvisi o stampare i report.

Alcuni dei dettagli che è possibile esaminare dalla dashboard Insights includono:

  • Esaminare i risultati di qualità per visualizzare una matrice di confusione che consente di stabilire se il modello distribuito ha analizzato correttamente le transazioni.
  • Visualizzare i risultati della deviazione per visualizzare le transazioni responsabili di una diminuzione dell'accuratezza, di una diminuzione della coerenza dei dati o di entrambi.
  • Esaminare i risultati della valutazione dello stato del modello, dove è possibile visualizzare un riepilogo delle metriche generate durante l'ultima valutazione con i riquadri della scorecard correlati con dimensioni differenti.

Il grafico di valutazione della distribuzione del modello viene visualizzato con ogni valutazione che mostra i dettagli su come il modello soddisfa le soglie impostate.

Per visualizzare i risultati nel dashboard Insights:

  1. In Watson Openscale, fai clic sull'icona Attività icona attività per aprire il dashboard Insights.

  2. Selezionare il riquadro del modello di distribuzione di cui si desidera visualizzare i risultati. Vengono visualizzati i risultati dell'ultima valutazione.

  3. Fare clic sulla freccia freccia di navigazione in una sezione di valutazione per visualizzare le visualizzazioni dei dati dei risultati della valutazione entro le impostazioni timeframe e Date range specificate. L'ultima valutazione per l'intervallo di tempo selezionato viene visualizzata anche durante l'intervallo di dati associato.

  4. Utilizzare il menu Azioni per visualizzare i dettagli sul proprio modello selezionando una delle seguenti opzioni di analisi:

    • Tutte le valutazioni: per i modelli di pre - produzione, visualizzare una cronologia delle valutazioni per comprendere come cambiano i risultati nel tempo.
    • Confronta: confronta i modelli con un grafico a matrice che evidenzia le metriche chiave per aiutarti a determinare quale versione di un modello è pronta per la produzione o quali modelli potrebbero aver bisogno di ulteriore formazione.
    • Visualizza informazioni modello: visualizza i dettagli sul tuo modello per comprendere come è configurato il tuo ambiente di distribuzione.
    • Scarica il report PDF: genera un report di riepilogo del modello che fornisce tutte le metriche e la spiegazione del motivo per cui è stato calcolato il punteggio.
    • Imposta avviso: invia avvisi relativi a violazioni di soglia a un indirizzo email.

È inoltre possibile utilizzare il menu Azioni per gestire i dati per le valutazioni del modello. Per ulteriori informazioni, consultare Invio di transazioni modello.

Con i grafici delle serie temporali, le valutazioni aggregate vengono visualizzate come punti dati che possono essere selezionati per visualizzare i risultati per un periodo di tempo specifico. Il timestamp di ciascun datapoint visualizzato al passaggio del mouse sui grafici delle serie temporali non corrisponde al timestamp dell'ultima valutazione a causa del comportamento di aggregazione predefinito.

Le sezioni seguenti descrivono come analizzare i risultati delle valutazioni dei modelli:

Revisione dei risultati della correttezza

Per aiutarvi a rivedere i risultati dell'equità, vengono forniti i calcoli per i seguenti tipi di set di dati:

  • Bilanciato: il calcolo bilanciato include la richiesta di calcolo del punteggio ricevuta per l'ora selezionata. Il calcolo include anche più record dalle ore precedenti se non è stato soddisfatto il numero minimo di record richiesti per la valutazione. Include record più perturbati e sintetizzati che vengono utilizzati per testare la risposta del modello quando il valore della funzione monitorata cambia.
  • Payload: le richieste di calcolo del punteggio effettive ricevute dal modello per l'ora selezionata.
  • Formazione: i record dei dati di addestramento utilizzati per addestrare il modello.
  • Distorsione annullata: l'output dell'algoritmo di annullamento distorsione dopo l'elaborazione dei dati di runtime e perturbati.

visualizzazione dei dati delle metriche di correttezza per ogni gruppo monitorato

Con il grafico, è possibile osservare i gruppi che sperimentano la distorsione e visualizzare la percentuale di risultati previsti per questi gruppi. È anche possibile visualizzare la percentuale di risultati previsti per i gruppi di riferimento, che è la media dei risultati previsti in tutti i gruppi di riferimento. I grafici indicano la presenza di distorsione confrontando la percentuale di risultati previsti per i gruppi monitorati in un intervallo di dati con la percentuale di risultati per i gruppi di riferimento.

Il grafico mostra anche la distribuzione del riferimento e dei valori monitorati per ogni valore distinto dell'attributo nei dati dalla tabella payload che è stata analizzata per identificare la distorsione. La distribuzione dei dati del payload viene visualizzata per ogni valore distinto degli attributi. È possibile utilizzare questi dati per correlare la quantità di distorsione con la quantità di dati ricevuti dal modello. È inoltre possibile visualizzare la percentuale di gruppi con risultati previsti per identificare le fonti di distorsione che hanno distorto i risultati e hanno portato ad un aumento della percentuale di risultati previsti per i gruppi di riferimento.

Esame dei risultati della qualità

Per aiutarvi a rivedere i risultati di qualità, viene visualizzata una matrice di confusione per aiutarvi a determinare se il modello implementato ha analizzato le transazioni in modo errato. Per i modelli di classificazione binaria, i record delle transazioni vengono classificati come falsi positivi o falsi negativi e come assegnazioni di classe errate per i modelli multiclasse. Per i problemi di classificazione binaria, la categoria target viene assegnata al livello positive o negative. La matrice di confusione mostra anche la percentuale di transazioni positive e negative analizzate correttamente. Per identificare la correttezza, la matrice evidenzia anche le categorie di transazioni con sfumature di colore verde e blu per indicare i livelli delle categorie più o meno corrette. È possibile utilizzare i menu Valore previsto e Valore effettivo per specificare la categoria di transazioni da analizzare.

tabella di dettaglio delle metriche di qualità

Revisione dei risultati della deviazione

Per le valutazioni della deviazione, è possibile visualizzare le transazioni responsabili di una diminuzione dell'accuratezza, di una diminuzione della coerenza dei dati o di entrambe. È inoltre possibile visualizzare il numero di transazioni identificate e le funzioni del proprio modello responsabili di una precisione ridotta o della congruenza dei dati.

Viene visualizzata la pagina delle transazioni di deviazione del modello

Per ulteriori informazioni, consultare Revisione delle transazioni di deviazione.

Revisione dei risultati della deviazione v2

Quando si esaminano i risultati della valutazione del drift v2, vengono visualizzati dei riquadri pieghevoli che possono essere aperti per visualizzare diversi dettagli sulle metriche. È possibile visualizzare la cronologia di come cambia il punteggio di ogni metrica nel tempo con un grafico di serie temporali o visualizzare i dettagli di come vengono calcolati l'output dei punteggi e le drift delle funzioni. È inoltre possibile visualizzare i dettagli di ciascuna caratteristica per capire come contribuiscono ai punteggi generati.

Vengono visualizzati i risultati della valutazione della deviazione v2

Revisione dei risultati di integrità del modello

Quando si rivedono i risultati della valutazione dello stato di salute del modello, viene fornito un riepilogo delle metriche generate durante l'ultima valutazione, con tessere di valutazione correlate alle diverse dimensioni. Per le metriche con più dimensioni, è possibile fare clic su un menu a discesa sui riquadri per selezionare la metrica che si desidera analizzare. Per analizzare il modo in cui le metriche cambiano nel tempo, è possibile fare clic sui riquadri comprimibili per ogni categoria per visualizzare i grafici delle serie temporali.

Vengono visualizzate le metriche di integrità del modello

Per ulteriori informazioni, consultare Metriche di valutazione dell'integrità del modello.

Argomento per i genitori: Revisione delle intuizioni del modello

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni