Configurazione delle valutazioni qualitative dell'IA generativa

Ultimo aggiornamento: 11 mar 2025

È possibile utilizzare le valutazioni di qualità dell'IA generativa configurata per misurare il rendimento del modello di base nell'esecuzione delle attività.

Quando si valutano i modelli di prompt, è possibile esaminare un riepilogo dei risultati di valutazione della qualità AI generativa per i seguenti tipi di attività:

Riepilogo del testo
Generazione di contenuto
Estrazione di entità
Risposta alle domande
Richiamo RAG (augmented Generation)

Il riepilogo visualizza i punteggi e violazioni per le metriche calcolate con le impostazioni predefinite.

Per configurare le valutazioni di qualità AI generative con le proprie impostazioni, è possibile impostare una dimensione di esempio minima e impostare valori di soglia per ciascuna metrica come mostrato nel seguente esempio:

Configura valutazioni di qualità AI generative

La dimensione minima del campione indica il numero minimo di record di transazione del modello che si desidera valutare e i valori di soglia creano avvisi quando i punteggi della metrica violano le soglie. I punteggi della metrica devono essere superiori ai valori di soglia inferiori per evitare violazioni. Valori di metrica più elevati indicano punteggi migliori.

È inoltre possibile configurare le impostazioni per calcolare le metriche con i modelli LLM-as-a-judge. I modelli LLM-as-a-judge sono modelli LLM che possono essere utilizzati per valutare le prestazioni di altri modelli.

Per calcolare le metriche con i modelli LLM-as-a-judge, è necessario selezionare Gestisci per aggiungere un sistema " generative_ai_evaluator quando si configurano le impostazioni di valutazione.

Aggiunta di un valutatore gen AI per la valutazione dei modelli LLM-as-a-judge

È possibile selezionare un valutatore per calcolare le metriche di qualità delle risposte e di qualità del recupero.

Selezionare il valutatore gen AI per le impostazioni metriche

È inoltre possibile utilizzare un blocco note per creare un valutatore quando si impostano i modelli di prompt e si rivedono i risultati della valutazione per l'attività RAG in watsonx.governance

Argomento principale: Valutazione dei modelli di IA

L'argomento è stato utile?

0/1000