È possibile valutare i modelli di prompt nei progetti con watsonx.governance per misurare le prestazioni dei task foundation model e capire come il modello genera le risposte.
Con watsonx.governance, è possibile valutare i modelli di prompt nei progetti per misurare l'efficacia con cui i modelli di base generano risposte per i seguenti tipi di attività:
- Classificazione
- Riepilogo
- Generazione
- Risposta alle domande
- Estrazione di entità
- Retrieval-Augmented Generation
Prima di iniziare
Per valutare i modelli di prompt, è necessario avere accesso a un progetto. Per ulteriori informazioni, vedi Configurazione di watsonx.governance.
Per eseguire le valutazioni, devi accedere e passare a un account watsonx con watsonx.governance e le istanze watsonx.ai installate. Quindi aprire un progetto. Ti devono essere assegnati i ruoli Admin o Editor per l'account per aprire i progetti.
Nel progetto, è necessario utilizzare il Prompt Lab watsonx.ai per creare e salvare un modello di prompt. È necessario specificare le variabili quando si creano modelli di prompt per abilitare le valutazioni. La sezione Prova nel Prompt Lab deve contenere almeno una variabile.
Guarda questo video per vedere come valutare un modello di prompt in un progetto.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Le sezioni seguenti descrivono come valutare i modelli di prompt nei progetti ed esaminare i risultati della valutazione.
Esecuzione delle valutazioni
Per eseguire le valutazioni del modello di prompt, è possibile fare clic su Valuta quando si apre un modello di prompt salvato nella scheda Asset in watsonx.governance per aprire la procedura guidata Valuta modello di prompt . È possibile eseguire le valutazioni solo se sono stati assegnati i ruoli Amministratore o Editor per il proprio progetto.
Seleziona dimensioni
La procedura guidata Valuta modello prompt visualizza le dimensioni disponibili per valutare il tipo di attività associata al prompt. È possibile espandere le dimensioni per visualizzare un elenco di metriche utilizzate per valutare le dimensioni selezionate.
Watsonx.governance configura automaticamente le valutazioni per ogni dimensione con impostazioni predefinite. Per configurare le valutazioni con impostazioni diverse, è possibile selezionare Impostazioni avanzate per impostare le dimensioni del campione e selezionare le metriche che si desidera utilizzare per valutare il modello di prompt:
È inoltre possibile impostare valori di soglia per ogni metrica selezionata per le valutazioni:
Seleziona dati di test
Per selezionare i dati di prova, è possibile sfogliare e caricare un file CSV oppure selezionare un asset dal progetto. I dati del test selezionati devono contenere colonne di riferimento e colonne per ciascuna variabile richiesta.
Variabili della mappa
È necessario mappare le variabili di richiesta alle colonne associate dei dati di test.
Riesamina e valuta
Prima di eseguire la valutazione del modello di prompt, è possibile esaminare le selezioni per il tipo di attività di prompt, i dati di test caricati e il tipo di valutazione che viene eseguito.
Revisione dei risultati della valutazione
Una volta completata la valutazione, è possibile esaminare un riepilogo dei propri risultati della valutazione nella scheda Valuta in watsonx.governance per ottenere informazioni dettagliate sulle prestazioni del modello. Il riepilogo fornisce una panoramica dei punteggi delle metriche e delle violazioni delle soglie di punteggio predefinite per le valutazioni del modello di prompt.
Se è stato assegnato il ruolo Visualizzatore per il progetto, è possibile selezionare Valuta dall'elenco di asset nella scheda Asset per visualizzare i risultati della valutazione.
Per analizzare i risultati, è possibile fare clic sulla freccia accanto alla valutazione del modello di prompt per visualizzare le visualizzazioni dei risultati nel tempo. È anche possibile analizzare i risultati della valutazione dello stato del modello eseguita per impostazione predefinita durante le valutazioni del modello di prompt per comprendere l'efficienza con cui il modello elabora i propri dati.
Il menu Azioni fornisce anche le opzioni riportate di seguito per analizzare i risultati:
- Valuta ora: eseguire la valutazione con un dataset di test differente
- Tutte le valutazioni: visualizzare una cronologia delle valutazioni per comprendere come cambiano i risultati nel tempo.
- Configurare i monitor: configurare le soglie di valutazione e le dimensioni del campione.
- Visualizza informazioni modello: visualizza i dettagli sul tuo modello per comprendere come è configurato il tuo ambiente di distribuzione.
Se si tiene traccia dei modelli di prompt, è possibile esaminare i risultati della valutazione per ottenere informazioni approfondite sulle prestazioni del modello per l'intero ciclo di vita dell'intelligenza artificiale.
Argomento principale: Valutazione dei modelli di IA.