Valutazione dei modelli di prompt nei progetti

Ultimo aggiornamento: 10 apr 2025

È possibile valutare i modelli di prompt nei progetti con watsonx.governance per misurare le prestazioni delle attività del modello di fondazione e capire come il modello genera le risposte.

Con watsonx.governance, è possibile valutare i modelli di prompt nei progetti per misurare l'efficacia con cui i modelli di base generano risposte per i seguenti tipi di attività:

Classificazione
Riepilogo
Generazione
Risposta alle domande
Estrazione di entità
Generazione potenziata dal recupero

Prima di iniziare

Per valutare i modelli di prompt, è necessario avere accesso a un progetto. Per ulteriori informazioni, vedi Configurazione di watsonx.governance.

Per eseguire le valutazioni, devi accedere e passare a un account watsonx con watsonx.governance e le istanze watsonx.ai installate. Quindi aprire un progetto. Ti devono essere assegnati i ruoli Admin o Editor per l'account per aprire i progetti.

Nel progetto, è necessario utilizzare il Prompt Lab watsonx.ai per creare e salvare un modello di prompt. È necessario specificare le variabili quando si creano modelli di prompt per abilitare le valutazioni. La sezione Prova nel Prompt Lab deve contenere almeno una variabile.

Guarda questo video per vedere come valutare un modello di prompt in un progetto.

Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.

Le sezioni seguenti descrivono come valutare i modelli di prompt nei progetti ed esaminare i risultati della valutazione.

Esecuzione delle valutazioni

Per eseguire le valutazioni del modello di prompt, è possibile fare clic su Valuta quando si apre un modello di prompt salvato nella scheda Asset in watsonx.governance per aprire la procedura guidata Valuta modello di prompt . È possibile eseguire le valutazioni solo se sono stati assegnati i ruoli Amministratore o Editor per il proprio progetto.

Esegui valutazione del modello di prompt

Valutazione dei modelli di prompt con modelli personalizzati o sintonizzati

È possibile valutare i modelli di prompt che utilizzano distribuzioni di modelli di fondazione personalizzati o sintonizzati in un progetto. È inoltre possibile gestire e distribuire questi modelli quando si spostano tra diversi progetti. Per ulteriori informazioni, vedere Distribuzione programmatica di un modello di prompt.

Le sezioni seguenti descrivono come valutare i modelli di prompt nei progetti ed esaminare i risultati della valutazione.

Esecuzione delle valutazioni

Per eseguire le valutazioni dei modelli di prompt, potete selezionare Valuta quando aprite un modello di prompt salvato nella scheda Risorse del vostro progetto per aprire la procedura guidata di valutazione dei modelli di prompt.

Esegui valutazione del modello di prompt

Se non si dispone di un database associato all'istanza di watsonx.governance, è necessario associare un database prima di poter eseguire le valutazioni. Per associare un database, è necessario anche fare clic su Associa database nella finestra di dialogo Database richiesto per connettersi a un database. Per associare i database è necessario essere assegnati al ruolo di amministratore del progetto e dell'istanza di watsonx.governance.

Associare il database watsonx.governance al progetto

Seleziona dimensioni

La procedura guidata Valuta modello prompt visualizza le dimensioni disponibili per valutare il tipo di attività associata al prompt. È possibile espandere le dimensioni per visualizzare un elenco di metriche utilizzate per valutare le dimensioni selezionate.

Seleziona dimensioni da valutare

Watsonx.governance configura automaticamente le valutazioni per ogni dimensione con impostazioni predefinite. Per configurare le valutazioni con impostazioni diverse, è possibile selezionare Impostazioni avanzate per impostare le dimensioni del campione e selezionare le metriche che si desidera utilizzare per valutare il modello di prompt:

Selezionare le metriche da valutare

È inoltre possibile impostare valori di soglia per ogni metrica selezionata per le valutazioni:

Configura valutazioni

Seleziona dati di test

Per selezionare i dati di prova, è possibile sfogliare e caricare un file CSV oppure selezionare un asset dal progetto. I dati del test selezionati devono contenere colonne di riferimento e colonne per ciascuna variabile richiesta.

Seleziona dati di test

Variabili della mappa

È necessario mappare le variabili di richiesta alle colonne associate dei dati di test.

Mappa dei dati di test

Riesamina e valuta

Prima di eseguire la valutazione del modello di prompt, è possibile esaminare le selezioni per il tipo di attività di prompt, i dati di test caricati e il tipo di valutazione che viene eseguito.

Esaminare e valutare le impostazioni di valutazione del modello di prompt

Revisione dei risultati della valutazione

Una volta completata la valutazione, è possibile esaminare un riepilogo dei propri risultati della valutazione nella scheda Valuta in watsonx.governance per ottenere informazioni dettagliate sulle prestazioni del modello. Il riepilogo fornisce una panoramica dei punteggi delle metriche e delle violazioni delle soglie di punteggio predefinite per le valutazioni del modello di prompt.

Se è stato assegnato il ruolo Visualizzatore per il progetto, è possibile selezionare Valuta dall'elenco di asset nella scheda Asset per visualizzare i risultati della valutazione.

Esegui valutazione modello di prompt dall'elenco di asset

Per analizzare i risultati, è possibile fare clic sulla freccia accanto alla valutazione del modello di prompt per visualizzare le visualizzazioni dei risultati nel tempo. È anche possibile analizzare i risultati della valutazione dello stato del modello eseguita per impostazione predefinita durante le valutazioni del modello di prompt per comprendere l'efficienza con cui il modello elabora i propri dati.

Il menu Azioni fornisce anche le opzioni riportate di seguito per analizzare i risultati:

Valuta ora: eseguire la valutazione con un dataset di test differente
Tutte le valutazioni: visualizzare una cronologia delle valutazioni per comprendere come cambiano i risultati nel tempo.
Configurare i monitor: configurare le soglie di valutazione e le dimensioni del campione.
Visualizza informazioni modello: visualizza i dettagli sul tuo modello per comprendere come è configurato il tuo ambiente di distribuzione.

Analizzare i risultati della valutazione del modello di richiesta

Se si tiene traccia dei modelli di prompt, è possibile esaminare i risultati della valutazione per ottenere informazioni approfondite sulle prestazioni del modello per l'intero ciclo di vita dell'intelligenza artificiale.

Argomento principale: Valutazione dei modelli di IA.

L'argomento è stato utile?

0/1000

Prima di iniziareCopy link to section

Esecuzione delle valutazioniCopy link to section

Valutazione dei modelli di prompt con modelli personalizzati o sintonizzatiCopy link to section

Esecuzione delle valutazioniCopy link to section

Seleziona dimensioniCopy link to section

Seleziona dati di testCopy link to section

Variabili della mappaCopy link to section

Riesamina e valutaCopy link to section

Revisione dei risultati della valutazioneCopy link to section

Prima di iniziare

Esecuzione delle valutazioni

Valutazione dei modelli di prompt con modelli personalizzati o sintonizzati

Esecuzione delle valutazioni

Seleziona dimensioni

Seleziona dati di test

Variabili della mappa

Riesamina e valuta

Revisione dei risultati della valutazione