0 / 0
Torna alla versione inglese della documentazione
Valutazione dei modelli di prompt negli spazi di distribuzione
Ultimo aggiornamento: 13 dic 2024
Valutazione dei modelli di prompt negli spazi di distribuzione

È possibile valutare i modelli di prompt negli spazi di distribuzione con il servizio watsonx.governance per misurare le prestazioni delle attività foundation model e capire come il modello genera le risposte.

Con watsonx.governance, puoi valutare i modelli di prompt negli spazi di distribuzione per misurare l'efficacia con cui i tuoi modelli di base generano risposte per i seguenti tipi di attività:

  • Classificazione
  • Riepilogo
  • Generazione
  • Risposta alle domande
  • Estrazione di entità
  • Retrieval-Augmented Generation

I modelli di prompt sono input di prompt salvati per i modelli Foundation. È possibile valutare le distribuzioni dei modelli di prompt negli spazi di pre - produzione e di produzione.

È possibile valutare i modelli di prompt per misurare le prestazioni dei modelli di fondazione personalizzatiBringYourOwnModel) o sintonizzati.

Prima di iniziare

Autorizzazioni richieste
È necessario disporre dei seguenti ruoli per valutare i modelli di prompt: ruolo
Admin o Editor in uno spazio di distribuzione

Nel vostro progetto, dovete anche creare e salvare un modello di prompt e promuovere un modello di prompt in uno spazio di distribuzione. È necessario specificare almeno una variabile quando si creano modelli di prompt per abilitare le valutazioni.

Distribuzione di modelli di prompt per modelli personalizzati o sintonizzati

È possibile valutare i modelli di prompt per misurare le prestazioni quando si distribuiscono modelli di fondazione personalizzati o sintonizzati. Quando si distribuiscono questi modelli, è possibile spostare i modelli di prompt in spazi diversi. Per ulteriori informazioni, vedere Distribuzione programmatica di un modello di prompt.

Le seguenti sezioni descrivono come valutare i modelli di prompt negli spazi di distribuzione ed esaminare i risultati della valutazione:

Valutazione dei modelli di prompt negli spazi di pre - produzione

Esegui valutazione

Per eseguire le valutazioni del modello di prompt, è possibile fare clic su Valuta nella scheda Valutazioni quando si apre una distribuzione per aprire la procedura guidata Valuta modello di prompt . Puoi eseguire le valutazioni solo se ti sono stati assegnati i ruoli Admin o Editor per il tuo spazio di distribuzione.

Esegui valutazione del modello di prompt

Se non hai un database associato alla tua istanza watsonx.governance , devi anche associare un database prima di eseguire le valutazioni. Per associare un database, è necessario fare clic su Associa database nella casella di dialogo Database richiesto per collegarsi a un database. Ti deve essere assegnato il ruolo Admin per il tuo spazio di distribuzione e l'istanza watsonx.governance per associare i database.

Associare il database watsonx.governance allo spazio di distribuzione

Seleziona dimensioni

La procedura guidata Valuta modello prompt visualizza le dimensioni disponibili per valutare il tipo di attività associata al prompt. È possibile espandere le dimensioni per visualizzare un elenco di metriche utilizzate per valutare le dimensioni selezionate.

Seleziona dimensioni da valutare

Watsonx.governance configura automaticamente le valutazioni per ogni dimensione con impostazioni predefinite. Per configurare le valutazioni con impostazioni diverse, è possibile selezionare Impostazioni avanzate per impostare le dimensioni del campione e selezionare le metriche da utilizzare per valutare il modello di prompt:

Selezionare le metriche da valutare

È inoltre possibile impostare valori di soglia per ogni metrica selezionata per le valutazioni:

Configura valutazioni

Seleziona dati di test

Per selezionare i dati di prova, è possibile sfogliare e caricare un file CSV oppure selezionare una risorsa dallo spazio di distribuzione. I dati del test selezionati devono contenere colonne di riferimento e colonne per ciascuna variabile richiesta.

Seleziona dati di test

Variabili della mappa

È necessario mappare le variabili di richiesta alle colonne associate dei dati di test.

Mappa dei dati di test

Riesamina e valuta

È possibile esaminare le selezioni per il tipo di attività prompt, i dati di test caricati e il tipo di valutazione che viene eseguito. È necessario selezionare Valuta per eseguire la valutazione.

Esaminare e valutare le impostazioni di valutazione del modello di prompt

Revisione dei risultati della valutazione

Una volta terminata la valutazione, è possibile esaminare un riepilogo dei risultati della valutazione nella scheda Valutazioni in watsonx.governance per ottenere informazioni dettagliate sulle prestazioni del modello. Il riepilogo fornisce una panoramica dei punteggi delle metriche e delle violazioni delle soglie di punteggio predefinite per le valutazioni del modello di prompt.

Per analizzare i risultati, è possibile fare clic sulla freccia freccia di navigazione accanto alla valutazione del modello di prompt per visualizzare le visualizzazioni dei risultati nel tempo. È anche possibile analizzare i risultati della valutazione dello stato del modello eseguita per impostazione predefinita durante le valutazioni del modello di prompt per comprendere l'efficienza con cui il modello elabora i propri dati.

Il menu Azioni fornisce anche le opzioni riportate di seguito per analizzare i risultati:

  • Valuta ora: eseguire la valutazione con un dataset di test differente
  • Tutte le valutazioni: visualizzare una cronologia delle valutazioni per comprendere come cambiano i risultati nel tempo.
  • Configurare i monitor: configurare le soglie di valutazione e le dimensioni del campione.
  • Visualizza informazioni modello: visualizza i dettagli sul tuo modello per comprendere come è configurato il tuo ambiente di distribuzione.

Analizzare i risultati della valutazione del modello di richiesta

Se si tiene traccia dei modelli di prompt, è possibile esaminare i risultati della valutazione per ottenere informazioni approfondite sulle prestazioni del modello durante il ciclo di vita AI.

Valutazione dei modelli di prompt negli spazi di produzione

Attiva valutazione

Per eseguire le valutazioni del modello di prompt, è possibile fare clic su Attiva nella scheda Valutazioni quando si apre una distribuzione per aprire il wizard Valuta modello di prompt .

Esegui valutazione del modello di prompt

Se non hai un'istanza watsonx.governance associata al tuo spazio di distribuzione, devi selezionare Associa un'istanza del servizio nella casella di dialogo Associa un'istanza del servizio prima di poter eseguire le valutazioni. Nella finestra Associa istanza per valutazione , devi scegliere l'istanza watsonx.governance che vuoi utilizzare e selezionare Associa un'istanza del servizio per associare un'istanza al tuo spazio di distribuzione. Devi avere il ruolo Admin per il tuo spazio di distribuzione per associare le istanze.

Associa istanza watsonx.governance

Se non hai un database associato alla tua istanza watsonx.governance , devi anche associare un database prima di eseguire le valutazioni. Per associare un database, è necessario fare clic su Associa database nella casella di dialogo Database richiesto per collegarsi a un database. Ti deve essere assegnato il ruolo Admin per il tuo spazio di distribuzione e l'istanza watsonx.governance per associare i database.

Associare il database watsonx.governance al progetto

Seleziona dimensioni

La procedura guidata Valuta modello prompt visualizza le dimensioni disponibili per valutare il tipo di attività associata al prompt. È possibile fornire un nome colonna etichetta per l'output di riferimento specificato nei dati di feedback. È anche possibile espandere le dimensioni per visualizzare l'elenco di metriche utilizzate per valutare le dimensioni selezionate.

Seleziona dimensioni da valutare

Watsonx.governance configura automaticamente le valutazioni per ogni dimensione con impostazioni predefinite. Per configurare le valutazioni con impostazioni diverse, è possibile selezionare Impostazioni avanzate per impostare le dimensioni del campione e selezionare le metriche da utilizzare per valutare il modello di prompt:

Selezionare le metriche da valutare

È inoltre possibile impostare valori di soglia per ogni metrica selezionata per le valutazioni:

Configura valutazioni

Riesamina e valuta

È possibile rivedere le selezioni per il tipo di attività di prompt e il tipo di valutazione che viene eseguito. È anche possibile selezionare Visualizza schema payload o Visualizza schema di feedback per convalidare che i nomi delle colonne corrispondano ai nomi delle variabili di prompt nel modello di prompt. È necessario selezionare Attiva per eseguire la valutazione.

Rivedere e valutare le scelte

Per generare i risultati della valutazione, selezionare Valuta ora dal menu Azioni per aprire la finestra Importa dati di test quando viene visualizzata la pagina di riepilogo della valutazione.

Seleziona valuta ora

Importa dati di test

Nella finestra Importa dati di verifica , è possibile selezionare Carica dati di payload o Carica dati di feedback per caricare un file CSV che contiene colonne etichettate che corrispondono alle colonne nei propri schemi di payload e feedback.

Importa dati di test

Una volta completato correttamente il caricamento, è possibile selezionare Valuta ora per eseguire la valutazione.

Revisione dei risultati della valutazione

Una volta terminata la valutazione, è possibile esaminare un riepilogo dei risultati della valutazione nella scheda Valutazioni in watsonx.governance per ottenere informazioni dettagliate sulle prestazioni del modello. Il riepilogo fornisce una panoramica dei punteggi delle metriche e delle violazioni delle soglie di punteggio predefinite per le valutazioni del modello di prompt.

Per analizzare i risultati, è possibile fare clic sulla freccia freccia di navigazione accanto alla valutazione del modello di prompt per visualizzare le visualizzazioni dei risultati nel tempo. È anche possibile analizzare i risultati della valutazione dello stato del modello eseguita per impostazione predefinita durante le valutazioni del modello di prompt per comprendere l'efficienza con cui il modello elabora i propri dati.

Il menu Azioni fornisce anche le opzioni riportate di seguito per analizzare i risultati:

  • Valuta ora: eseguire la valutazione con un dataset di test differente
  • Configurare i monitor: configurare le soglie di valutazione e le dimensioni del campione.
  • Visualizza informazioni modello: visualizza i dettagli sul tuo modello per comprendere come è configurato il tuo ambiente di distribuzione.

Analizzare i risultati della valutazione del modello di richiesta

Se si tiene traccia dei modelli di prompt, è possibile esaminare i risultati della valutazione per ottenere informazioni sulle prestazioni del modello durante il ciclo di vita dell'IA.

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni