Valutazione dei modelli di prompt scollegati nei progetti
Ultimo aggiornamento: 03 dic 2024
Valutazione dei modelli di prompt scollegati nei progetti
È possibile valutare i modelli di prompt scollegati nei progetti per misurare le prestazioni dei modelli di base non creati o ospitati da IBM.
Quando si valutano i modelli di prompt scollegati nei progetti, è possibile valutare l'efficacia con cui il modello esterno genera risposte per i seguenti tipi di attività:
Riepilogo del testo
Classificazione testo
Risposta alle domande
Estrazione di entità
Generazione di contenuto
Generazione aumentata di recupero
Prima di iniziare
Copy link to section
Autorizzazioni richieste È necessario disporre dei seguenti ruoli per valutare i modelli di prompt: ruolo Admin o Editor in un progetto
Prima di valutare i modelli di prompt scollegati nel proprio progetto, è necessario creare un modello di prompt scollegato che colleghi il modello esterno a watsonx.governance. È necessario specificare le variabili e fornire i dettagli di connessione come il nome del modello esterno e il suo URL quando si crea il modello di prompt scollegato. Il seguente esempio mostra come creare un template di prompt scollegato con la API:
Per eseguire le valutazioni del modello di prompt scollegato nel proprio progetto, è possibile aprire un modello di prompt scollegato salvato nella scheda Asset e selezionare Valuta sulla scheda Valutazioni in watsonx.governance per aprire la procedura guidata Valuta modello di prompt . È possibile eseguire le valutazioni solo se sono stati assegnati i ruoli Amministratore o Editor per il proprio progetto.
Seleziona dimensioni
Copy link to section
La procedura guidata Valuta modello di prompt visualizza le dimensioni disponibili per valutare il tipo di attività associato al prompt. È possibile espandere le dimensioni per visualizzare l'elenco di metriche utilizzate per valutare le dimensioni selezionate.
Watsonx.governance configura automaticamente le valutazioni per ogni dimensione con impostazioni predefinite. Per configurare le valutazioni con impostazioni diverse, è possibile selezionare Impostazioni avanzate per impostare le dimensioni minime del campione e i valori di soglia per ogni metrica, come mostrato nel seguente esempio:
Seleziona dati di test
Copy link to section
È necessario caricare un file CSV che contiene i dati di test con colonne di riferimento che includono l'input e l'output del modello previsto. I dati di test caricati devono contenere l'output del modello per consentire le valutazioni di distribuzione scollegate. Al termine del caricamento, è necessario mappare le variabili di richiesta alle colonne associate dei dati di test.
Riesamina e valuta
Copy link to section
È possibile esaminare le selezioni per il tipo di attività prompt, i dati di test caricati e il tipo di valutazione che viene eseguito. È necessario selezionare Valuta per eseguire la valutazione.
Revisione dei risultati della valutazione
Copy link to section
Una volta terminata la valutazione, è possibile esaminare un riepilogo dei risultati della valutazione nella scheda Valutazioni in watsonx.governance per ottenere informazioni dettagliate sulle prestazioni del modello. Il riepilogo fornisce una panoramica dei punteggi delle metriche e delle violazioni delle soglie di punteggio predefinite per le valutazioni del modello di prompt.
Se è stato assegnato il ruolo Visualizzatore per il progetto, è possibile selezionare Valuta dall'elenco di asset nella scheda Asset per visualizzare i risultati della valutazione.
Per analizzare i risultati, è possibile fare clic sulla freccia accanto alla valutazione del modello di prompt per visualizzare le visualizzazioni dei dati dei risultati nel tempo. È inoltre possibile analizzare i risultati della valutazione dello stato del modello eseguita per impostazione predefinita durante le valutazioni del modello di prompt per comprendere l'efficienza con cui il proprio modello elabora i dati.
Il menu Azioni fornisce anche le opzioni riportate di seguito per analizzare i risultati:
Valuta ora: eseguire la valutazione con un dataset di test differente
Tutte le valutazioni: visualizzare una cronologia delle valutazioni per comprendere come cambiano i risultati nel tempo.
Configurare i monitor: configurare le soglie di valutazione e le dimensioni del campione.
Visualizza informazioni modello: visualizza i dettagli sul tuo modello per comprendere come è configurato il tuo ambiente di distribuzione.
Passi successivi
Copy link to section
Puoi promuovere i tuoi modelli di prompt agli spazi di distribuzione per valutare i modelli di prompt scollegati negli spazi per ottenere informazioni dettagliate sulle prestazioni del tuo modello durante il ciclo di vita dell'intelligenza artificiale.
Informazioni sui cookie del presente sitoPer il corretto funzionamento, i nostri siti Web richiedono alcuni cookie (richiesto). Inoltre, con il suo consenso, potrebbero essere utilizzati altri cookie per l'analisi dell'utilizzo del sito, per migliorare l'esperienza utente e per scopi pubblicitari.Per ulteriori informazioni, consultare le Preferenze cookie. Visitando il nostro sito web, accettate il trattamento delle informazioni da parte nostra come descritto nelladichiarazione sulla privacy di IBM.Per consentire una corretta navigazione, le preferenze per i cookie dell'utente verranno condivise sui domini Web IBM qui elencati.