È possibile valutare i modelli di prompt scollegati nei progetti per misurare le prestazioni dei modelli di base non creati o ospitati da IBM.
Quando si valutano i modelli di prompt scollegati nei progetti, è possibile valutare l'efficacia con cui il modello esterno genera risposte per i seguenti tipi di attività:
- Riepilogo del testo
- Classificazione testo
- Risposta alle domande
- Estrazione di entità
- Generazione di contenuto
- Generazione aumentata di recupero
Prima di iniziare
Autorizzazioni richieste
È necessario disporre dei seguenti ruoli per valutare i modelli di prompt: ruolo
Admin o Editor in un progetto
Prima di valutare i modelli di prompt scollegati nel proprio progetto, è necessario creare un modello di prompt scollegato che colleghi il modello esterno a watsonx.governance. È necessario specificare le variabili e fornire i dettagli di connessione come il nome del modello esterno e il suo URL quando si crea il modello di prompt scollegato. Il seguente esempio mostra come creare un template di prompt scollegato con la API:
{
"name": "prompt name",
"description": "prompt description",
"model_version": {
"number": "2.0.0-rc.7",
"tag": "my prompt tag",
"description": "my description"
},
"prompt_variables": {
"var1": {},
"var2": {}
},
"task_ids": [
"retrieval_augmented_generation"
],
"input_mode": "detached",
"prompt": {
"model_id": "",
"input": [
[
"Some input",
""
]
],
"data": {},
"external_information": {
"external_prompt_id": "external prompt",
"external_model_id": "external model",
"external_model_provider": "external provider",
"external_prompt": {
"url": "https://asdfasdf.com?asd=a&32=1",
"additional_information": [
{
"additional_key": "additional settings"
}
]
},
"external_model": {
"name": "An external model",
"url": "https://asdfasdf.com?asd=a&32=1"
}
}
}
}
Esecuzione delle valutazioni
Per eseguire le valutazioni del modello di prompt scollegato nel proprio progetto, è possibile aprire un modello di prompt scollegato salvato nella scheda Asset e selezionare Valuta sulla scheda Valutazioni in watsonx.governance per aprire la procedura guidata Valuta modello di prompt . È possibile eseguire le valutazioni solo se sono stati assegnati i ruoli Amministratore o Editor per il proprio progetto.
Seleziona dimensioni
La procedura guidata Valuta modello di prompt visualizza le dimensioni disponibili per valutare il tipo di attività associato al prompt. È possibile espandere le dimensioni per visualizzare l'elenco di metriche utilizzate per valutare le dimensioni selezionate.
Watsonx.governance configura automaticamente le valutazioni per ogni dimensione con impostazioni predefinite. Per configurare le valutazioni con impostazioni diverse, è possibile selezionare Impostazioni avanzate per impostare le dimensioni minime del campione e i valori di soglia per ogni metrica, come mostrato nel seguente esempio:
Seleziona dati di test
È necessario caricare un file CSV che contiene i dati di test con colonne di riferimento che includono l'input e l'output del modello previsto. I dati di test caricati devono contenere l'output del modello per consentire le valutazioni di distribuzione scollegate. Al termine del caricamento, è necessario mappare le variabili di richiesta alle colonne associate dei dati di test.
Riesamina e valuta
È possibile esaminare le selezioni per il tipo di attività prompt, i dati di test caricati e il tipo di valutazione che viene eseguito. È necessario selezionare Valuta per eseguire la valutazione.
Revisione dei risultati della valutazione
Una volta terminata la valutazione, è possibile esaminare un riepilogo dei risultati della valutazione nella scheda Valutazioni in watsonx.governance per ottenere informazioni dettagliate sulle prestazioni del modello. Il riepilogo fornisce una panoramica dei punteggi delle metriche e delle violazioni delle soglie di punteggio predefinite per le valutazioni del modello di prompt.
Se è stato assegnato il ruolo Visualizzatore per il progetto, è possibile selezionare Valuta dall'elenco di asset nella scheda Asset per visualizzare i risultati della valutazione.
Per analizzare i risultati, è possibile fare clic sulla freccia accanto alla valutazione del modello di prompt per visualizzare le visualizzazioni dei dati dei risultati nel tempo. È inoltre possibile analizzare i risultati della valutazione dello stato del modello eseguita per impostazione predefinita durante le valutazioni del modello di prompt per comprendere l'efficienza con cui il proprio modello elabora i dati.
Il menu Azioni fornisce anche le opzioni riportate di seguito per analizzare i risultati:
- Valuta ora: eseguire la valutazione con un dataset di test differente
- Tutte le valutazioni: visualizzare una cronologia delle valutazioni per comprendere come cambiano i risultati nel tempo.
- Configurare i monitor: configurare le soglie di valutazione e le dimensioni del campione.
- Visualizza informazioni modello: visualizza i dettagli sul tuo modello per comprendere come è configurato il tuo ambiente di distribuzione.
Passi successivi
Puoi promuovere i tuoi modelli di prompt agli spazi di distribuzione per valutare i modelli di prompt scollegati negli spazi per ottenere informazioni dettagliate sulle prestazioni del tuo modello durante il ciclo di vita dell'intelligenza artificiale.
Ulteriori informazioni
Se si sta monitorando l'implementazione distaccata in un caso d'uso dell'IA, i dettagli sul modello e sui risultati della valutazione vengono registrati in una scheda informativa.