Valutazione dei modelli di prompt scollegati nei progetti
È possibile valutare i modelli di prompt scollegati nei progetti per misurare le prestazioni dei modelli di base non creati o ospitati da IBM.
Quando si valutano i modelli di prompt scollegati nei progetti, è possibile valutare l'efficacia con cui il modello esterno genera risposte per i seguenti tipi di attività:
- Riepilogo del testo
- Classificazione testo
- Risposta alle domande
- Estrazione di entità
- Generazione di contenuto
- Generazione aumentata di recupero
Prima di iniziare
Autorizzazioni richieste
È necessario disporre dei seguenti ruoli per valutare i modelli di prompt: ruolo
Admin o Editor in un progetto
Prima di valutare un modello di prompt staccato nel vostro progetto o spazio di distribuzione, dovete prima creare il modello per collegare il vostro modello esterno a watsonx.governance. È possibile creare modelli di prompt staccati direttamente dall'interfaccia utente sia nei progetti che negli spazi di distribuzione. Durante la creazione, è necessario definire le variabili e fornire i dettagli della connessione, come il nome e URL del modello esterno.
Creare un modello di prompt staccato dall'interfaccia utente
È possibile creare un modello di prompt staccato direttamente dall'interfaccia utente watsonx.governance. I modelli di prompt staccati consentono di valutare i prompt indipendentemente dalle risorse di distribuzione.
Procedura:
- Andare alla scheda Asset per definire i dettagli dell'asset Dal progetto o dallo spazio, spostarsi nella sezione Asset e selezionare New Asset > Work with models e quindi selezionare Prepare an external prompt template for evaluation. Campi obbligatori:
- Nome
- Modello di promt URL
- Modello di base URL
- Tipo di attività
Nella sezione Prompt, inserire il prompt di base che si desidera utilizzare per la valutazione. Questo prompt definisce l'istruzione o la domanda che verrà elaborata dal modello linguistico di grandi dimensioni.
Configurare il metodo di decodifica
Selezionare un metodo di decodifica:
Avido: Genera il token successivo più probabile a ogni passo. Campionamento: Introduce la casualità nel processo di generazione.
Definire le variabili del prompt (facoltativo per la creazione, obbligatorio per la valutazione) Nella sezione Variabili del prompt, definire le variabili utilizzate nel prompt. Le variabili sono coppie chiave-valore che vengono iniettate nel prompt durante la valutazione. Queste variabili non sono richieste quando si crea il modello, ma almeno una variabile deve essere fornita per valutare il modello.
Verificare e creare il modello di prompt Confermare che tutti i campi richiesti siano completi, quindi fare clic su Crea per salvare il modello di prompt distaccato.
Creare un modello di prompt staccato con l'API
Per creare un modello di prompt staccato utilizzando l'API, vedere l'esempio seguente:
{
"name": "prompt name",
"description": "prompt description",
"model_version": {
"number": "2.0.0-rc.7",
"tag": "my prompt tag",
"description": "my description"
},
"prompt_variables": {
"var1": {},
"var2": {}
},
"task_ids": [
"retrieval_augmented_generation"
],
"input_mode": "detached",
"prompt": {
"model_id": "",
"input": [
[
"Some input",
""
]
],
"data": {},
"external_information": {
"external_prompt_id": "external prompt",
"external_model_id": "external model",
"external_model_provider": "external provider",
"external_prompt": {
"url": "https://asdfasdf.com?asd=a&32=1",
"additional_information": [
{
"additional_key": "additional settings"
}
]
},
"external_model": {
"name": "An external model",
"url": "https://asdfasdf.com?asd=a&32=1"
}
}
}
}
Esecuzione delle valutazioni
Per eseguire le valutazioni del modello di prompt scollegato nel proprio progetto, è possibile aprire un modello di prompt scollegato salvato nella scheda Asset e selezionare Valuta sulla scheda Valutazioni in watsonx.governance per aprire la procedura guidata Valuta modello di prompt . È possibile eseguire le valutazioni solo se sono stati assegnati i ruoli Amministratore o Editor per il proprio progetto.
Seleziona dimensioni
La procedura guidata Valuta modello di prompt visualizza le dimensioni disponibili per valutare il tipo di attività associato al prompt. È possibile espandere le dimensioni per visualizzare l'elenco di metriche utilizzate per valutare le dimensioni selezionate.
Watsonx.governance configura automaticamente le valutazioni per ogni dimensione con impostazioni predefinite. Per configurare le valutazioni con impostazioni diverse, è possibile selezionare Impostazioni avanzate per impostare le dimensioni minime del campione e i valori di soglia per ogni metrica, come mostrato nel seguente esempio:
Seleziona dati di test
È necessario caricare un file CSV che contiene i dati di test con colonne di riferimento che includono l'input e l'output del modello previsto. I dati di test caricati devono contenere l'output del modello per consentire le valutazioni di distribuzione scollegate. Al termine del caricamento, è necessario mappare le variabili di richiesta alle colonne associate dei dati di test.
Riesamina e valuta
È possibile esaminare le selezioni per il tipo di attività prompt, i dati di test caricati e il tipo di valutazione che viene eseguito. È necessario selezionare Valuta per eseguire la valutazione.
Revisione dei risultati della valutazione
Una volta terminata la valutazione, è possibile esaminare un riepilogo dei risultati della valutazione nella scheda Valutazioni in watsonx.governance per ottenere informazioni dettagliate sulle prestazioni del modello. Il riepilogo fornisce una panoramica dei punteggi delle metriche e delle violazioni delle soglie di punteggio predefinite per le valutazioni del modello di prompt.
Se è stato assegnato il ruolo Visualizzatore per il progetto, è possibile selezionare Valuta dall'elenco di asset nella scheda Asset per visualizzare i risultati della valutazione.
Per analizzare i risultati, è possibile fare clic sulla freccia accanto alla valutazione del modello di prompt per visualizzare le visualizzazioni dei risultati nel tempo. È inoltre possibile analizzare i risultati della valutazione dello stato del modello eseguita per impostazione predefinita durante le valutazioni del modello di prompt per comprendere l'efficienza con cui il proprio modello elabora i dati.
Il menu Azioni fornisce anche le opzioni riportate di seguito per analizzare i risultati:
- Valuta ora: eseguire la valutazione con un dataset di test differente
- Tutte le valutazioni: visualizzare una cronologia delle valutazioni per comprendere come cambiano i risultati nel tempo.
- Configurare i monitor: configurare le soglie di valutazione e le dimensioni del campione.
- Visualizza informazioni modello: visualizza i dettagli sul tuo modello per comprendere come è configurato il tuo ambiente di distribuzione.
Passi successivi
Puoi promuovere i tuoi modelli di prompt agli spazi di distribuzione per valutare i modelli di prompt scollegati negli spazi per ottenere informazioni dettagliate sulle prestazioni del tuo modello durante il ciclo di vita dell'intelligenza artificiale.
Ulteriori informazioni
Se si sta monitorando l'implementazione distaccata in un caso d'uso dell'IA, i dettagli sul modello e sui risultati della valutazione vengono registrati in una scheda informativa.