Seguite questa esercitazione per imparare a confrontare più prompt in Evaluation Studio. Con Evaluation Studio, potete valutare e confrontare le vostre risorse di IA generativa con metriche quantitative e criteri personalizzabili che si adattano ai vostri casi d'uso. Valutare le prestazioni di più asset contemporaneamente e visualizzare analisi comparative dei risultati per identificare le soluzioni migliori.
- Servizi richiesti
- watsonx.ai
- watsonx.governance
- runtime watsonx.ai
- Ruoli richiesti
- Accesso al livello di servizio di Watsonx.governance : Ruolo del lettore
- Per il vostro progetto: Ruoli di amministratore o di redattore
- Il bucket Cloud Object Storage utilizzato per il progetto: Ruolo di scrittore
Il flusso di lavoro di base comprende queste attività:
- Aprite un progetto che contiene i modelli di prompt da valutare. I progetti sono il luogo in cui è possibile collaborare con altri per lavorare con le risorse.
- Creare un esperimento di Evaluation Studio.
- Controlla i risultati.
Informazioni su Evaluation Studio
Con Evaluation Studio è possibile ottimizzare lo sviluppo dell'IA generativa automatizzando il processo di valutazione di più risorse di IA per vari tipi di attività. Invece di esaminare singolarmente ogni modello di prompt e confrontarne manualmente le prestazioni, è possibile configurare un singolo esperimento per valutare più modelli di prompt contemporaneamente, risparmiando tempo durante lo sviluppo.
Le seguenti funzioni sono incluse in Evaluation Studio per aiutarvi a valutare e confrontare i modelli di prompt per identificare le risorse più performanti per le vostre esigenze:
- Impostazione dell'esperimento personalizzabile
- Analisi flessibile dei risultati
Guarda un video su Evaluation Studio
Guardate questo video per vedere in anteprima i passaggi di questa esercitazione. L'interfaccia utente mostrata nel video potrebbe presentare lievi differenze. Il video è destinato ad accompagnare l'esercitazione scritta.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
Provate un tutorial con Evaluation Studio
In questa esercitazione, completerete questi compiti:
- Compito 1: Creare il progetto campione
- Compito 2: creare l'esperimento di Evaluation Studio
- Compito 3: Esaminare i risultati in Evaluation Studio
Suggerimenti per completare questa esercitazione
Ecco alcuni suggerimenti per completare con successo questa esercitazione.
Utilizzare il video picture-in-picture
L'immagine animata che segue mostra come utilizzare le funzioni video picture-in-picture e indice:
Cercare aiuto nella comunità
Se hai bisogno di aiuto con questo tutorial, puoi porre una domanda o trovare una risposta nel forum di discussione della community watsonx.
Impostare le finestre del browser
Per un'esperienza ottimale nel completamento di questo tutorial, aprite Cloud Pak for Data in una finestra del browser e tenete aperta questa pagina del tutorial in un'altra finestra del browser per passare facilmente da un'applicazione all'altra. Considerate la possibilità di disporre le due finestre del browser una accanto all'altra per facilitare la navigazione.
Compito 1: Creare il progetto campione
Per vedere un'anteprima di questo compito, guardate il video a partire da 00:16.
L'hub delle risorse include un progetto campione che contiene modelli di prompt esemplificativi che possono essere confrontati in Evaluation Studio. Seguite questi passaggi per creare il progetto basato su un campione:
Dalla schermata iniziale, fare clic sull'icona Crea un nuovo progetto
.
Selezionare il campione.
Cercate
Getting started with watsonx.governance
, selezionate il progetto di esempio e fate clic su Avanti.Scegliere un' istanza del servizio di archiviazione oggetti esistente o crearne una nuova.
Fare clic su Crea.
Attendere il completamento dell'importazione del progetto, quindi fare clic su Visualizza nuovo progetto.
Associare un servizio watsonx.ai Runtime al progetto. Per ulteriori informazioni, vedere Runtime watsonx.ai
Quando si apre il progetto, fare clic sulla scheda Gestione e selezionare la pagina Servizi e integrazioni.
Nella scheda Servizi IBM, fare clic su Associa servizio.
Selezionare l'istanza del runtime watsonx.ai. Se non si dispone ancora di un'istanza del servizio watsonx.ai Runtime, seguire questi passaggi:
Fare clic su Nuovo servizio.
Selezionare watsonx.ai Runtime.
Fare clic su Crea.
Selezionare la nuova istanza di servizio dall'elenco.
Fare clic su Associa servizio.
Se necessario, fare clic su Annulla per tornare alla pagina Servizi e integrazioni.
Fare clic sulla scheda Assets del progetto per visualizzare gli asset di esempio.
Per ulteriori informazioni o per vedere un video, vedere Creazione di un progetto. Per ulteriori informazioni sui servizi associati, vedere Aggiunta di servizi associati.
Controllare i propri progressi
L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a creare l'esperimento.
Compito 2: creare l'esperimento di Evaluation Studio
Per vedere un'anteprima di questo compito, guardate il video a partire da 01:11.
Per confrontare le prestazioni dei prompt, è necessario creare un esperimento di Evaluation Studio. Seguite questi passaggi per creare l'esperimento:
Dalla scheda Attività, fare clic su Nuova attività > Valutare e confrontare i prompt.
Nella pagina di impostazione, digitare
Summarization Evaluation experiment
come nome.Selezionare un tipo di attività. In questo caso, si desidera confrontare i modelli di prompt di riepilogo, quindi selezionare Riassunto.
Fare clic su Avanti per proseguire con la pagina Modelli di prompt.
Selezionare i modelli di richiesta Riassunto sinistro, 2 Riassunto sinistro e 3 Riassunto sinistro.
Si noti che tutti e tre i modelli di prompt includono le variabili di input, che sono un requisito di Evaluation Studio.
Fare clic su Avanti per continuare con la pagina Metriche.
Espandere le sezioni Qualità dell'IA generativa e Salute del modello per rivedere le metriche che saranno utilizzate nella valutazione.
Fare clic su Avanti per continuare con la pagina Dati del test.
Selezionare i dati del test:
Fare clic su Seleziona dati dal progetto.
Selezionare File di progetto > Test di riepilogo delle richieste di risarcimento data.csv.
I dati di test caricati devono contenere colonne di output e di input di riferimento per ciascuna variabile richiesta. Le colonne di output di riferimento vengono utilizzate per calcolare le metriche basate sul riferimento, come ROUGE e BLEU.
Fare clic su Seleziona.
Per la colonna Input, selezionare Insurance_Claim.
Per la colonna di output Riferimento, selezionare Riepilogo.
Fare clic su Avanti per proseguire con la pagina Revisione ed esecuzione.
Rivedere la configurazione e fare clic su Esegui valutazione. Il completamento delle valutazioni può richiedere pochi minuti.
Controlla i tuoi progressi
L'immagine seguente mostra i risultati della valutazione. Ora è possibile esaminare i risultati.
Compito 3: Esaminare i risultati in Evaluation Studio
Per un'anteprima di questo compito, guardate il video a partire da 02:26.
Ora siete pronti a valutare e confrontare gli asset di IA. Seguire questi passaggi per esaminare i risultati in Evaluation Studio:
Al termine della valutazione, visualizzare le visualizzazioni di confronto delle metriche.
I grafici confrontano i risultati per ciascun modello di prompt selezionato. La visualizzazione mostra se i punteggi violano le soglie per ciascuna metrica.
Fare clic sull'elenco dei record per selezionare una metrica diversa. Ad esempio, selezionare Analisi dei contenuti per vedere gli aggiornamenti del grafico in base alla metrica selezionata.
Passare il mouse su una barra del grafico per visualizzarne i dettagli.
Rivedete la tabella sotto la visualizzazione che mostra i tre modelli di prompt. Notate che ogni richiesta utilizza un foundation model diverso.
Per effettuare i confronti, fare clic sull'icona Imposta come riferimento
accanto a un modello di prompt.
L'impostazione del modello di riferimento evidenzia le colonne della tabella per mostrare se altri asset stanno performando meglio o peggio dell'asset selezionato.
Fare clic sull'icona della classifica personalizzata
.
Per analizzare i risultati, è anche possibile creare una classifica personalizzata delle metriche tra i diversi gruppi, specificando i fattori di peso e una formula di classificazione per determinare quali modelli di prompt hanno le migliori prestazioni. Quando si crea una classifica personalizzata, è possibile selezionare le metriche rilevanti per la classifica e assegnare loro un fattore di peso. Fare clic su Annulla.
Per eseguire nuovamente le valutazioni, fare clic sull'icona Regola impostazioni
. Usare il riquadro Dettagli della valutazione per aggiornare i dati del test o riconfigurare le metriche.
Per modificare l'esperimento, fare clic sull'icona Attività
per rimuovere o aggiungere attività alla valutazione e modificare il confronto.
Dalla tabella, fare clic sul menu Overflow
accanto a un modello di prompt e scegliere Visualizza scheda informativa AI. I Factsheet raccolgono i dettagli dell'asset per ogni fase del ciclo di vita dell'IA, per aiutarvi a raggiungere gli obiettivi di governance e conformità.
Chiudere la pagina AI Factsheet per tornare allo Studio di valutazione.
Da qui, è possibile iniziare a tracciare un modello di prompt in un caso d'uso di IA. Dalla tabella, fare clic sul menu Overflow
accanto a un modello di prompt e scegliere Track in AI use case.
Controlla i tuoi progressi
L'immagine seguente mostra i risultati della valutazione.
Ulteriori informazioni
Per ulteriori informazioni, consultare i seguenti argomenti:
Passi successivi
Provate una delle altre esercitazioni:
- Valutare e tracciare un modello di prompt
- Prompt di un foundation model utilizzando Prompt Lab
- Promuovere un foundation model con l'esercitazione del modello di generazione aumentata dal recupero
- Mettere a punto un foundation model
- Valutare un modello di apprendimento automatico
- Altri tutorial sui casi d'uso di watsonx.ai
Ulteriori risorse
Visualizza altri video.
Nell'hub delle risorse troverete set di dati, progetti, modelli, suggerimenti e quaderni di esempio per fare esperienza pratica:
Quaderni che potete aggiungere al vostro progetto per iniziare ad analizzare i dati e costruire modelli.
Progetti che è possibile importare contenenti blocchi note, set di dati, prompt e altre risorse.
Set di dati che si possono aggiungere al progetto per perfezionare, analizzare e costruire modelli.
I prompt che si possono usare nel Prompt Lab per richiedere un foundation model.
Modelli di fondazione che si possono utilizzare nel Prompt Lab.
Argomento principale: Tutorial di avvio rapido