Avvio rapido: Confronto delle prestazioni del prompt
Ultimo aggiornamento: 05 mar 2025
Avvio rapido: Confronto delle prestazioni del prompt
Seguite questa esercitazione per imparare a confrontare più prompt in Evaluation Studio. Con Evaluation Studio, potete valutare e confrontare le vostre risorse di IA generativa con metriche quantitative e criteri personalizzabili che si adattano ai vostri casi d'uso. Valutare le prestazioni di più asset contemporaneamente e visualizzare analisi comparative dei risultati per identificare le soluzioni migliori.
Servizi richiesti
watsonx.ai
watsonx.governance
watsonx.ai Runtime
Ruoli richiesti
Accesso al livello di servizio di Watsonx.governance : Ruolo del lettore
Per il vostro progetto: Ruoli di amministratore o di redattore
Il bucket Cloud Object Storage utilizzato per il progetto: Ruolo di scrittore
Il flusso di lavoro di base comprende queste attività:
Aprite un progetto che contiene i modelli di prompt da valutare. I progetti sono il luogo in cui è possibile collaborare con altri per lavorare con le risorse.
Creare un esperimento di Evaluation Studio.
Controlla i risultati.
Informazioni su Evaluation Studio
Copy link to section
Con Evaluation Studio è possibile ottimizzare lo sviluppo dell'IA generativa automatizzando il processo di valutazione di più risorse di IA per vari tipi di attività. Invece di esaminare singolarmente ogni modello di prompt e confrontarne manualmente le prestazioni, è possibile configurare un singolo esperimento per valutare più modelli di prompt contemporaneamente, risparmiando tempo durante lo sviluppo.
Le seguenti funzioni sono incluse in Evaluation Studio per aiutarvi a valutare e confrontare i modelli di prompt per identificare le risorse più performanti per le vostre esigenze:
Guardate questo video per vedere in anteprima i passaggi di questa esercitazione. L'interfaccia utente mostrata nel video potrebbe presentare lievi differenze. Il video è destinato ad accompagnare l'esercitazione scritta.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
Provate un tutorial con Evaluation Studio
Copy link to section
In questa esercitazione, completerete questi compiti:
Suggerimenti per completare questa esercitazione Ecco alcuni suggerimenti per completare con successo questa esercitazione.
Utilizzare il video picture-in-picture
Copy link to section
Suggerimento: avviare il video, poi, mentre si scorre l'esercitazione, il video passa alla modalità picture-in-picture. Chiudere l'indice del video per ottenere la migliore esperienza con il picture-in-picture. È possibile utilizzare la modalità picture-in-picture per seguire il video mentre si completano le operazioni di questa esercitazione. Fate clic sulle date di ogni attività per seguirla.
L'immagine animata che segue mostra come utilizzare le funzioni video picture-in-picture e indice:
Per un'esperienza ottimale nel completamento di questo tutorial, aprite Cloud Pak for Data in una finestra del browser e tenete aperta questa pagina del tutorial in un'altra finestra del browser per passare facilmente da un'applicazione all'altra. Considerate la possibilità di disporre le due finestre del browser una accanto all'altra per facilitare la navigazione.
Suggerimento: se durante il completamento di questa esercitazione viene visualizzato un tour guidato nell'interfaccia utente, fare clic su Forse più tardi.
Compito 1: Creare il progetto campione
Per vedere un'anteprima di questo compito, guardate il video a partire da 00:16.
L'hub delle risorse include un progetto campione che contiene modelli di prompt esemplificativi che possono essere confrontati in Evaluation Studio. Seguite questi passaggi per creare il progetto basato su un campione:
Dalla schermata iniziale, fare clic sull'icona Crea un nuovo progetto.
Selezionare il campione.
Cercate Getting started with watsonx.governanceCopiato negli appunti, selezionate il progetto di esempio e fate clic su Avanti.
L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a creare l'esperimento.
Compito 2: creare l'esperimento di Evaluation Studio
Per vedere un'anteprima di questo compito, guardate il video a partire da 01:11.
Per confrontare le prestazioni dei prompt, è necessario creare un esperimento di Evaluation Studio. Seguite questi passaggi per creare l'esperimento:
Dalla scheda Attività, fare clic su Nuova attività > Valutare e confrontare i prompt.
Nella pagina di impostazione, digitare Summarization Evaluation experimentCopiato negli appunti come nome.
Selezionare un tipo di attività. In questo caso, si desidera confrontare i modelli di prompt di riepilogo, quindi selezionare Riassunto.
Fare clic su Avanti per proseguire con la pagina Modelli di prompt.
Selezionare i modelli di richiesta Riassunto sinistro, 2 Riassunto sinistro e 3 Riassunto sinistro.
Si noti che tutti e tre i modelli di prompt includono le variabili di input, che sono un requisito di Evaluation Studio.
Fare clic su Avanti per continuare con la pagina Metriche.
Espandere le sezioni Qualità dell'IA generativa e Salute del modello per rivedere le metriche che saranno utilizzate nella valutazione.
Fare clic su Avanti per continuare con la pagina Dati del test.
Selezionare i dati del test:
Fare clic su Seleziona dati dal progetto.
Selezionare File di progetto > Test di riepilogo delle richieste di risarcimento data.csv.
I dati di test caricati devono contenere colonne di output e di input di riferimento per ciascuna variabile richiesta. Le colonne di output di riferimento vengono utilizzate per calcolare le metriche basate sul riferimento, come ROUGE e BLEU.
Fare clic su Seleziona.
Per la colonna Input, selezionare Insurance_Claim.
Per la colonna di output Riferimento, selezionare Riepilogo.
Fare clic su Avanti per proseguire con la pagina Revisione ed esecuzione.
Rivedere la configurazione e fare clic su Esegui valutazione. Il completamento delle valutazioni può richiedere pochi minuti.
Controlla i tuoi progressi
Copy link to section
L'immagine seguente mostra i risultati della valutazione. Ora è possibile esaminare i risultati.
Compito 3: Esaminare i risultati in Evaluation Studio
Per un'anteprima di questo compito, guardate il video a partire da 02:26.
Ora siete pronti a valutare e confrontare gli asset di IA. Seguire questi passaggi per esaminare i risultati in Evaluation Studio:
Al termine della valutazione, visualizzare le visualizzazioni di confronto delle metriche.
I grafici confrontano i risultati per ciascun modello di prompt selezionato. La visualizzazione mostra se i punteggi violano le soglie per ciascuna metrica.
Fare clic sull'elenco dei record per selezionare una metrica diversa. Ad esempio, selezionare Analisi dei contenuti per vedere gli aggiornamenti del grafico in base alla metrica selezionata.
Passare il mouse su una barra del grafico per visualizzarne i dettagli.
Rivedete la tabella sotto la visualizzazione che mostra i tre modelli di prompt. Si noti che ciascuna delle istruzioni utilizza un modello di fondazione diverso.
Per effettuare i confronti, fare clic sull'icona Imposta come riferimento accanto a un modello di prompt.
L'impostazione del modello di riferimento evidenzia le colonne della tabella per mostrare se altri asset stanno performando meglio o peggio dell'asset selezionato.
Fare clic sull'icona della classifica personalizzata.
Per analizzare i risultati, è anche possibile creare una classifica personalizzata delle metriche tra i diversi gruppi, specificando i fattori di peso e una formula di classificazione per determinare quali modelli di prompt hanno le migliori prestazioni. Quando si crea una classifica personalizzata, è possibile selezionare le metriche rilevanti per la classifica e assegnare loro un fattore di peso. Fare clic su Annulla.
Per eseguire nuovamente le valutazioni, fare clic sull'icona Regola impostazioni. Usare il riquadro Dettagli della valutazione per aggiornare i dati del test o riconfigurare le metriche.
Per modificare l'esperimento, fare clic sull'icona Attività per rimuovere o aggiungere attività alla valutazione e modificare il confronto.
Dalla tabella, fare clic sul menu Overflow accanto a un modello di prompt e scegliere Visualizza scheda informativa AI. I Factsheet raccolgono i dettagli dell'asset per ogni fase del ciclo di vita dell'IA, per aiutarvi a raggiungere gli obiettivi di governance e conformità.
Chiudere la pagina AI Factsheet per tornare allo Studio di valutazione.
Da qui, è possibile iniziare a tracciare un modello di prompt in un caso d'uso di IA. Dalla tabella, fare clic sul menu Overflow accanto a un modello di prompt e scegliere Track in AI use case.
Controlla i tuoi progressi
Copy link to section
L'immagine seguente mostra i risultati della valutazione.
Ulteriori informazioni
Copy link to section
Per ulteriori informazioni, consultare i seguenti argomenti: