Torna alla versione inglese della documentazione

Avvio rapido: Confronto delle prestazioni del prompt

Ultimo aggiornamento: 05 mar 2025

Seguite questa esercitazione per imparare a confrontare più prompt in Evaluation Studio. Con Evaluation Studio, potete valutare e confrontare le vostre risorse di IA generativa con metriche quantitative e criteri personalizzabili che si adattano ai vostri casi d'uso. Valutare le prestazioni di più asset contemporaneamente e visualizzare analisi comparative dei risultati per identificare le soluzioni migliori.

Servizi richiesti: watsonx.ai; watsonx.governance; watsonx.ai Runtime
Ruoli richiesti: Accesso al livello di servizio di Watsonx.governance : Ruolo del lettore; Per il vostro progetto: Ruoli di amministratore o di redattore; Il bucket Cloud Object Storage utilizzato per il progetto: Ruolo di scrittore

Il flusso di lavoro di base comprende queste attività:

Aprite un progetto che contiene i modelli di prompt da valutare. I progetti sono il luogo in cui è possibile collaborare con altri per lavorare con le risorse.
Creare un esperimento di Evaluation Studio.
Controlla i risultati.

Informazioni su Evaluation Studio

Con Evaluation Studio è possibile ottimizzare lo sviluppo dell'IA generativa automatizzando il processo di valutazione di più risorse di IA per vari tipi di attività. Invece di esaminare singolarmente ogni modello di prompt e confrontarne manualmente le prestazioni, è possibile configurare un singolo esperimento per valutare più modelli di prompt contemporaneamente, risparmiando tempo durante lo sviluppo.

Le seguenti funzioni sono incluse in Evaluation Studio per aiutarvi a valutare e confrontare i modelli di prompt per identificare le risorse più performanti per le vostre esigenze:

Impostazione dell'esperimento personalizzabile
Analisi flessibile dei risultati

Per saperne di più su Studio di valutazione

Guarda un video su Evaluation Studio

Guarda il video Guardate questo video per vedere in anteprima i passaggi di questa esercitazione. L'interfaccia utente mostrata nel video potrebbe presentare lievi differenze. Il video è destinato ad accompagnare l'esercitazione scritta.

Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.

Provate un tutorial con Evaluation Studio

In questa esercitazione, completerete questi compiti:

Compito 1: Creare il progetto campione
Compito 2: creare l'esperimento di Evaluation Studio
Compito 3: Esaminare i risultati in Evaluation Studio

Suggerimenti per completare questa esercitazione

Ecco alcuni suggerimenti per completare con successo questa esercitazione.

Utilizzare il video picture-in-picture

Suggerimento: avviare il video, poi, mentre si scorre l'esercitazione, il video passa alla modalità picture-in-picture. Chiudere l'indice del video per ottenere la migliore esperienza con il picture-in-picture. È possibile utilizzare la modalità picture-in-picture per seguire il video mentre si completano le operazioni di questa esercitazione. Fate clic sulle date di ogni attività per seguirla.

L'immagine animata che segue mostra come utilizzare le funzioni video picture-in-picture e indice:

Come utilizzare l'immagine nell'immagine e i capitoli

Cercare aiuto nella comunità

Se hai bisogno di aiuto con questo tutorial, puoi porre una domanda o trovare una risposta nel forum di discussione della community watsonx.

Impostare le finestre del browser

Per un'esperienza ottimale nel completamento di questo tutorial, aprite Cloud Pak for Data in una finestra del browser e tenete aperta questa pagina del tutorial in un'altra finestra del browser per passare facilmente da un'applicazione all'altra. Considerate la possibilità di disporre le due finestre del browser una accanto all'altra per facilitare la navigazione.

Tutorial e interfaccia utente affiancati

Suggerimento: se durante il completamento di questa esercitazione viene visualizzato un tour guidato nell'interfaccia utente, fare clic su Forse più tardi.

Compito 1: Creare il progetto campione

anteprima del video tutorial Per vedere un'anteprima di questo compito, guardate il video a partire da 00:16.

L'hub delle risorse include un progetto campione che contiene modelli di prompt esemplificativi che possono essere confrontati in Evaluation Studio. Seguite questi passaggi per creare il progetto basato su un campione:

Dalla schermata iniziale, fare clic sull'icona Crea un nuovo progetto .
Selezionare il campione.
Cercate , selezionate il progetto di esempio e fate clic su Avanti.
Scegliere un' istanza del servizio di archiviazione oggetti esistente o crearne una nuova.
Fare clic su Crea.
Attendere il completamento dell'importazione del progetto, quindi fare clic su Visualizza nuovo progetto.
Associare un servizio watsonx.ai Runtime al progetto. Per ulteriori informazioni, vedere Aggiunta di servizi associati a un progetto.
1. Quando si apre il progetto, fare clic sulla scheda Gestione e selezionare la pagina Servizi e integrazioni.
2. Nella scheda Servizi IBM, fare clic su Associa servizio.
3. Selezionare l'istanza del runtime watsonx.ai. Se non si dispone ancora di un'istanza del servizio watsonx.ai Runtime, seguire questi passaggi:
  1. Fare clic su Nuovo servizio.
  2. Selezionare watsonx.ai Runtime.
  3. Fare clic su Crea.
  4. Selezionare la nuova istanza di servizio dall'elenco.
4. Fare clic su Associa servizio.
5. Se necessario, fare clic su Annulla per tornare alla pagina Servizi e integrazioni.
Fare clic sulla scheda Assets del progetto per visualizzare gli asset di esempio.

Per ulteriori informazioni o per vedere un video, vedere Creazione di un progetto. Per ulteriori informazioni sui servizi associati, vedere Aggiunta di servizi associati.

Controllare i propri progressi

L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a creare l'esperimento.

Compito 2: creare l'esperimento di Evaluation Studio

anteprima del video tutorial Per vedere un'anteprima di questo compito, guardate il video a partire da 01:11.

Per confrontare le prestazioni dei prompt, è necessario creare un esperimento di Evaluation Studio. Seguite questi passaggi per creare l'esperimento:

Dalla scheda Attività, fare clic su Nuova attività > Valutare e confrontare i prompt.
Nella pagina di impostazione, digitare come nome.
Selezionare un tipo di attività. In questo caso, si desidera confrontare i modelli di prompt di riepilogo, quindi selezionare Riassunto.
Fare clic su Avanti per proseguire con la pagina Modelli di prompt.
Selezionare i modelli di richiesta Riassunto sinistro, 2 Riassunto sinistro e 3 Riassunto sinistro.

Si noti che tutti e tre i modelli di prompt includono le variabili di input, che sono un requisito di Evaluation Studio.
Fare clic su Avanti per continuare con la pagina Metriche.
Espandere le sezioni Qualità dell'IA generativa e Salute del modello per rivedere le metriche che saranno utilizzate nella valutazione.
Fare clic su Avanti per continuare con la pagina Dati del test.
Selezionare i dati del test:
1. Fare clic su Seleziona dati dal progetto.
2. Selezionare File di progetto > Test di riepilogo delle richieste di risarcimento data.csv.
  
  I dati di test caricati devono contenere colonne di output e di input di riferimento per ciascuna variabile richiesta. Le colonne di output di riferimento vengono utilizzate per calcolare le metriche basate sul riferimento, come ROUGE e BLEU.
3. Fare clic su Seleziona.
4. Per la colonna Input, selezionare Insurance_Claim.
5. Per la colonna di output Riferimento, selezionare Riepilogo.
Fare clic su Avanti per proseguire con la pagina Revisione ed esecuzione.
Rivedere la configurazione e fare clic su Esegui valutazione. Il completamento delle valutazioni può richiedere pochi minuti.

Controlla i tuoi progressi

L'immagine seguente mostra i risultati della valutazione. Ora è possibile esaminare i risultati.

Compito 3: Esaminare i risultati in Evaluation Studio

anteprima del video tutorial Per un'anteprima di questo compito, guardate il video a partire da 02:26.

Ora siete pronti a valutare e confrontare gli asset di IA. Seguire questi passaggi per esaminare i risultati in Evaluation Studio:

Al termine della valutazione, visualizzare le visualizzazioni di confronto delle metriche.

I grafici confrontano i risultati per ciascun modello di prompt selezionato. La visualizzazione mostra se i punteggi violano le soglie per ciascuna metrica.
Fare clic sull'elenco dei record per selezionare una metrica diversa. Ad esempio, selezionare Analisi dei contenuti per vedere gli aggiornamenti del grafico in base alla metrica selezionata.
Passare il mouse su una barra del grafico per visualizzarne i dettagli.
Rivedete la tabella sotto la visualizzazione che mostra i tre modelli di prompt. Si noti che ciascuna delle istruzioni utilizza un modello di fondazione diverso.
Per effettuare i confronti, fare clic sull'icona Imposta come riferimento accanto a un modello di prompt.

L'impostazione del modello di riferimento evidenzia le colonne della tabella per mostrare se altri asset stanno performando meglio o peggio dell'asset selezionato.
Fare clic sull'icona della classifica personalizzata .

Per analizzare i risultati, è anche possibile creare una classifica personalizzata delle metriche tra i diversi gruppi, specificando i fattori di peso e una formula di classificazione per determinare quali modelli di prompt hanno le migliori prestazioni. Quando si crea una classifica personalizzata, è possibile selezionare le metriche rilevanti per la classifica e assegnare loro un fattore di peso. Fare clic su Annulla.
Per eseguire nuovamente le valutazioni, fare clic sull'icona Regola impostazioni . Usare il riquadro Dettagli della valutazione per aggiornare i dati del test o riconfigurare le metriche.
Per modificare l'esperimento, fare clic sull'icona Attività per rimuovere o aggiungere attività alla valutazione e modificare il confronto.
Dalla tabella, fare clic sul menu Overflow accanto a un modello di prompt e scegliere Visualizza scheda informativa AI. I Factsheet raccolgono i dettagli dell'asset per ogni fase del ciclo di vita dell'IA, per aiutarvi a raggiungere gli obiettivi di governance e conformità.
Chiudere la pagina AI Factsheet per tornare allo Studio di valutazione.
Da qui, è possibile iniziare a tracciare un modello di prompt in un caso d'uso di IA. Dalla tabella, fare clic sul menu Overflow accanto a un modello di prompt e scegliere Track in AI use case.

Controlla i tuoi progressi

L'immagine seguente mostra i risultati della valutazione.

Ulteriori informazioni

Per ulteriori informazioni, consultare i seguenti argomenti:

Passi successivi

Provate una delle altre esercitazioni:

Ulteriori risorse

Visualizza altri video.
Nell'hub delle risorse troverete set di dati, progetti, modelli, suggerimenti e quaderni di esempio per fare esperienza pratica:

Quaderni che potete aggiungere al vostro progetto per iniziare ad analizzare i dati e costruire modelli.

Progetti che è possibile importare contenenti blocchi note, set di dati, prompt e altre risorse.

Set di dati che si possono aggiungere al progetto per perfezionare, analizzare e costruire modelli.

Prompt che è possibile utilizzare nell' Prompt Lab, per richiamare un modello di fondazione.

Modelli di fondazione che si possono utilizzare nel Prompt Lab.

Argomento principale: Tutorial di avvio rapido

L'argomento è stato utile?

0/1000

Informazioni su Evaluation StudioCopy link to section

Guarda un video su Evaluation StudioCopy link to section

Provate un tutorial con Evaluation StudioCopy link to section

Utilizzare il video picture-in-pictureCopy link to section

Cercare aiuto nella comunitàCopy link to section

Impostare le finestre del browserCopy link to section

Controllare i propri progressiCopy link to section

Controlla i tuoi progressiCopy link to section

Controlla i tuoi progressiCopy link to section

Ulteriori informazioniCopy link to section

Passi successiviCopy link to section

Ulteriori risorseCopy link to section

Informazioni su Evaluation Studio

Guarda un video su Evaluation Studio

Provate un tutorial con Evaluation Studio

Utilizzare il video picture-in-picture

Cercare aiuto nella comunità

Impostare le finestre del browser

Controllare i propri progressi

Controlla i tuoi progressi

Controlla i tuoi progressi

Ulteriori informazioni

Passi successivi

Ulteriori risorse