Con Evaluation Studio, potete valutare e confrontare le vostre risorse di IA generativa con metriche quantitative e criteri personalizzabili che si adattano ai vostri casi d'uso. Valutare le prestazioni di più asset contemporaneamente e visualizzare analisi comparative dei risultati per identificare le soluzioni migliori.
È possibile utilizzare Evaluation Studio per ottimizzare il processo di sviluppo dell'intelligenza artificiale generativa, automatizzando il processo di valutazione di più risorse di intelligenza artificiale per vari tipi di attività. Invece di esaminare singolarmente ogni modello di prompt e confrontarne manualmente le prestazioni, è possibile configurare un singolo esperimento per valutare più modelli di prompt contemporaneamente, risparmiando tempo durante lo sviluppo.
Le seguenti funzioni sono incluse in Evaluation Studio per aiutarvi a valutare e confrontare i modelli di prompt per identificare le risorse più performanti per le vostre esigenze:
Impostazione dell'esperimento personalizzabile
- Scegliete tra diversi tipi di attività per soddisfare le vostre esigenze specifiche.
- Caricare i dati di prova selezionando le risorse del progetto.
- Selezionate fino a cinque modelli di prompt da valutare e confrontare.
- Scegliere le dimensioni di valutazione per configurare le metriche specifiche dell'attività.
Analisi flessibile dei risultati
- Visualizzate i risultati in formato di tabella o grafico per aiutarvi a raccogliere informazioni.
- Selezionare i modelli di prompt di riferimento per facilitare i confronti
- Filtrare o ordinare i risultati in base a metriche o valori specifici.
- Ricerca tra i risultati della valutazione con intervalli di valori.
- Confrontate più modelli di prompt uno accanto all'altro con i grafici.
- Acquisizione automatica dei dettagli della valutazione in AI Factsheets per tenere traccia delle prestazioni nei vari casi d'uso dell'IA.
- Create classifiche personalizzate per dare priorità ai risultati più importanti per il vostro caso d'uso.
- Aggiungere o rimuovere modelli di prompt dagli esperimenti e rieseguire le valutazioni per effettuare nuovi confronti.
Requisiti
È possibile confrontare le risorse AI in Evaluation Studio se si soddisfano i seguenti requisiti:
Ruoli richiesti
Per utilizzare Evaluation Studio è necessario aver assegnato il ruolo Service access: Reader in watsonx.governance per utilizzare Evaluation Studio. È inoltre necessario assegnare i ruoli di Admin o Editor per il progetto e il ruolo di Writer per il bucket Cloud Object Storage utilizzato per il progetto.
Piani di servizio
Evaluation Studio è limitato a determinati piani di servizio e centri dati. Per maggiori dettagli, consultare i piani di servizio di watsonx.ai Studio e la disponibilità regionale per i servizi e le funzionalità.
Modelli di prompt
Le seguenti restrizioni si applicano attualmente quando si valutano e si confrontano i modelli di prompt in Evaluation Studio:
- Le valutazioni dei modelli di prompt possono essere eseguite solo nei progetti.
- I risultati della valutazione dei modelli di prompt visualizzano sempre i dettagli dell'ultima valutazione eseguita.
- Non è possibile eseguire una valutazione del modello di prompt se è ancora in corso una valutazione per lo stesso modello di prompt.
- È necessario valutare almeno due modelli di prompt.
- I modelli di prompt staccati non possono essere valutati.
- I modelli di prompt devono essere nello stesso progetto.
- I modelli di prompt devono avere lo stesso numero e lo stesso nome di variabili.
- I modelli di prompt devono essere mappati allo stesso nome di colonna nei dati di test.
- I modelli di prompt non possono essere importati o esportati per nessun tipo di modello.
- Lo stesso tipo di attività deve essere associato a ciascun modello di richiesta.
- Per i modelli di prompt sono supportati i seguenti tipi di attività:
- Classificazione
- Riepilogo
- Generazione
- Risposta alle domande
- Estrazione di entità
- Retrieval-Augmented Generation
Ogni modello di richiesta può essere associato allo stesso o a diversi modelli di fondazione.
Dati di test
I dati di test caricati devono contenere colonne di output e di input di riferimento per ciascuna variabile richiesta. Le colonne di output di riferimento vengono utilizzate per calcolare le metriche basate sul riferimento, come ROUGE e BLEU. Per ulteriori informazioni, vedere Gestione dei dati di feedback.
Utilizzo della risorsa
Le risorse necessarie per utilizzare Evaluation Studio sono calcolate per ogni esperimento. Ogni valutazione eseguita viene calcolata come un esperimento. Un numero maggiore di modelli di prompt, di registri di valutazione e di dimensioni di monitoraggio richiede più risorse per ogni esperimento.
La sezione seguente descrive come valutare e confrontare gli asset AI con Evaluation Studio:
Confronto e valutazione di più risorse di IA
Per valutare e confrontare le risorse con Evaluation Studio, è possibile eseguire le seguenti operazioni:
- Selezionare il compito di valutazione.
- Nella scheda Assets del progetto watsonx.governance, selezionare New asset.
- Nella finestra Cosa si desidera fare, selezionare il riquadro attività Valutare e confrontare i prompt.
- Impostare la valutazione. Quando si apre la procedura guidata Valutazione e confronto dei prompt e vengono visualizzati i tipi di attività disponibili per la valutazione, specificare un nome di valutazione e selezionare il tipo di attività associato ai modelli di prompt che si desidera valutare.
- Selezionate i modelli di prompt del vostro progetto che volete valutare e confrontare.
- Selezionare le metriche.
Watsonx.governance seleziona automaticamente le metriche disponibili per il tipo di attività dei modelli di prompt e configura le impostazioni predefinite per ciascuna metrica. È possibile modificare le selezioni delle metriche o selezionare Configura per configurare le valutazioni con impostazioni personalizzate. - Selezionare i dati di prova selezionando un asset dal progetto.
Quando si selezionano i dati del test, watsonx.governance rileva automaticamente le colonne che sono mappate alle variabili di richiesta. - Esaminare ed eseguire la valutazione.
- Prima di eseguire la valutazione del modello di prompt, è possibile rivedere le selezioni per il tipo di attività, i dati di test caricati, le metriche e il tipo di valutazione da eseguire.
- Dopo aver eseguito la valutazione, è possibile selezionare Visualizza lavori per visualizzare un elenco che mostra lo stato della valutazione in corso e le valutazioni precedenti completate.
- Esaminare il confronto delle metriche.
- Al termine della valutazione, è possibile visualizzare le visualizzazioni dei dati che confrontano i risultati per ciascun modello di richiesta selezionato. Le visualizzazioni mostrano se i punteggi violano le soglie per ciascuna metrica. I risultati vengono visualizzati anche in una tabella che si può utilizzare per analizzare i risultati selezionando, filtrando o classificando le metriche che si desidera visualizzare per gli asset.
- Per fare dei confronti, selezionare un asset di riferimento per evidenziare le colonne della tabella e mostrare se gli altri asset stanno performando meglio o peggio dell'asset selezionato.
- Per analizzare i risultati, è anche possibile creare una classifica personalizzata delle metriche tra i diversi gruppi, specificando i fattori di peso e una formula di classificazione per determinare quali modelli di prompt hanno le migliori prestazioni.
- Se si desidera eseguire nuovamente le valutazioni, fare clic su Regola impostazioni nel riquadro Dettagli valutazione per aggiornare i dati del test o riconfigurare le metriche.
- Se si desidera modificare l'esperimento, fare clic su Edit Assets per rimuovere o aggiungere asset alla valutazione e modificare il confronto.
Passi successivi
È stata creata una nuova risorsa di valutazione AI nel progetto. È possibile riaprire la risorsa nel progetto per modificare o eseguire nuovi esperimenti.
Ulteriori informazioni
Argomento principale: Valutazione dei modelli di IA.