0 / 0
Torna alla versione inglese della documentazione
Valutazione dei modelli di IA
Ultimo aggiornamento: 22 gen 2025
Valutazione dei modelli di IA

È possibile tracciare e misurare i risultati delle risorse di IA per garantire che siano conformi ai processi aziendali, indipendentemente dal luogo in cui i modelli sono costruiti o in esecuzione.

È possibile utilizzare le valutazioni dei modelli come parte delle strategie di governance dell'IA per garantire che i modelli negli ambienti di distribuzione soddisfino gli standard di conformità stabiliti, indipendentemente dagli strumenti e dai framework utilizzati per costruire ed eseguire i modelli. Questo approccio garantisce che i modelli siano privi di pregiudizi, possano essere facilmente spiegati e compresi dagli utenti aziendali e siano verificabili nelle transazioni commerciali.

Servizio richiesto
runtime watsonx.ai
Formato dei dati di formazione
Relazionale: tabelle in origini dati relazionali
Tabulare: File Excel (.xls o .xlsx), file CSV
Testuale: in tabelle o file relazionali supportati
Dati connessi
Cloud Object Storage (infrastructure)
Db2
Dimensione dati
Qualsiasi

Con Watsonx.governance è possibile valutare asset di IA generativa e modelli di apprendimento automatico per ottenere informazioni sulle prestazioni del modello durante l'intero ciclo di vita dell'IA.

È possibile eseguire i seguenti tipi di valutazione con watsonx.governance:

  • Qualità
    Valuta quanto il modello predice risultati corretti che corrispondono ai dati di test etichettati.
  • Equità
    Valuta se il modello produce risultati distorti che favoriscono un gruppo rispetto a un altro.
  • Drift
    Valuta il modo in cui il tuo modello cambia in termini di accuratezza e coerenza dei dati confrontando le transazioni recenti con i tuoi dati di addestramento.
  • Drift v2
    Valuta i cambiamenti nell'output del modello, l'accuratezza delle previsioni e la distribuzione dei dati di input.
  • Salute del modello
    Valuta l'efficienza con cui la distribuzione del modello elabora le transazioni.
  • Qualità dell'IA generativa
    Misura l'efficienza con cui foundation model esegue i compiti

Quando si attivano le valutazioni, si può scegliere di eseguirle continuamente ai seguenti intervalli predefiniti:

Valutazione Programma predefinito di abbonamento online Pianificazione predefinita dell'abbonamento batch
Qualità 1 ora 1 settimana
Equità 1 ora 1 settimana
Deviazione 3 ore 1 settimana
Deviazione v2 1 giorno ND
Integrità del modello 1 ora ND
Qualità dell'AI generativa 1 ora ND

Le valutazioni dello stato di salute del modello sono abilitate per impostazione predefinita quando si forniscono dati di payload per valutare asset di IA generativa e modelli di apprendimento automatico.

Valutazione delle risorse di IA generativa

È possibile valutare le risorse di IA generativa per misurare la capacità del modello di svolgere i seguenti compiti:

Classificazione testo
Categorizzare il testo in classi o etichette predefinite.
Riepilogo del testo
Riassumere un testo in modo accurato e conciso.
Generazione di contenuto
Produrre testi o altre forme di contenuto pertinenti e coerenti sulla base dei vostri input.
Risposta alle domande
Fornire risposte accurate e contestualmente rilevanti alle vostre domande.
Estrazione di entità
Identificare e classificare segmenti specifici di informazioni all'interno di un testo.
Retrieval-Augmented Generation
Recuperare e integrare le conoscenze esterne nei risultati del modello.

Il tipo di valutazione che si può eseguire è determinato dal tipo di attività che si vuole far eseguire al modello. Le valutazioni dell'intelligenza artificiale generativa calcolano metriche che forniscono informazioni sulle prestazioni del modello in questi compiti. Le valutazioni di equità e qualità possono misurare la perormance solo per compiti di classificazione di testi. Drift v2 e le valutazioni generative della qualità dell'IA possono misurare le prestazioni per qualsiasi tipo di compito.

È possibile valutare le risorse dei modelli di prompt per misurare le prestazioni dei modelli costruiti da IBM o valutare i modelli di prompt distaccati per i modelli non creati o ospitati da IBM. È possibile eseguire queste valutazioni nei progetti e negli spazi di distribuzione per ottenere informazioni sulle singole risorse dell'ambiente di sviluppo. Se si desidera valutare e confrontare più asset contemporaneamente, è possibile eseguire esperimenti con Evaluation Studio per individuare gli asset più performanti.

Per eseguire le valutazioni, è necessario gestire i dati per le valutazioni del modello fornendo dati di prova che contengono colonne di riferimento che includono l'input e l'output previsto del modello per ogni asset. Il tipo di dati di prova forniti può determinare il tipo di valutazione che è possibile eseguire. È possibile fornire feedback o dati sul carico utile per consentire le valutazioni delle risorse di intelligenza artificiale generativa. Per eseguire valutazioni di qualità, è necessario fornire dati di feedback per misurare le prestazioni dei compiti di classificazione del testo. Valutazione della correttezza e della deriva v2 utilizza i dati del carico utile per misurare le prestazioni del modello. Le valutazioni della qualità dell'intelligenza artificiale generativa utilizzano i dati di feedback per misurare le prestazioni dei compiti di estrazione di entità.

Le valutazioni della qualità dell'intelligenza artificiale generativa possono utilizzare i dati del carico utile e del feedback per calcolare le metriche per i seguenti tipi di compiti:

  • Sintesi del testo
  • Generazione di contenuto
  • Risposta alle domande
  • Retrieval-Augmented Generation

I dati del carico utile sono necessari per i compiti di generazione aumentata del recupero.

Valutazione dei modelli di apprendimento automatico

È possibile valutare i modelli di apprendimento automatico per misurare la loro capacità di prevedere i risultati. Watsonx.governance supporta le valutazioni per i seguenti tipi di modelli di apprendimento automatico:

modelli di classificazione

Previsione di esiti categorici in base alle caratteristiche di input

  • Classificazione binaria: Prevedere uno dei due risultati possibili
  • Classificazione multiclasse: Prevedere uno dei diversi risultati
modelli di regressione

Prevedere risultati numerici continui

Con watsonx.governance è possibile valutare i modelli di apprendimento automatico negli spazi di distribuzione. Per eseguire le valutazioni, è necessario prepararsi a valutare i modelli fornendo dettagli sui dati di addestramento e sui risultati del modello.

È inoltre necessario gestire i dati per le valutazioni dei modelli per determinare il tipo di valutazione da eseguire per generare informazioni sulle metriche. Per eseguire valutazioni di qualità, è necessario fornire dati di feedback che contengano la stessa struttura e le stesse colonne di predizione dei dati di addestramento con il risultato noto del modello. Per eseguire le valutazioni di correttezza, deriva e deriva v2, è necessario fornire dati di carico utile che corrispondano alla struttura dei dati di addestramento.

Watsonx.governance registra questi tipi di dati per calcolare le metriche dei risultati della valutazione. È necessario inviare transazioni modello per generare continuamente risultati accurati.

È inoltre possibile creare valutazioni e metriche personalizzate per generare una maggiore varietà di informazioni sulle prestazioni del modello. Per ottenere informazioni su come il modello predice i risultati, è possibile configurare la spiegabilità.

Ulteriori informazioni

Argomento principale Asset AI della gestione

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni