Argomento tradotto automaticamente È possibile passare alla versione ingleseConsultare la dichiarazione di non responsabilità
Fare riferimento alla versione inglese (originale) per visualizzare una versione più accurata e aggiornata di questa documentazione. IBM non è responsabile di eventuali danni o perdite derivanti dall'uso di contenuti tradotti automaticamente (machine translation).
Parametri di riferimento del modello di fondazione
Ultimo aggiornamento: 07 apr 2025
Parametri di riferimento del modello di fondazione
Per trovare il modello di fondazione adatto alle tue esigenze, confronta le prestazioni dei diversi modelli di fondazione in base a parametri di riferimento pertinenti.
I test di riferimento dei modelli di fondazione verificano la capacità di un modello di fondazione di generare risultati accurati o previsti per compiti specifici. I benchmark coprono varie funzionalità, tra cui la capacità del modello di rispondere a domande su argomenti che spaziano dalla matematica elementare a questioni legali e finanziarie, o la capacità di riassumere testi, generare testi in altre lingue e altro ancora.
I benchmark sono costituiti da set di dati con input e output attesi e da metriche che quantificano la qualità delle risposte di un modello misurando fattori quali l'accuratezza, la nocività e la distorsione.
Cercate dei benchmark che mettano alla prova il modello rispetto alle attività specifiche che vi interessano. Rivedere le metriche può aiutarti a valutare le capacità di un modello di base prima di provarlo.
I seguenti modelli di riferimento per le fondamenta sono disponibili in watsonx.ai:
Per accedere ai benchmark del modello di fondazione, completare i seguenti passaggi:
Dal Prompt Lab di watsonx.ai in modalità chat, fare clic sul campo Modello e scegliere Visualizza tutti i modelli di fondazione.
Fare clic sulla scheda Modello di benchmark per visualizzare i benchmark disponibili.
Fare clic sull'icona Filtro per modificare fattori quali i modelli o i tipi di benchmark da mostrare nella vista di confronto.
I punteggi vanno da 0 a 100. Più alti sono i punteggi, migliori sono le prestazioni del modello.
Esecuzione delle proprie valutazioni di riferimento del modello di fondazione
Copy link to section
La vista Model benchmarks di watsonx.ai mostra i punteggi dei test condotti da IBM. IBM utilizza un quadro di valutazione del modello di base che si basa principalmente sulla libreria Unitxt. Unitxt è un progetto open source sviluppato dall' IBM Research per rispondere alle esigenze specifiche di valutazione dei modelli di fondazione nei casi d'uso aziendali. IBM il modello di valutazione di utilizza anche un altro importante modello di valutazione open source, chiamato LM evaluation harness. Entrambi questi strumenti open source possono essere utilizzati per effettuare valutazioni indipendenti dei modelli di fondazione.
Parametri di riferimento IBM per la comprensione della lingua inglese
Copy link to section
I benchmark di IBM per la comprensione della lingua inglese sono parametri pubblicati da IBM sulla base di test effettuati da IBM Research per valutare la capacità di ciascun modello di svolgere compiti comuni.
La tabella seguente descrive i set di dati, gli obiettivi e le metriche per i benchmark IBM.
Parametri di riferimento IBM per la comprensione della lingua inglese
Nome del benchmark
Obiettivo
Descrizione del set di dati
Metrica
Riepilogo
Condensa grandi quantità di testo in poche frasi che catturano i punti principali. Utile per catturare le idee chiave, le decisioni o le azioni da una lunga trascrizione di una riunione, ad esempio.
Si chiede ai modelli di riassumere il testo e si confrontano i riassunti generati dall'IA con quelli generati dall'uomo da tre set di dati: - dialoghi IT - dialoghi di supporto tecnico - blog dei social media
Punteggio medio ROUGE-L
Generazione aumentata dal recupero (RAG)
Una tecnica in cui un modello di fondazione viene integrato con conoscenze provenienti da fonti esterne. Nella fase di recupero, i documenti rilevanti provenienti da una fonte esterna vengono identificati a partire dall'interrogazione dell'utente. Nella fase di generazione, alcune parti di questi documenti vengono inserite nel prompt per generare una risposta basata su informazioni pertinenti.
Presenta domande basate sulle informazioni contenute nei documenti di 3 set di dati distinti
Punteggio medio ROUGE-L
Classificazione
Identifica i dati come appartenenti a classi distinte di informazioni. Utile per categorizzare le informazioni, come il feedback dei clienti, in modo da poterle gestire o agire in modo più efficiente.
Cinque insiemi di dati con contenuti diversi, tra cui contenuti contrattuali da classificare e contenuti da valutare per sentimento, emozione e tono.
Punteggio medio F1
Generazione
Genera un linguaggio in risposta alle istruzioni e ai segnali forniti nei prompt del modello di base.
Un set di dati con email di marketing
Punteggio di SacreBLEU
Estrazione
Trova termini o menzioni chiave nei dati basandosi sul significato semantico delle parole piuttosto che su semplici corrispondenze testuali.
Confronta le menzioni di entità trovate dal modello con le menzioni di entità trovate da un umano. I set di dati comprendono un set di dati con 12 entità denominate e un set di dati con tre tipi di sentiment.
Punteggio medio F1
Parametri di riferimento open source per la comprensione della lingua inglese per i modelli di fondazione
Copy link to section
I benchmark di comprensione della lingua inglese open source mostrano i risultati dei test effettuati dall' IBM Research e che utilizzano principalmente set di dati in inglese pubblicati da terze parti, come istituzioni accademiche o team di ricerca industriale.
La tabella seguente descrive i set di dati, gli obiettivi e le metriche per i benchmark di comprensione della lingua inglese.
Parametri di comprensione della lingua inglese open source in watsonx.ai
Nome del benchmark
Obiettivo
Descrizione del set di dati
Metrica
Altre informazioni
20 Gruppi di discussione
Valuta la capacità di un modello di classificare il testo.
Una versione del dataset 20 newsgroups di scikit-learn con quasi 20.000 documenti di newsgroup raggruppati in 20 categorie, tra cui computer, automobili, sport, medicina, spazio e politica.
Valuta se un modello è suscettibile di vulnerabilità di sicurezza.
Domande progettate per provocare risposte dannose nelle categorie inganno, discriminazione, informazioni dannose, abuso di sostanze, contenuti sessuali, informazioni di identificazione personale (PII) e violenza.
BBQ (parametro di riferimento per la risposta alle domande)
Valuta la capacità di un modello di riconoscere affermazioni che contengono opinioni distorte su persone appartenenti a quelle che sono considerate classi protette dagli anglofoni statunitensi.
Valutare la capacità di un modello di classificare il testo.
Consumer Financial Protection Bureau (CFPB) reclami di clienti reali su rapporti di credito, prestiti agli studenti, trasferimenti di denaro e altri servizi finanziari.
Valutare la capacità di un modello di comprendere compiti impegnativi.
Una versione più impegnativa del dataset Massive Multitask Language Understanding (MMLU), che presenta domande più incentrate sul ragionamento e aumenta le scelte di risposta da 4 a 10 opzioni.
Valutare la capacità di un modello di utilizzare il ragionamento a più livelli e la comprensione di un testo ricco per rispondere a domande a scelta multipla.
Simula il formato di un esame a libro aperto per fornire passaggi di supporto e coppie di domande e risposte a scelta multipla.
Valuta la capacità di un modello di riconoscere entità denominate.
Include 19 insiemi di dati provenienti da vari settori, tra cui le notizie e i social media. I set di dati includono annotazioni di entità denominate e coprono 13 lingue diverse.
Parametri di riferimento open source per la comprensione del linguaggio multilingue per i modelli di fondazione
Copy link to section
I benchmark di comprensione del linguaggio multilingue open source mostrano i risultati dei test effettuati dall' IBM Research e che utilizzano set di dati multilingue pubblicati da terze parti, come istituzioni accademiche o team di ricerca industriale.
La tabella seguente descrive i set di dati, gli obiettivi, le metriche e le lingue di destinazione per i benchmark multilingue.
Parametri di riferimento per la comprensione linguistica multilingue open source in watsonx.ai
Nome del benchmark
Obiettivo
Descrizione del set di dati
Metrica
Lingue
Altre informazioni
Inglese di base
Valuta se un modello può tradurre frasi inglesi in queste lingue: Francese, tedesco, spagnolo, portoghese, giapponese e coreano.
850 parole chiave inglesi e relative traduzioni.
La metrica mostra il punteggio di contenimento delle stringhe, che misura la distanza di parole o caratteri tra la frase di destinazione e la traduzione di riferimento.
Il set di dati supporta inglese, francese, tedesco, spagnolo, portoghese, giapponese e coreano. Disponibile in watsonx.ai per i modelli che supportano il coreano.
Valuta la capacità di un modello di classificare testi multilingue.
Oltre 1 milione di enunciati provenienti da interazioni con l'assistente vocale di Amazon, localizzati in 52 lingue e annotati con informazioni sull'intento e sul tipo di slot.
Punteggio F1
Disponibile in watsonx.ai per i modelli che supportano arabo, francese, tedesco, giapponese, coreano, portoghese e spagnolo.
Valuta la capacità di un modello di classificare testi multilingue con etichette in inglese.
Oltre 1 milione di enunciati provenienti da interazioni con l'assistente vocale di Amazon, localizzati in 52 lingue e annotati con informazioni sull'intento e sul tipo di slot.
Punteggio F1
Disponibile in watsonx.ai per i modelli che supportano l'arabo e il coreano.
Valuta la capacità di un modello di riassumere testi multilingue.
Oltre 1.5 milioni di coppie di articoli e sommari di giornali online in 5 lingue (francese, tedesco, spagnolo, russo, turco) e di giornali inglesi come CNN e Daily Mail
Punteggio ROUGE-L per il riepilogo generato.
Disponibile in watsonx.ai per i modelli che supportano il francese e il tedesco.
Valuta la capacità del modello di rispondere a domande multilingue su matematica elementare, storia degli Stati Uniti, informatica, legge e altro ancora.
Traduzioni del dataset Massive Multitask Language Understanding (MMLU) in inglese, che consiste in domande di conoscenza generale a scelta multipla.
La metrica misura l'accuratezza delle risposte.
Disponibile in watsonx.ai per i modelli che supportano l'arabo, il francese e il coreano.
XNLI
Valuta la capacità di un modello di classificare frasi multilingue.
Sottoinsieme di dati del set di dati MNLI (Multi-Genre Natural Language Inference), che comprende coppie di frasi fornite da una folla e annotate con informazioni sull'entailment testuale e tradotte in 14 lingue.
La metrica misura l'accuratezza delle risposte.
Disponibile in watsonx.ai per i modelli che supportano l'arabo, il francese, il tedesco e lo spagnolo.
Valuta la capacità di un modello di classificare frasi multilingue quando le richieste sono in inglese.
Sottoinsieme di dati del set di dati MNLI (Multi-Genre Natural Language Inference), che contiene coppie di frasi crowd-sourced annotate con informazioni di entailment testuale, tradotte in 14 lingue
La metrica misura l'accuratezza delle risposte.
Disponibile in watsonx.ai per i modelli che supportano l'arabo.
I benchmark del codice mostrano il punteggio dei vari modelli di fondazione nei test che valutano la capacità del modello di svolgere attività di codifica programmatica, come generare codice, spiegare codice, correggere codice o tradurre codice da un linguaggio di programmazione a un altro.
Questi benchmark mostrano i risultati dei test eseguiti da IBM Research utilizzando set di dati di valutazione del codice pubblicati da terze parti, come istituzioni accademiche o gruppi di ricerca del settore.
La tabella seguente descrive i set di dati, gli obiettivi e i linguaggi di programmazione di destinazione per i benchmark di codice disponibili in watsonx.ai.
Codice di riferimento in watsonx.ai
Nome del benchmark
Obiettivo
Descrizione del set di dati
Metrica
Linguaggi di programmazione
Altre informazioni
CanItEdit
Valuta la capacità di un modello di gestire diversi scenari di modifica del codice in Python.
105 problemi di editing del codice istruttivo scritto da esseri umani.
Valuta la capacità di un modello di generare codice Python, di comprendere il linguaggio, di ragionare e di risolvere problemi legati agli algoritmi e alla matematica semplice.
164 Python problemi di programmazione scritti da esseri umani.
Valuta la capacità di un modello di spiegare frammenti di codice chiedendo prima al modello di spiegare la soluzione di un problema di programmazione e poi verificando se il modello è in grado di risolvere il problema quando gli viene fornita solo la spiegazione precedentemente generata.
Valuta la capacità di un modello di risolvere i problemi di codifica di Python.
Amplia il set di dati MBPP con un maggior numero di problemi di programmazione Python e casi di test più completi, progettati per fornire una valutazione più rigorosa.
Alcune metriche sono autoesplicative, come ad esempio il punteggio di accuratezza di un modello testato su set di dati a scelta multipla. Altri sono meno conosciuti. Il seguente elenco descrive le metriche utilizzate per quantificare le prestazioni del modello in watsonx.ai:
F1
Misura se è stato raggiunto l'equilibrio ottimale tra precisione e richiamo. Spesso utilizzato per assegnare punteggi a compiti di classificazione, dove la precisione misura quante delle frasi complessive sono classificate come la classe di frase corretta e il richiamo misura la frequenza con cui le frasi che dovrebbero essere classificate sono classificate.
Guadagno cumulativo scontato normalizzato (NDCG)
Una metrica di qualità del ranking che confronta le classifiche generate con un ordine di riferimento in cui gli elementi più rilevanti sono in cima all'elenco.
ROUGE-L
Utilizzato per assegnare un punteggio alla qualità delle sintesi, misurando la somiglianza tra la sintesi generata e la sintesi di riferimento. ROUGE è l'acronimo di Recall-Oriented Understudy for Gisting Evaluation. La L sta per punteggio basato sulla più lunga sequenza di parole corrispondenti. Questa metrica cerca le corrispondenze in sequenza che riflettono l'ordine delle parole a livello di frase.
SacreBLEU
Il BLEU (Bilingual Evaluation Understudy) è una metrica per confrontare una traduzione generata con una traduzione di riferimento. SacreBLEU è una versione che rende la metrica più facile da usare, fornendo set di dati di prova e gestendo la tokenizzazione in modo standardizzato. Viene spesso utilizzato per valutare la qualità dei compiti di traduzione, ma può essere usato anche per attribuire un punteggio ai compiti di sintesi.
Sicurezza
Una metrica utilizzata con il benchmark 500 dell' AttaQ, che combina la metrica Adjusted Rand Index (ARI), che considera le etichette associate agli attacchi, e il Silhouette Score, che valuta le caratteristiche basate sui cluster come coesione, separazione, distorsione e probabilità. Per ulteriori informazioni, consultare il documento di ricerca Unveiling safety vulnerabilities of large language models.
Informazioni sui cookie del presente sitoPer il corretto funzionamento, i nostri siti Web richiedono alcuni cookie (richiesto). Inoltre, con il suo consenso, potrebbero essere utilizzati altri cookie per l'analisi dell'utilizzo del sito, per migliorare l'esperienza utente e per scopi pubblicitari.Per ulteriori informazioni, consultare le Preferenze cookie. Visitando il nostro sito web, accettate il trattamento delle informazioni da parte nostra come descritto nelladichiarazione sulla privacy di IBM.Per consentire una corretta navigazione, le preferenze per i cookie dell'utente verranno condivise sui domini Web IBM qui elencati.