Argomento tradotto automaticamente È possibile passare alla versione inglese

Fare riferimento alla versione inglese (originale) per visualizzare una versione più accurata e aggiornata di questa documentazione. IBM non è responsabile di eventuali danni o perdite derivanti dall'uso di contenuti tradotti automaticamente (machine translation).

Parametri di riferimento del modello di fondazione

Ultimo aggiornamento: 07 apr 2025

Per trovare il modello di fondazione adatto alle tue esigenze, confronta le prestazioni dei diversi modelli di fondazione in base a parametri di riferimento pertinenti.

I test di riferimento dei modelli di fondazione verificano la capacità di un modello di fondazione di generare risultati accurati o previsti per compiti specifici. I benchmark coprono varie funzionalità, tra cui la capacità del modello di rispondere a domande su argomenti che spaziano dalla matematica elementare a questioni legali e finanziarie, o la capacità di riassumere testi, generare testi in altre lingue e altro ancora.

I benchmark sono costituiti da set di dati con input e output attesi e da metriche che quantificano la qualità delle risposte di un modello misurando fattori quali l'accuratezza, la nocività e la distorsione.

Cercate dei benchmark che mettano alla prova il modello rispetto alle attività specifiche che vi interessano. Rivedere le metriche può aiutarti a valutare le capacità di un modello di base prima di provarlo.

I seguenti modelli di riferimento per le fondamenta sono disponibili in watsonx.ai:

Parametri di riferimentoIBM per la comprensione della lingua inglese
Parametri di comprensione della lingua inglese open source
Parametri di riferimento open source per la comprensione del linguaggio multilingue
Codice di riferimento per i modelli di fondazione

Trovare i punteggi di benchmark del modello

Per accedere ai benchmark del modello di fondazione, completare i seguenti passaggi:

Dal Prompt Lab di watsonx.ai in modalità chat, fare clic sul campo Modello e scegliere Visualizza tutti i modelli di fondazione.
Fare clic sulla scheda Modello di benchmark per visualizzare i benchmark disponibili.

Fare clic sull'icona Filtro per modificare fattori quali i modelli o i tipi di benchmark da mostrare nella vista di confronto.

I punteggi vanno da 0 a 100. Più alti sono i punteggi, migliori sono le prestazioni del modello.

Esecuzione delle proprie valutazioni di riferimento del modello di fondazione

La vista Model benchmarks di watsonx.ai mostra i punteggi dei test condotti da IBM. IBM utilizza un quadro di valutazione del modello di base che si basa principalmente sulla libreria Unitxt. Unitxt è un progetto open source sviluppato dall' IBM Research per rispondere alle esigenze specifiche di valutazione dei modelli di fondazione nei casi d'uso aziendali. IBM il modello di valutazione di utilizza anche un altro importante modello di valutazione open source, chiamato LM evaluation harness. Entrambi questi strumenti open source possono essere utilizzati per effettuare valutazioni indipendenti dei modelli di fondazione.

Per saperne di più, consultate questo notebook di esempio, che valuta il modello granite-13b-instruct-v2 rispetto a benchmark standard utilizzando l'imbracatura di valutazione LM. Vedere Utilizzare lm-evaluation-harness e i propri dati di benchmarking con i modelli di fondazione watsonx.ai.

Per ulteriori informazioni, consulta le seguenti risorse:

Parametri di riferimento IBM per la comprensione della lingua inglese

I benchmark di IBM per la comprensione della lingua inglese sono parametri pubblicati da IBM sulla base di test effettuati da IBM Research per valutare la capacità di ciascun modello di svolgere compiti comuni.

La tabella seguente descrive i set di dati, gli obiettivi e le metriche per i benchmark IBM.

Parametri di riferimento IBM per la comprensione della lingua inglese
Nome del benchmark	Obiettivo	Descrizione del set di dati	Metrica
Riepilogo	Condensa grandi quantità di testo in poche frasi che catturano i punti principali. Utile per catturare le idee chiave, le decisioni o le azioni da una lunga trascrizione di una riunione, ad esempio.	Si chiede ai modelli di riassumere il testo e si confrontano i riassunti generati dall'IA con quelli generati dall'uomo da tre set di dati: - dialoghi IT - dialoghi di supporto tecnico - blog dei social media	Punteggio medio ROUGE-L
Generazione aumentata dal recupero (RAG)	Una tecnica in cui un modello di fondazione viene integrato con conoscenze provenienti da fonti esterne. Nella fase di recupero, i documenti rilevanti provenienti da una fonte esterna vengono identificati a partire dall'interrogazione dell'utente. Nella fase di generazione, alcune parti di questi documenti vengono inserite nel prompt per generare una risposta basata su informazioni pertinenti.	Presenta domande basate sulle informazioni contenute nei documenti di 3 set di dati distinti	Punteggio medio ROUGE-L
Classificazione	Identifica i dati come appartenenti a classi distinte di informazioni. Utile per categorizzare le informazioni, come il feedback dei clienti, in modo da poterle gestire o agire in modo più efficiente.	Cinque insiemi di dati con contenuti diversi, tra cui contenuti contrattuali da classificare e contenuti da valutare per sentimento, emozione e tono.	Punteggio medio F1
Generazione	Genera un linguaggio in risposta alle istruzioni e ai segnali forniti nei prompt del modello di base.	Un set di dati con email di marketing	Punteggio di SacreBLEU
Estrazione	Trova termini o menzioni chiave nei dati basandosi sul significato semantico delle parole piuttosto che su semplici corrispondenze testuali.	Confronta le menzioni di entità trovate dal modello con le menzioni di entità trovate da un umano. I set di dati comprendono un set di dati con 12 entità denominate e un set di dati con tre tipi di sentiment.	Punteggio medio F1

Parametri di riferimento open source per la comprensione della lingua inglese per i modelli di fondazione

I benchmark di comprensione della lingua inglese open source mostrano i risultati dei test effettuati dall' IBM Research e che utilizzano principalmente set di dati in inglese pubblicati da terze parti, come istituzioni accademiche o team di ricerca industriale.

La tabella seguente descrive i set di dati, gli obiettivi e le metriche per i benchmark di comprensione della lingua inglese.

Parametri di comprensione della lingua inglese open source in watsonx.ai
Nome del benchmark	Obiettivo	Descrizione del set di dati	Metrica	Altre informazioni
20 Gruppi di discussione	Valuta la capacità di un modello di classificare il testo.	Una versione del dataset 20 newsgroups di scikit-learn con quasi 20.000 documenti di newsgroup raggruppati in 20 categorie, tra cui computer, automobili, sport, medicina, spazio e politica.	Punteggio F1	• Scheda dati su Hugging Face
Arena-Hard-Auto	Valuta la capacità di un modello di rispondere alle domande.	500 richieste dell'utente da dati in tempo reale inviati alla piattaforma di crowd-sourcing Chatbot Arena.	La metrica mostra il tasso di vincita delle risposte modello.	• Scheda dati su Hugging Face • Documento di ricerca
AttaQ 500	Valuta se un modello è suscettibile di vulnerabilità di sicurezza.	Domande progettate per provocare risposte dannose nelle categorie inganno, discriminazione, informazioni dannose, abuso di sostanze, contenuti sessuali, informazioni di identificazione personale (PII) e violenza.	La metrica indica la sicurezza del modello.	• Scheda dati su Hugging Face • Documento di ricerca
BBQ (parametro di riferimento per la risposta alle domande)	Valuta la capacità di un modello di riconoscere affermazioni che contengono opinioni distorte su persone appartenenti a quelle che sono considerate classi protette dagli anglofoni statunitensi.	Set di domande che evidenziano i pregiudizi.	La metrica misura l'accuratezza delle risposte.	• Scheda dati su Hugging Face • Documento di ricerca
BillSum	Valuta la capacità di un modello di riassumere un testo.	Dataset che riassume le proposte di legge del Congresso degli Stati Uniti e dello Stato della California.	Punteggio ROUGE-L per il riepilogo generato.	• Scheda dati su Hugging Face • Documento di ricerca
Banca dati dei reclami CFPB	Valutare la capacità di un modello di classificare il testo.	Consumer Financial Protection Bureau (CFPB) reclami di clienti reali su rapporti di credito, prestiti agli studenti, trasferimenti di denaro e altri servizi finanziari.	Punteggio F1	- Scheda dati su Unitxt.ai
CLAPnq	Valutare la capacità di un modello di utilizzare le informazioni contenute nei brani per rispondere alle domande.	Coppie di domande e risposte di forma lunga.	Punteggio F1	• Scheda dati su Hugging Face • Documento di ricerca
FinQA	Valuta la capacità di un modello di rispondere a domande di finanza e di fare ragionamenti numerici.	Oltre 8.000 coppie di AQ sulla finanza scritte da esperti di finanza.	La metrica misura l'accuratezza delle risposte.	• Scheda dati su Hugging Face • Documento di ricerca
FLORES-101	Valuta la capacità di un modello di tradurre il testo.	Articoli di Wikipedia in inglese che sono stati tradotti da traduttori umani professionisti in 101 lingue	Punteggio di SacreBLEU	• Scheda dati su Hugging Face • Documento di ricerca
HellaSwag	Valuta la capacità di un modello di completare scenari di buon senso.	Domande a scelta multipla tratte da ActivityNet e WikiHow.	La metrica misura l'accuratezza delle risposte.	• Scheda dati su Hugging Face • Documento di ricerca
LegalBench	Valuta la capacità di un modello di ragionare su scenari legali.	162 compiti che coprono vari testi giuridici, strutture e ambiti.	Punteggio F1	• Scheda dati su Hugging Face • Documento di ricerca
MMLU-Pro	Valutare la capacità di un modello di comprendere compiti impegnativi.	Una versione più impegnativa del dataset Massive Multitask Language Understanding (MMLU), che presenta domande più incentrate sul ragionamento e aumenta le scelte di risposta da 4 a 10 opzioni.	La metrica misura l'accuratezza delle risposte.	• Scheda dati su Hugging Face • Documento di ricerca
OpenBookQA	Valutare la capacità di un modello di utilizzare il ragionamento a più livelli e la comprensione di un testo ricco per rispondere a domande a scelta multipla.	Simula il formato di un esame a libro aperto per fornire passaggi di supporto e coppie di domande e risposte a scelta multipla.	La metrica misura l'accuratezza delle risposte.	• Scheda dati su Hugging Face • Documento di ricerca
TLDR	Valuta la capacità di un modello di riassumere un testo.	Oltre 3 milioni di post preelaborati da Reddit con una lunghezza media di 270 parole per il contenuto e 28 parole nel sommario.	Punteggio ROUGE-L per il riepilogo generato.	• Scheda dati su Hugging Face • Documento di ricerca
NER universale	Valuta la capacità di un modello di riconoscere entità denominate.	Include 19 insiemi di dati provenienti da vari settori, tra cui le notizie e i social media. I set di dati includono annotazioni di entità denominate e coprono 13 lingue diverse.	Punteggio F1	• Scheda dati su Hugging Face

Parametri di riferimento open source per la comprensione del linguaggio multilingue per i modelli di fondazione

I benchmark di comprensione del linguaggio multilingue open source mostrano i risultati dei test effettuati dall' IBM Research e che utilizzano set di dati multilingue pubblicati da terze parti, come istituzioni accademiche o team di ricerca industriale.

La tabella seguente descrive i set di dati, gli obiettivi, le metriche e le lingue di destinazione per i benchmark multilingue.

Parametri di riferimento per la comprensione linguistica multilingue open source in watsonx.ai
Nome del benchmark	Obiettivo	Descrizione del set di dati	Metrica	Lingue	Altre informazioni
Inglese di base	Valuta se un modello può tradurre frasi inglesi in queste lingue: Francese, tedesco, spagnolo, portoghese, giapponese e coreano.	850 parole chiave inglesi e relative traduzioni.	La metrica mostra il punteggio di contenimento delle stringhe, che misura la distanza di parole o caratteri tra la frase di destinazione e la traduzione di riferimento.	Il set di dati supporta inglese, francese, tedesco, spagnolo, portoghese, giapponese e coreano. Disponibile in watsonx.ai per i modelli che supportano il coreano.	Elenco delle parole inglesi di base di Ogden
Belebele	Valuta la capacità di lettura-comprensione e di risposta alle domande di un modello multilingue.	Domande, brani correlati e risposte a scelta multipla in 122 lingue.	La metrica misura l'accuratezza delle risposte.	Disponibile in watsonx.ai per i modelli che supportano arabo, francese, tedesco, giapponese, coreano, portoghese e spagnolo.	Scheda dati su Hugging Face
MASSICCIO	Valuta la capacità di un modello di classificare testi multilingue.	Oltre 1 milione di enunciati provenienti da interazioni con l'assistente vocale di Amazon, localizzati in 52 lingue e annotati con informazioni sull'intento e sul tipo di slot.	Punteggio F1	Disponibile in watsonx.ai per i modelli che supportano arabo, francese, tedesco, giapponese, coreano, portoghese e spagnolo.	Scheda dati su Hugging Face
MASSICCIA con prompt in inglese	Valuta la capacità di un modello di classificare testi multilingue con etichette in inglese.	Oltre 1 milione di enunciati provenienti da interazioni con l'assistente vocale di Amazon, localizzati in 52 lingue e annotati con informazioni sull'intento e sul tipo di slot.	Punteggio F1	Disponibile in watsonx.ai per i modelli che supportano l'arabo e il coreano.	Scheda dati su Hugging Face
MKQA	Valuta la capacità di un modello di rispondere a domande multilingue.	Include 10 K coppie di domande e risposte per ciascuna delle 26 lingue (per un totale di 260 K coppie).	Punteggio F1	Disponibile in watsonx.ai per i modelli che supportano arabo, francese, tedesco, giapponese, coreano, portoghese e spagnolo.	Scheda dati su Hugging Face
MLSUM	Valuta la capacità di un modello di riassumere testi multilingue.	Oltre 1.5 milioni di coppie di articoli e sommari di giornali online in 5 lingue (francese, tedesco, spagnolo, russo, turco) e di giornali inglesi come CNN e Daily Mail	Punteggio ROUGE-L per il riepilogo generato.	Disponibile in watsonx.ai per i modelli che supportano il francese e il tedesco.	Scheda dati su Hugging Face
XGLUE.qg	Valuta la capacità di un modello di comprendere un testo multilingue e di generare domande utili sul testo.	11 compiti in 19 lingue	Punteggio ROUGE-L per la domanda generata.	Disponibile in watsonx.ai per i modelli che supportano il francese, il tedesco, il portoghese e lo spagnolo.	Scheda dati su Hugging Face
XGLUE.wpr	Valuta la capacità di un modello di recuperare e classificare testi multilingue.	11 compiti che abbracciano 19 lingue.	Punteggio NDCG (Normalized Discounted Cumulative Gain) per il reperimento e la classificazione delle informazioni.	Disponibile in watsonx.ai per i modelli che supportano il francese, il tedesco, il portoghese e lo spagnolo.	Scheda dati su Hugging Face
XLSum	Valuta la capacità di un modello di riassumere testi multilingue.	1. 1.35 M riassunti annotati professionalmente di articoli di notizie della BBC in 44 lingue.	Punteggio ROUGE-L per il riepilogo generato.	Disponibile in watsonx.ai per i modelli che supportano arabo, francese, giapponese, coreano, portoghese e spagnolo.	Scheda dati su Hugging Face
XMMLU	Valuta la capacità del modello di rispondere a domande multilingue su matematica elementare, storia degli Stati Uniti, informatica, legge e altro ancora.	Traduzioni del dataset Massive Multitask Language Understanding (MMLU) in inglese, che consiste in domande di conoscenza generale a scelta multipla.	La metrica misura l'accuratezza delle risposte.	Disponibile in watsonx.ai per i modelli che supportano l'arabo, il francese e il coreano.
XNLI	Valuta la capacità di un modello di classificare frasi multilingue.	Sottoinsieme di dati del set di dati MNLI (Multi-Genre Natural Language Inference), che comprende coppie di frasi fornite da una folla e annotate con informazioni sull'entailment testuale e tradotte in 14 lingue.	La metrica misura l'accuratezza delle risposte.	Disponibile in watsonx.ai per i modelli che supportano l'arabo, il francese, il tedesco e lo spagnolo.	Scheda dati su GitHub
XNLI con istruzioni in inglese	Valuta la capacità di un modello di classificare frasi multilingue quando le richieste sono in inglese.	Sottoinsieme di dati del set di dati MNLI (Multi-Genre Natural Language Inference), che contiene coppie di frasi crowd-sourced annotate con informazioni di entailment testuale, tradotte in 14 lingue	La metrica misura l'accuratezza delle risposte.	Disponibile in watsonx.ai per i modelli che supportano l'arabo.	Scheda dati su GitHub
XWinograd	Valuta la capacità di un modello di comprendere il contesto e risolvere l'ambiguità in un testo multilingue.	Raccolta multilingue di schemi di Winograd, che sono coppie di frasi con significati drasticamente diversi a causa di lievi cambiamenti di parole.	La metrica misura l'accuratezza delle risposte.	Disponibile in watsonx.ai per i modelli che supportano il portoghese.	Scheda dati su Hugging Face

Codice di riferimento per i modelli di fondazione

I benchmark del codice mostrano il punteggio dei vari modelli di fondazione nei test che valutano la capacità del modello di svolgere attività di codifica programmatica, come generare codice, spiegare codice, correggere codice o tradurre codice da un linguaggio di programmazione a un altro.

Questi benchmark mostrano i risultati dei test eseguiti da IBM Research utilizzando set di dati di valutazione del codice pubblicati da terze parti, come istituzioni accademiche o gruppi di ricerca del settore.

La tabella seguente descrive i set di dati, gli obiettivi e i linguaggi di programmazione di destinazione per i benchmark di codice disponibili in watsonx.ai.

Codice di riferimento in watsonx.ai
Nome del benchmark	Obiettivo	Descrizione del set di dati	Metrica	Linguaggi di programmazione	Altre informazioni
CanItEdit	Valuta la capacità di un modello di gestire diversi scenari di modifica del codice in Python.	105 problemi di editing del codice istruttivo scritto da esseri umani.	Pass@1	Python	Documento di ricerca
CodeLingua	Valuta la capacità di un modello di tradurre il codice da un linguaggio di programmazione a un altro.	1.700 esempi di codice in vari linguaggi programmatici.	Pass@1	C++, Go, Java, JavaScript, Python, Rust	Documento di ricerca
HumanEval	Valuta la capacità di un modello di generare codice Python, di comprendere il linguaggio, di ragionare e di risolvere problemi legati agli algoritmi e alla matematica semplice.	164 Python problemi di programmazione scritti da esseri umani.	Pass@1	Python	Documento di ricerca
HumanEvalExplain	Valuta la capacità di un modello di spiegare frammenti di codice chiedendo prima al modello di spiegare la soluzione di un problema di programmazione e poi verificando se il modello è in grado di risolvere il problema quando gli viene fornita solo la spiegazione precedentemente generata.	Un'estensione del set di dati HumanEval.	Pass@1	C++, Go, Java, JavaScript, Python, Rust	Documento di ricerca
HumanEvalFix	Valuta la capacità di un modello di correggere gli errori di codifica nei frammenti di codice programmatico.	HumanEval il set di dati in cui sono stati introdotti gli errori e i test unitari che possono aiutare a identificare i problemi.	Pass@1	C++, Go, Java, JavaScript, Python, Rust	Documento di ricerca
HumanEvalSynthesize	Valuta la capacità di un modello di generare codice.	164 problemi di codice dal dataset HumanEval che sono stati tradotti da esseri umani da Python in altri linguaggi di programmazione.	Pass@1	Python, C++, Go, Java, JavaScript, Rust	Documento di ricerca
MBPP	Valuta la capacità di un modello di risolvere problemi di codifica di livello base Python	974 problemi di programmazione e soluzioni di Python, di origine popolare.	Pass@1	Python	Documento di ricerca
MBPP+	Valuta la capacità di un modello di risolvere i problemi di codifica di Python.	Amplia il set di dati MBPP con un maggior numero di problemi di programmazione Python e casi di test più completi, progettati per fornire una valutazione più rigorosa.	Pass@1	Python	Scheda dati

Metriche di benchmark

Alcune metriche sono autoesplicative, come ad esempio il punteggio di accuratezza di un modello testato su set di dati a scelta multipla. Altri sono meno conosciuti. Il seguente elenco descrive le metriche utilizzate per quantificare le prestazioni del modello in watsonx.ai:

F1: Misura se è stato raggiunto l'equilibrio ottimale tra precisione e richiamo. Spesso utilizzato per assegnare punteggi a compiti di classificazione, dove la precisione misura quante delle frasi complessive sono classificate come la classe di frase corretta e il richiamo misura la frequenza con cui le frasi che dovrebbero essere classificate sono classificate.
Guadagno cumulativo scontato normalizzato (NDCG): Una metrica di qualità del ranking che confronta le classifiche generate con un ordine di riferimento in cui gli elementi più rilevanti sono in cima all'elenco.
ROUGE-L: Utilizzato per assegnare un punteggio alla qualità delle sintesi, misurando la somiglianza tra la sintesi generata e la sintesi di riferimento. ROUGE è l'acronimo di Recall-Oriented Understudy for Gisting Evaluation. La L sta per punteggio basato sulla più lunga sequenza di parole corrispondenti. Questa metrica cerca le corrispondenze in sequenza che riflettono l'ordine delle parole a livello di frase.
SacreBLEU: Il BLEU (Bilingual Evaluation Understudy) è una metrica per confrontare una traduzione generata con una traduzione di riferimento. SacreBLEU è una versione che rende la metrica più facile da usare, fornendo set di dati di prova e gestendo la tokenizzazione in modo standardizzato. Viene spesso utilizzato per valutare la qualità dei compiti di traduzione, ma può essere usato anche per attribuire un punteggio ai compiti di sintesi.
Sicurezza: Una metrica utilizzata con il benchmark 500 dell' AttaQ, che combina la metrica Adjusted Rand Index (ARI), che considera le etichette associate agli attacchi, e il Silhouette Score, che valuta le caratteristiche basate sui cluster come coesione, separazione, distorsione e probabilità. Per ulteriori informazioni, consultare il documento di ricerca Unveiling safety vulnerabilities of large language models.
Tasso di vincita: Una metrica utilizzata con il benchmark Arena-Hard-Auto per mostrare la percentuale di conversazioni in cui le risposte del modello portano al completamento di un'azione. Per ulteriori informazioni, consultare il documento di ricerca Dati provenienti da crowdsourcing a benchmark di alta qualità: pipeline Arena-Hard e Benchbuilder.

Ulteriori informazioni

Scelta di un modello

Argomento principale: Modelli di fondazione supportati

L'argomento è stato utile?

0/1000

Trovare i punteggi di benchmark del modelloCopy link to section

Esecuzione delle proprie valutazioni di riferimento del modello di fondazioneCopy link to section

Parametri di riferimento IBM per la comprensione della lingua ingleseCopy link to section

Parametri di riferimento open source per la comprensione della lingua inglese per i modelli di fondazioneCopy link to section

Parametri di riferimento open source per la comprensione del linguaggio multilingue per i modelli di fondazioneCopy link to section

Codice di riferimento per i modelli di fondazioneCopy link to section

Metriche di benchmarkCopy link to section

Ulteriori informazioniCopy link to section