Per trovare il foundation model più adatto alle vostre esigenze, confrontate i risultati dei diversi modelli di fondazione con i relativi benchmark di prestazione.
I benchmark dei modelli di fondazione sono metriche che verificano la capacità di un foundation model di generare risultati accurati o attesi rispetto a specifici set di dati di prova. I benchmark coprono varie funzionalità, tra cui la capacità del modello di rispondere a domande su argomenti che spaziano dalla matematica elementare a questioni legali e finanziarie, o la capacità di riassumere testi, generare testi in altre lingue e altro ancora.
Cercate dei benchmark che mettano alla prova il modello rispetto alle attività specifiche che vi interessano. L'esame delle metriche può aiutare a valutare le capacità di un foundation model prima di provarlo.
I seguenti benchmark foundation model sono disponibili in watsonx.ai:
- Parametri di riferimentoIBM per la comprensione della lingua inglese
- Parametri di comprensione della lingua inglese open source
- Parametri di riferimento open source per la comprensione del linguaggio multilingue
Trovare i punteggi di benchmark del modello
Per accedere ai benchmark foundation model, completare i seguenti passaggi:
Dal Prompt Lab di watsonx.ai in modalità chat, fare clic sul campo Modello e scegliere Visualizza tutti i modelli di fondazione.
Fare clic sulla scheda Modello di benchmark per visualizzare i benchmark disponibili.
Fare clic sull'icona Filtro per modificare fattori quali i modelli o i tipi di benchmark da mostrare nella vista di confronto.
I punteggi vanno da 0 a 100. Più alti sono i punteggi, migliori sono le prestazioni del modello.
Parametri di riferimento IBM per la comprensione della lingua inglese
I benchmark di IBM per la comprensione della lingua inglese sono parametri pubblicati da IBM sulla base di test effettuati da IBM Research per valutare la capacità di ciascun modello di svolgere compiti comuni.
La tabella seguente descrive i set di dati, gli obiettivi e le metriche per i benchmark IBM.
Nome del benchmark | Obiettivo | Descrizione del set di dati | Metrica |
---|---|---|---|
Riepilogo | Condensa grandi quantità di testo in poche frasi che catturano i punti principali. Utile per catturare le idee chiave, le decisioni o le azioni da una lunga trascrizione di una riunione, ad esempio. | Si chiede ai modelli di riassumere il testo e si confrontano i riassunti generati dall'IA con quelli generati dall'uomo da tre set di dati: - dialoghi IT - dialoghi di supporto tecnico - blog dei social media |
Punteggio medio ROUGE-L |
Generazione aumentata dal recupero (RAG) | Una tecnica in cui il foundation model richiesto viene incrementato con conoscenze provenienti da fonti esterne. Nella fase di recupero, i documenti rilevanti provenienti da una fonte esterna vengono identificati a partire dall'interrogazione dell'utente. Nella fase di generazione, alcune parti di questi documenti vengono inserite nel prompt per generare una risposta basata su informazioni pertinenti. | Presenta domande basate sulle informazioni contenute nei documenti di 3 set di dati distinti | Punteggio medio ROUGE-L |
Classificazione | Identifica i dati come appartenenti a classi distinte di informazioni. Utile per categorizzare le informazioni, come il feedback dei clienti, in modo da poterle gestire o agire in modo più efficiente. | Cinque insiemi di dati con contenuti diversi, tra cui contenuti contrattuali da classificare e contenuti da valutare per sentimento, emozione e tono. | Punteggio medio F1 |
Generazione | Genera un linguaggio in risposta alle istruzioni e agli spunti forniti dai foundation model. | Un set di dati con email di marketing | Punteggio di SacreBLEU |
Estrazione | Trova termini o menzioni chiave nei dati basandosi sul significato semantico delle parole piuttosto che su semplici corrispondenze testuali. | Confronta le menzioni di entità trovate dal modello con le menzioni di entità trovate da un umano. I set di dati comprendono un set di dati con 12 entità denominate e un set di dati con tre tipi di sentiment. | Punteggio medio F1 |
Parametri di riferimento open source per la comprensione della lingua inglese per i modelli di fondazione
I benchmark Open source per la comprensione della lingua inglese mostrano i risultati dei test condotti da IBM Research utilizzando per lo più set di dati in inglese pubblicati da terze parti, come istituzioni accademiche o gruppi di ricerca industriali.
La tabella seguente descrive i set di dati, gli obiettivi e le metriche per i benchmark di comprensione della lingua inglese.
Nome del benchmark | Obiettivo | Descrizione del set di dati | Metrica | Altre informazioni |
---|---|---|---|---|
20 Gruppi di discussione | Valuta la capacità di un modello di classificare il testo. | Una versione del dataset 20 newsgroups di scikit-learn con quasi 20.000 documenti di newsgroup raggruppati in 20 categorie, tra cui computer, automobili, sport, medicina, spazio e politica. | Punteggio F1 | - Scheda di dati sul Hugging Face |
Arena-Hard-Auto | Valuta la capacità di un modello di rispondere alle domande. | 500 richieste dell'utente da dati in tempo reale inviati alla piattaforma di crowd-sourcing Chatbot Arena. | La metrica mostra il tasso di vincita delle risposte modello. | - Scheda tecnica sul Hugging Face - Documento di ricerca |
AttaQ 500 | Valuta se un modello è suscettibile di vulnerabilità di sicurezza. | Domande progettate per provocare risposte dannose nelle categorie inganno, discriminazione, informazioni dannose, abuso di sostanze, contenuti sessuali, informazioni di identificazione personale (PII) e violenza. | La metrica indica la sicurezza del modello. | - Scheda tecnica sul Hugging Face - Documento di ricerca |
BBQ (parametro di riferimento per la risposta alle domande) |
Valuta la capacità di un modello di riconoscere affermazioni che contengono opinioni distorte su persone appartenenti a quelle che sono considerate classi protette dagli anglofoni statunitensi. | Set di domande che evidenziano i pregiudizi. | La metrica misura l'accuratezza delle risposte. | - Scheda tecnica sul Hugging Face - Documento di ricerca |
BillSum | Valuta la capacità di un modello di riassumere un testo. | Dataset che riassume le proposte di legge del Congresso degli Stati Uniti e dello Stato della California. | Punteggio ROUGE-L per il riepilogo generato. | - Scheda tecnica sul Hugging Face - Documento di ricerca |
Banca dati dei reclami CFPB | Valutare la capacità di un modello di classificare il testo. | Consumer Financial Protection Bureau (CFPB) reclami di clienti reali su rapporti di credito, prestiti agli studenti, trasferimenti di denaro e altri servizi finanziari. | Punteggio F1 | - Scheda dati su Unitxt.ai |
CLAPnq | Valutare la capacità di un modello di utilizzare le informazioni contenute nei brani per rispondere alle domande. | Coppie di domande e risposte di forma lunga. | Punteggio F1 | - Scheda tecnica sul Hugging Face - Documento di ricerca |
FinQA | Valuta la capacità di un modello di rispondere a domande di finanza e di fare ragionamenti numerici. | Oltre 8.000 coppie di AQ sulla finanza scritte da esperti di finanza. | La metrica misura l'accuratezza delle risposte. | - Scheda tecnica sul Hugging Face - Documento di ricerca |
FLORES-101 | Valuta la capacità di un modello di tradurre il testo. | Articoli di Wikipedia in inglese che sono stati tradotti da traduttori umani professionisti in 101 lingue | Punteggio di SacreBLEU | - Scheda tecnica sul Hugging Face - Documento di ricerca |
HellaSwag | Valuta la capacità di un modello di completare scenari di buon senso. | Domande a scelta multipla tratte da ActivityNet e WikiHow. | La metrica misura l'accuratezza delle risposte. | - Scheda tecnica sul Hugging Face - Documento di ricerca |
LegalBench | Valuta la capacità di un modello di ragionare su scenari legali. | 162 compiti che coprono vari testi giuridici, strutture e ambiti. | Punteggio F1 | - Scheda tecnica sul Hugging Face - Documento di ricerca |
MMLU-Pro | Valutare la capacità di un modello di comprendere compiti impegnativi. | Una versione più impegnativa del dataset Massive Multitask Language Understanding (MMLU), che presenta domande più incentrate sul ragionamento e aumenta le scelte di risposta da 4 a 10 opzioni. | La metrica misura l'accuratezza delle risposte. | - Scheda tecnica sul Hugging Face - Documento di ricerca |
OpenBookQA | Valutare la capacità di un modello di utilizzare il ragionamento a più livelli e la comprensione di un testo ricco per rispondere a domande a scelta multipla. | Simula il formato di un esame a libro aperto per fornire passaggi di supporto e coppie di domande e risposte a scelta multipla. | La metrica misura l'accuratezza delle risposte. | - Scheda tecnica sul Hugging Face - Documento di ricerca |
TLDR | Valuta la capacità di un modello di riassumere un testo. | Oltre 3 milioni di post preelaborati da Reddit con una lunghezza media di 270 parole per il contenuto e 28 parole nel sommario. | Punteggio ROUGE-L per il riepilogo generato. | - Scheda tecnica sul Hugging Face - Documento di ricerca |
NER universale | Valuta la capacità di un modello di riconoscere entità denominate. | Include 19 insiemi di dati provenienti da vari settori, tra cui le notizie e i social media. I set di dati includono annotazioni di entità denominate e coprono 13 lingue diverse. | Punteggio F1 | - Scheda di dati sul Hugging Face |
Parametri di riferimento open source per la comprensione del linguaggio multilingue per i modelli di fondazione
I benchmark di comprensione linguistica multilingue open source mostrano i risultati dei test condotti da IBM Research utilizzando set di dati multilingue pubblicati da terze parti, come istituzioni accademiche o gruppi di ricerca industriali.
La tabella seguente descrive i set di dati, gli obiettivi, le metriche e le lingue di destinazione per i benchmark multilingue.
Nome del benchmark | Obiettivo | Descrizione del set di dati | Metrica | Lingue | Altre informazioni |
---|---|---|---|---|---|
Inglese di base | Valuta se un modello può tradurre frasi inglesi in queste lingue: Francese, tedesco, spagnolo, portoghese, giapponese e coreano. | 850 parole chiave inglesi e relative traduzioni. | La metrica mostra il punteggio di contenimento delle stringhe, che misura la distanza di parole o caratteri tra la frase di destinazione e la traduzione di riferimento. | Il set di dati supporta inglese, francese, tedesco, spagnolo, portoghese, giapponese e coreano. Disponibile in watsonx.ai per i modelli che supportano il coreano. | Elenco delle parole inglesi di base di Ogden |
Belebele | Valuta la capacità di lettura-comprensione e di risposta alle domande di un modello multilingue. | Domande, brani correlati e risposte a scelta multipla in 122 lingue. | La metrica misura l'accuratezza delle risposte. | Disponibile in watsonx.ai per i modelli che supportano arabo, francese, tedesco, giapponese, coreano, portoghese e spagnolo. | Scheda di dati sul Hugging Face |
MASSICCIO | Valuta la capacità di un modello di classificare testi multilingue. | Oltre 1 milione di enunciati provenienti da interazioni con l'assistente vocale di Amazon, localizzati in 52 lingue e annotati con informazioni sull'intento e sul tipo di slot. | Punteggio F1 | Disponibile in watsonx.ai per i modelli che supportano arabo, francese, tedesco, giapponese, coreano, portoghese e spagnolo. | Scheda di dati sul Hugging Face |
MASSICCIA con prompt in inglese | Valuta la capacità di un modello di classificare testi multilingue con etichette in inglese. | Oltre 1 milione di enunciati provenienti da interazioni con l'assistente vocale di Amazon, localizzati in 52 lingue e annotati con informazioni sull'intento e sul tipo di slot. | Punteggio F1 | Disponibile in watsonx.ai per i modelli che supportano l'arabo e il coreano. | Scheda di dati sul Hugging Face |
MKQA | Valuta la capacità di un modello di rispondere a domande multilingue. | Include 10 K coppie di domande e risposte per ciascuna delle 26 lingue (per un totale di 260 K coppie). | Punteggio F1 | Disponibile in watsonx.ai per i modelli che supportano arabo, francese, tedesco, giapponese, coreano, portoghese e spagnolo. | Scheda di dati sul Hugging Face |
MLSUM | Valuta la capacità di un modello di riassumere testi multilingue. | Oltre 1.5 milioni di coppie di articoli e sommari di giornali online in 5 lingue (francese, tedesco, spagnolo, russo, turco) e di giornali inglesi come CNN e Daily Mail | Punteggio ROUGE-L per il riepilogo generato. | Disponibile in watsonx.ai per i modelli che supportano il francese e il tedesco. | Scheda di dati sul Hugging Face |
XGLUE.qg | Valuta la capacità di un modello di comprendere un testo multilingue e di generare domande utili sul testo. | 11 compiti in 19 lingue | Punteggio ROUGE-L per la domanda generata. | Disponibile in watsonx.ai per i modelli che supportano il francese, il tedesco, il portoghese e lo spagnolo. | Scheda di dati sul Hugging Face |
XGLUE.wpr | Valuta la capacità di un modello di recuperare e classificare testi multilingue. | 11 compiti che abbracciano 19 lingue. | Punteggio NDCG (Normalized Discounted Cumulative Gain) per il reperimento e la classificazione delle informazioni. | Disponibile in watsonx.ai per i modelli che supportano il francese, il tedesco, il portoghese e lo spagnolo. | Scheda di dati sul Hugging Face |
XLSum | Valuta la capacità di un modello di riassumere testi multilingue. | 1. 1.35 M riassunti annotati professionalmente di articoli di notizie della BBC in 44 lingue. | Punteggio ROUGE-L per il riepilogo generato. | Disponibile in watsonx.ai per i modelli che supportano arabo, francese, giapponese, coreano, portoghese e spagnolo. | Scheda di dati sul Hugging Face |
XMMLU | Valuta la capacità del modello di rispondere a domande multilingue su matematica elementare, storia degli Stati Uniti, informatica, legge e altro ancora. | Traduzioni del dataset Massive Multitask Language Understanding (MMLU) in inglese, che consiste in domande di conoscenza generale a scelta multipla. | La metrica misura l'accuratezza delle risposte. | Disponibile in watsonx.ai per i modelli che supportano l'arabo, il francese e il coreano. | |
XNLI | Valuta la capacità di un modello di classificare frasi multilingue. | Sottoinsieme di dati del set di dati MNLI (Multi-Genre Natural Language Inference), che comprende coppie di frasi fornite da una folla e annotate con informazioni sull'entailment testuale e tradotte in 14 lingue. | La metrica misura l'accuratezza delle risposte. | Disponibile in watsonx.ai per i modelli che supportano l'arabo, il francese, il tedesco e lo spagnolo. | Scheda dati su GitHub |
XNLI con istruzioni in inglese | Valuta la capacità di un modello di classificare frasi multilingue quando le richieste sono in inglese. | Sottoinsieme di dati del set di dati MNLI (Multi-Genre Natural Language Inference), che contiene coppie di frasi crowd-sourced annotate con informazioni di entailment testuale, tradotte in 14 lingue | La metrica misura l'accuratezza delle risposte. | Disponibile in watsonx.ai per i modelli che supportano l'arabo. | Scheda dati su GitHub |
XWinograd | Valuta la capacità di un modello di comprendere il contesto e risolvere l'ambiguità in un testo multilingue. | Raccolta multilingue di schemi di Winograd, che sono coppie di frasi con significati drasticamente diversi a causa di lievi cambiamenti di parole. | La metrica misura l'accuratezza delle risposte. | Disponibile in watsonx.ai per i modelli che supportano il portoghese. | Scheda di dati sul Hugging Face |
Comprendere le metriche di benchmark
Alcune metriche sono autoesplicative, come ad esempio il punteggio di accuratezza di un modello testato su set di dati a scelta multipla. Altri sono meno conosciuti. Il seguente elenco descrive le metriche utilizzate per quantificare le prestazioni del modello in watsonx.ai:
- F1
- Misura se è stato raggiunto l'equilibrio ottimale tra precisione e richiamo. Spesso utilizzato per assegnare punteggi a compiti di classificazione, dove la precisione misura quante delle frasi complessive sono classificate come la classe di frase corretta e il richiamo misura la frequenza con cui le frasi che dovrebbero essere classificate sono classificate.
- Guadagno cumulativo scontato normalizzato (NDCG)
- Una metrica di qualità del ranking che confronta le classifiche generate con un ordine di riferimento in cui gli elementi più rilevanti sono in cima all'elenco.
- ROUGE-L
- Utilizzato per assegnare un punteggio alla qualità delle sintesi, misurando la somiglianza tra la sintesi generata e la sintesi di riferimento. ROUGE è l'acronimo di Recall-Oriented Understudy for Gisting Evaluation. La L sta per punteggio basato sulla più lunga sequenza di parole corrispondenti. Questa metrica cerca le corrispondenze in sequenza che riflettono l'ordine delle parole a livello di frase.
- SacreBLEU
- Il BLEU (Bilingual Evaluation Understudy) è una metrica per confrontare una traduzione generata con una traduzione di riferimento. SacreBLEU è una versione che rende la metrica più facile da usare, fornendo set di dati di prova e gestendo la tokenizzazione in modo standardizzato. Viene spesso utilizzato per valutare la qualità dei compiti di traduzione, ma può essere usato anche per attribuire un punteggio ai compiti di sintesi.
- Sicurezza
- Una metrica utilizzata con il benchmark AttaQ 500 che combina la metrica Adjusted Rand Index (ARI), che considera le etichette associate agli attacchi, e il Silhouette Score, che valuta le caratteristiche dei cluster come coesione, separazione, distorsione e probabilità. Per ulteriori informazioni, consultare il documento di ricerca Unveiling safety vulnerabilities of large language models.
- Tasso di vincita
- Una metrica utilizzata con il benchmark Arena-Hard-Auto per mostrare la percentuale di conversazioni in cui le risposte del modello portano al completamento di un'azione. Per ulteriori informazioni, consultare il documento di ricerca From crowsourced data to high-quality benchmarks: Arena-Hard e Benchbuilder pipelie.
Ulteriori informazioni
Argomento principale: Modelli di fondazione supportati