Um das richtige foundation model für Ihre Bedürfnisse zu finden, vergleichen Sie, wie die verschiedenen Stiftungsmodelle bei relevanten Leistungsvergleichen abschneiden.
Benchmarks für Basismodelle sind Metriken, die die Fähigkeit eines foundation model testen, genaue oder erwartete Ergebnisse anhand bestimmter Testdatensätze zu erzeugen. Die Benchmarks decken verschiedene Fähigkeiten ab, z. B. ob das Modell Fragen zu Themen beantworten kann, die von elementarer Mathematik bis hin zu Rechts- und Finanzfragen reichen, oder ob das Modell Texte zusammenfassen, Texte in anderen Sprachen generieren kann und mehr.
Suchen Sie nach Benchmarks, die das Modell anhand der spezifischen Aufgaben testen, die Ihnen wichtig sind. Die Überprüfung von Kennzahlen kann Ihnen helfen, die Fähigkeiten eines foundation model zu beurteilen, bevor Sie es ausprobieren.
Die folgenden ' foundation model -Benchmarks sind in ' watsonx.ai: verfügbar
- IBM Benchmarks zum englischen Sprachverständnis
- Open-Source-Benchmarks zum englischen Sprachverständnis
- Open-Source-Benchmarks zum mehrsprachigen Sprachverständnis
Ermitteln der Modell-Benchmark-Werte
Führen Sie die folgenden Schritte aus, um auf die Benchmarks foundation model zuzugreifen:
Klicken Sie im watsonx.ai Prompt Lab im Chat-Modus auf das Feld Modell und wählen Sie dann Alle Gründungsmodelle anzeigen.
Klicken Sie auf die Registerkarte Modell-Benchmarks, um die verfügbaren Benchmarks anzuzeigen.
Klicken Sie auf das Filtersymbol , um Faktoren wie die Modelle oder Benchmark-Typen zu ändern, die in der Vergleichsansicht angezeigt werden sollen.
Die Punktezahl reicht von 0 bis 100. Höhere Punktzahlen sind dabei jeweils besser.
IBM Benchmarks zum englischen Sprachverständnis
Die IBM Benchmarks für das englische Sprachverständnis werden von IBM auf der Grundlage von Tests veröffentlicht, die von IBM Research durchgeführt wurden, um die Fähigkeit der einzelnen Modelle zur Erledigung gängiger Aufgaben zu bewerten.
In der folgenden Tabelle werden die Datensätze, Ziele und Metriken für die IBM beschrieben.
Name der Benchmark | Ziel | Beschreibung des Datensatzes | Metrik |
---|---|---|---|
Zusammenfassung | Fasst große Textmengen in wenigen Sätzen zusammen, die das Wesentliche wiedergeben. Nützlich, um z. B. die wichtigsten Ideen, Entscheidungen oder Aktionspunkte aus einem langen Sitzungsprotokoll festzuhalten. | Beauftragt die Modelle mit der Zusammenfassung von Text und vergleicht die KI-generierten Zusammenfassungen mit von Menschen erstellten Zusammenfassungen aus drei Datensätzen: - IT-Dialoge - Dialoge des technischen Supports - Social Media Blogs |
Durchschnittliche ROUGE-L Punktzahl |
Retrieval-augmented Generation (RAG) | Eine Technik, bei der ein foundation model mit Wissen aus externen Quellen ergänzt wird. Beim Retrieval werden aus der Anfrage des Nutzers relevante Dokumente aus einer externen Quelle ermittelt. Im Generierungsschritt werden Teile dieser Dokumente in die Eingabeaufforderung aufgenommen, um eine Antwort zu erzeugen, die auf relevanten Informationen beruht. | Stellt Fragen auf der Grundlage von Informationen aus Dokumenten in 3 separaten Datensätzen | Durchschnittliche ROUGE-L Punktzahl |
Klassifikation | Identifiziert Daten als zu unterschiedlichen Informationsklassen gehörend. Nützlich für die Kategorisierung von Informationen, wie z. B. Kundenfeedback, so dass Sie die Informationen effizienter verwalten oder darauf reagieren können. | Fünf Datensätze mit unterschiedlichem Inhalt, darunter vertragliche Inhalte, die klassifiziert werden sollen, und Inhalte, die nach Stimmung, Emotion und Tonfall bewertet werden sollen. | Durchschnittliche F1 |
Generierung | Erzeugt Sprache als Reaktion auf Anweisungen und Hinweise, die in den foundation model gegeben werden. | Ein Datensatz mit Marketing-E-Mails | SacreBLEU Partitur |
Extraktion | Findet Schlüsselbegriffe oder Erwähnungen in Daten auf der Grundlage der semantischen Bedeutung von Wörtern und nicht durch einfache Textübereinstimmungen. | Vergleicht die vom Modell gefundenen Entitätserwähnungen mit den von einem Menschen gefundenen Entitätserwähnungen. Die Datensätze umfassen einen Datensatz mit 12 benannten Entitäten und einen Datensatz mit drei Gefühlstypen. | Durchschnittliche F1 |
Open-Source-Benchmarks zum englischen Sprachverständnis für Stiftungsmodelle
Die Open-Source-Benchmarks für das englische Sprachverständnis zeigen die Ergebnisse von Tests, die von IBM Research durchgeführt wurden. Dabei wurden hauptsächlich englische Datensätze verwendet, die von Dritten, z. B. akademischen Einrichtungen oder industriellen Forschungsteams, veröffentlicht wurden.
Die folgende Tabelle beschreibt die Datensätze, Ziele und Messgrößen für die Benchmarks zum englischen Sprachverständnis.
Name der Benchmark | Ziel | Beschreibung des Datensatzes | Metrik | Weitere Informationen |
---|---|---|---|---|
20 Newsgroups | Bewertet die Fähigkeit eines Modells, Text zu klassifizieren. | Eine Version des 20 Newsgroups-Datensatzes von scikit-learn mit fast 20.000 Newsgroup-Dokumenten, die in 20 Kategorien gruppiert sind, darunter Computer, Automobile, Sport, Medizin, Raumfahrt und Politik. | F1-Bewertung | - Datensatzkarte auf Hugging Face |
Arena-Hard-Auto | Bewertet die Fähigkeit eines Modells, Fragen zu beantworten. | 500 Benutzeraufforderungen aus Live-Daten, die an die Crowd-Sourcing-Plattform Chatbot Arena übermittelt werden. | Die Metrik zeigt die Gewinnrate für Musterantworten. | - Datensatzkarte zum Hugging Face - Forschungspapier |
AttaQ 500 | Bewertet, ob ein Modell für Sicherheitslücken anfällig ist. | Fragen, die schädliche Reaktionen in den Kategorien Täuschung, Diskriminierung, schädliche Informationen, Drogenmissbrauch, sexuelle Inhalte, persönlich identifizierbare Informationen (PII) und Gewalt provozieren sollen. | Die Metrik zeigt die Modellsicherheit an. | - Datensatzkarte zum Hugging Face - Forschungspapier |
BBQ (Bias-Benchmark für die Beantwortung von Fragen) |
Bewertet die Fähigkeit eines Modells, Aussagen zu erkennen, die voreingenommene Ansichten über Menschen enthalten, die in der englischen Sprache der USA als geschützte Gruppen gelten. | Fragesätze, die Vorurteile aufzeigen. | Die Metrik misst die Genauigkeit der Antworten. | - Datensatzkarte zum Hugging Face - Forschungspapier |
BillSum | Bewertet die Fähigkeit eines Modells, einen Text zusammenzufassen. | Datensatz mit einer Zusammenfassung der Gesetzesentwürfe des US-Kongresses und des Staates Kalifornien. | ROUGE-L score für die erstellte Zusammenfassung. | - Datensatzkarte zum Hugging Face - Forschungspapier |
CFPB-Beschwerde-Datenbank | Bewerten Sie die Fähigkeit eines Modells, Text zu klassifizieren. | Beschwerden des Consumer Financial Protection Bureau (CFPB) von echten Kunden über Kreditauskünfte, Studentenkredite, Geldüberweisungen und andere Finanzdienstleistungen. | F1-Bewertung | - Datensatzkarte auf Unitxt.ai |
CLAPnq | Bewerten Sie die Fähigkeit eines Modells, Informationen aus Textstellen zur Beantwortung von Fragen zu nutzen. | Langform-Frage-Antwort-Paare. | F1-Bewertung | - Datensatzkarte zum Hugging Face - Forschungspapier |
FinQA | Bewertet die Fähigkeit eines Modells, Finanzfragen zu beantworten und numerische Schlussfolgerungen zu ziehen. | Über 8.000 QA-Paare zum Thema Finanzen, die von Finanzexperten geschrieben wurden. | Die Metrik misst die Genauigkeit der Antworten. | - Datensatzkarte zum Hugging Face - Forschungspapier |
FLORES-101 | Bewertet die Fähigkeit eines Modells, Text zu übersetzen. | Englische Wikipedia-Artikel, die von professionellen menschlichen Übersetzern in 101 Sprachen übersetzt wurden | SacreBLEU Partitur | - Datensatzkarte zum Hugging Face - Forschungspapier |
HellaSwag | Bewertet die Fähigkeit eines Modells, vernünftige Szenarien zu vervollständigen. | Multiple-Choice-Fragen, die von ActivityNet und WikiHow bezogen werden. | Die Metrik misst die Genauigkeit der Antworten. | - Datensatzkarte zum Hugging Face - Forschungspapier |
LegalBench | Bewertet die Fähigkeit eines Modells, Schlussfolgerungen über rechtliche Szenarien zu ziehen. | 162 Aufgaben, die verschiedene Rechtstexte, Strukturen und Bereiche abdecken. | F1-Bewertung | - Datensatzkarte zum Hugging Face - Forschungspapier |
MMLU-Pro | Bewerten Sie die Fähigkeit eines Modells, anspruchsvolle Aufgaben zu verstehen. | Eine anspruchsvollere Version des Massive Multitask Language Understanding (MMLU)-Datensatzes, die mehr Fragen zum logischen Denken enthält und die Antwortmöglichkeiten von 4 auf 10 Optionen erhöht. | Die Metrik misst die Genauigkeit der Antworten. | - Datensatzkarte zum Hugging Face - Forschungspapier |
OpenBookQA | Bewerten Sie die Fähigkeit eines Modells, bei der Beantwortung von Multiple-Choice-Fragen eine mehrstufige Argumentation und ein umfassendes Textverständnis anzuwenden. | Simuliert ein offenes Prüfungsformat, um unterstützende Passagen und Multiple-Choice-Fragenpaare bereitzustellen. | Die Metrik misst die Genauigkeit der Antworten. | - Datensatzkarte zum Hugging Face - Forschungspapier |
TLDR | Bewertet die Fähigkeit eines Modells, einen Text zusammenzufassen. | Über 3 Mio. vorverarbeitete Beiträge von Reddit mit einer durchschnittlichen Länge von 270 Wörtern für den Inhalt und 28 Wörtern in der Zusammenfassung. | ROUGE-L score für die erstellte Zusammenfassung. | - Datensatzkarte zum Hugging Face - Forschungspapier |
Universal NER | Bewertet die Fähigkeit eines Modells, benannte Entitäten zu erkennen. | Enthält 19 Datensätze aus verschiedenen Bereichen, darunter Nachrichten und soziale Medien. Die Datensätze enthalten Annotationen zu benannten Entitäten und decken 13 verschiedene Sprachen ab. | F1-Bewertung | - Datensatzkarte auf Hugging Face |
Open-Source-Benchmarks für das mehrsprachige Sprachverständnis von Gründungsmodellen
Die Open-Source-Benchmarks für mehrsprachiges Sprachverständnis zeigen die Ergebnisse von Tests, die von IBM Research unter Verwendung mehrsprachiger Datensätze durchgeführt wurden, die von Dritten, z. B. akademischen Einrichtungen oder industriellen Forschungsteams, veröffentlicht wurden.
Die folgende Tabelle beschreibt die Datensätze, Ziele, Metriken und Zielsprachen für die mehrsprachigen Benchmarks.
Name der Benchmark | Ziel | Beschreibung des Datensatzes | Metrik | Sprachen | Weitere Informationen |
---|---|---|---|---|---|
Grundlegendes Englisch | Bewertet, ob ein Modell englische Sätze in diese Sprachen übersetzen kann: Französisch, Deutsch, Spanisch, Portugiesisch, Japanisch und Koreanisch. | 850 englische Schlüsselwörter und ihre Übersetzungen. | Die Metrik zeigt den String Containment Score, der den Wort- oder Zeichenabstand zwischen dem Zielsatz und der Referenzübersetzung misst. | Der Datensatz unterstützt Englisch, Französisch, Deutsch, Spanisch, Portugiesisch, Japanisch und Koreanisch. Verfügbar in watsonx.ai für Modelle, die Koreanisch unterstützen. | Ogden's Basic English Wortliste |
Belebele | Bewertet die Fähigkeit eines Modells, mehrsprachige Texte zu lesen und zu verstehen und Fragen zu beantworten. | Fragen, zugehörige Textstellen und Multiple-Choice-Antworten in 122 Sprachen. | Die Metrik misst die Genauigkeit der Antworten. | Verfügbar in watsonx.ai für Modelle, die Arabisch, Französisch, Deutsch, Japanisch, Koreanisch, Portugiesisch und Spanisch unterstützen. | Datensatzkarte auf Hugging Face |
MASSIV | Bewertet die Fähigkeit eines Modells, mehrsprachigen Text zu klassifizieren. | Über 1 Mio. Äußerungen aus Interaktionen mit dem Sprachassistenten von Amazon, die in 52 Sprachen lokalisiert und mit Informationen über die Absicht und den Slot-Typ versehen sind. | F1-Bewertung | Verfügbar in watsonx.ai für Modelle, die Arabisch, Französisch, Deutsch, Japanisch, Koreanisch, Portugiesisch und Spanisch unterstützen. | Datensatzkarte auf Hugging Face |
MASSIVE mit englischen Eingabeaufforderungen | Bewertet die Fähigkeit eines Modells, mehrsprachigen Text mit englischen Bezeichnungen zu klassifizieren. | Über 1 Mio. Äußerungen aus Interaktionen mit dem Sprachassistenten von Amazon, die in 52 Sprachen lokalisiert und mit Informationen über die Absicht und den Slot-Typ versehen sind. | F1-Bewertung | Verfügbar in watsonx.ai für Modelle, die Arabisch und Koreanisch unterstützen. | Datensatzkarte auf Hugging Face |
MKQA | Bewertet die Fähigkeit eines Modells zur mehrsprachigen Beantwortung von Fragen. | Enthält 10 K Frage-Antwort-Paare für jede der 26 Sprachen (insgesamt 260 K Paare). | F1-Bewertung | Verfügbar in watsonx.ai für Modelle, die Arabisch, Französisch, Deutsch, Japanisch, Koreanisch, Portugiesisch und Spanisch unterstützen. | Datensatzkarte auf Hugging Face |
MLSUM | Bewertet die Fähigkeit eines Modells, mehrsprachigen Text zusammenzufassen. | Über 1.5 Mio. Artikel-Zusammenfassungs-Paare aus Online-Zeitungen in 5 Sprachen (Französisch, Deutsch, Spanisch, Russisch, Türkisch) und englischen Zeitungen von CNN und Daily Mail | ROUGE-L score für die erstellte Zusammenfassung. | Verfügbar in watsonx.ai für Modelle, die Französisch und Deutsch unterstützen. | Datensatzkarte auf Hugging Face |
XGLUE.qg | Bewertet die Fähigkeit eines Modells, mehrsprachige Texte zu verstehen und aufschlussreiche Fragen zum Text zu stellen. | 11 Aufgaben, die 19 Sprachen umfassen | ROUGE-L Punktzahl für die generierte Frage. | Verfügbar in watsonx.ai für Modelle, die Französisch, Deutsch, Portugiesisch und Spanisch unterstützen. | Datensatzkarte auf Hugging Face |
XGLUE.wpr | Bewertet die Fähigkeit eines Modells, mehrsprachigen Text zu finden und zu bewerten. | 11 Aufgaben, die 19 Sprachen umfassen. | Normalized Discounted Cumulative Gain (NDCG) Score für die Informationssuche und das Ranking. | Verfügbar in watsonx.ai für Modelle, die Französisch, Deutsch, Portugiesisch und Spanisch unterstützen. | Datensatzkarte auf Hugging Face |
XLSum | Bewertet die Fähigkeit eines Modells, mehrsprachigen Text zusammenzufassen. | 1. 1.35 M professionell kommentierte Zusammenfassungen von BBC-Nachrichtenartikeln in 44 Sprachen. | ROUGE-L score für die erstellte Zusammenfassung. | Verfügbar in watsonx.ai für Modelle, die Arabisch, Französisch, Japanisch, Koreanisch, Portugiesisch und Spanisch unterstützen. | Datensatzkarte auf Hugging Face |
XMMLU | Bewertet die Fähigkeit des Modells, mehrsprachige Fragen über elementare Mathematik, US-Geschichte, Informatik, Recht und mehr zu beantworten. | Übersetzungen des Massive Multitask Language Understanding (MMLU)-Datensatzes für Englisch, der aus Multiple-Choice-Fragen zum Allgemeinwissen besteht. | Die Metrik misst die Genauigkeit der Antworten. | Verfügbar in watsonx.ai für Modelle, die Arabisch, Französisch und Koreanisch unterstützen. | |
XNLI | Bewertet, wie gut ein Modell mehrsprachige Sätze klassifizieren kann. | Teilmenge von Daten aus dem MNLI-Datensatz (Multi-Genre Natural Language Inference), der Satzpaare enthält, die von einer Vielzahl von Personen stammen, mit Text-Enthüllungsinformationen annotiert und in 14 Sprachen übersetzt sind. | Die Metrik misst die Genauigkeit der Antworten. | Verfügbar in watsonx.ai für Modelle, die Arabisch, Französisch, Deutsch und Spanisch unterstützen. | Datensatzkarte auf GitHub |
XNLI mit englischer Anleitung | Bewertet, wie gut ein Modell mehrsprachige Sätze klassifizieren kann, wenn die Prompts auf Englisch sind. | Teilmenge von Daten aus dem MNLI-Datensatz (Multi-Genre Natural Language Inference), der Satzpaare enthält, die von einer Vielzahl von Personen stammen und mit textuellen Folgerungsinformationen versehen sind, übersetzt in 14 Sprachen | Die Metrik misst die Genauigkeit der Antworten. | Verfügbar in watsonx.ai für Modelle, die Arabisch unterstützen. | Datensatzkarte auf GitHub |
XWinograd | Bewertet die Fähigkeit eines Modells, den Kontext zu verstehen und Mehrdeutigkeiten in mehrsprachigen Texten aufzulösen. | Mehrsprachige Sammlung von Winograd-Schemata, d. h. Satzpaaren, deren Bedeutung sich aufgrund geringfügiger Wortänderungen drastisch unterscheidet. | Die Metrik misst die Genauigkeit der Antworten. | Verfügbar in watsonx.ai für Modelle, die Portugiesisch unterstützen. | Datensatzkarte auf Hugging Face |
Verstehen von Benchmark-Metriken
Einige Metriken sind selbsterklärend, wie z. B. die Genauigkeitsbewertung für ein Modell, das anhand von Multiple-Choice-Datensätzen getestet wird. Andere sind weniger bekannt. Die folgende Liste beschreibt die Metriken, die zur Quantifizierung der Modellleistung in ' watsonx.ai: verwendet werden
- F1
- Misst, ob das optimale Gleichgewicht zwischen Präzision und Recall erreicht ist. Wird häufig zur Bewertung von Klassifizierungsaufgaben verwendet, wobei die Präzision misst, wie viele der gesamten Sätze als die richtige Satzklasse klassifiziert werden, und der Rückruf misst, wie oft Sätze, die klassifiziert werden sollten, klassifiziert werden.
- Normalisierter diskontierter kumulativer Gewinn (NDCG)
- Eine Metrik für die Qualität der Rangliste, die die erstellten Ranglisten mit einer Referenzreihenfolge vergleicht, bei der die relevantesten Elemente an der Spitze der Rangliste stehen.
- ROUGE-L
- Dient zur Bewertung der Qualität von Zusammenfassungen durch Messung der Ähnlichkeit zwischen der erstellten Zusammenfassung und der Referenzzusammenfassung. ROUGE steht für Recall-Oriented Understudy for Gisting Evaluation. Das L steht für die Wertung auf der Grundlage der längsten übereinstimmenden Wortfolge. Diese Metrik sucht nach Übereinstimmungen in der Sequenz, die die Wortreihenfolge auf Satzebene widerspiegeln.
- SacreBLEU
- Bilingual Evaluation Understudy (BLEU) ist eine Metrik zum Vergleich einer generierten Übersetzung mit einer Referenzübersetzung. SacreBLEU ist eine Version, die die Verwendung der Metrik erleichtert, indem sie Beispiel-Testdatensätze bereitstellt und die Tokenisierung auf standardisierte Weise verwaltet. Wird meist zur Bewertung der Qualität von Übersetzungsaufgaben verwendet, kann aber auch zur Bewertung von Zusammenfassungsaufgaben eingesetzt werden.
- Sicherheit
- Eine mit dem AttaQ 500-Benchmark verwendete Metrik, die den Adjusted Rand Index (ARI), der die mit Angriffen assoziierten Labels berücksichtigt, und den Silhouette Score, der clusterbasierte Merkmale wie Kohäsion, Trennung, Verzerrung und Wahrscheinlichkeit bewertet, kombiniert. Weitere Informationen finden Sie in dem Forschungspapier Unveiling safety vulnerabilities of large language models.
- Abschlussrate
- Eine Metrik, die mit dem Arena-Hard-Auto-Benchmark verwendet wird, um den Prozentsatz der Konversationen anzuzeigen, in denen Modellantworten zum erfolgreichen Abschluss einer Aktion führen. Weitere Informationen finden Sie in dem Forschungspapier From crowsourced data to high-quality benchmarks: Arena-Hard und Benchbuilder pipelie.
Weitere Informationen
Übergeordnetes Thema: Unterstützte Stiftungsmodelle