Maschinell übersetztes Thema Sie können zur englischen Version wechseln.Siehe Haftungsausschluss
Die genaueste und aktuellste Version dieser Dokumentation finden Sie in der englischen (ursprünglichen) Version. IBM haftet nicht für Schäden oder Verluste, die durch die Verwendung automatisch (maschinell) übersetzter Inhalte entstehen.
Benchmarks für das Stiftungsmodell
Letzte Aktualisierung: 07. Apr. 2025
Benchmarks für das Stiftungsmodell
Um das richtige Stiftungsmodell für Ihre Bedürfnisse zu finden, vergleichen Sie, wie verschiedene Stiftungsmodelle bei relevanten Leistungsbenchmarks abschneiden.
Benchmarks für das Fundamentmodell testen die Fähigkeit eines Fundamentmodells, genaue oder erwartete Ergebnisse für bestimmte Aufgaben zu generieren. Die Benchmarks decken verschiedene Fähigkeiten ab, z. B. ob das Modell Fragen zu Themen beantworten kann, die von elementarer Mathematik bis hin zu Rechts- und Finanzfragen reichen, oder ob das Modell Texte zusammenfassen, Texte in anderen Sprachen generieren kann und mehr.
Benchmarks bestehen aus Datensätzen mit Eingaben und erwarteten Ausgaben und Metriken, die die Qualität der Antworten eines Modells durch die Messung von Faktoren wie Genauigkeit, Schädlichkeit und Verzerrung quantifizieren.
Suchen Sie nach Benchmarks, die das Modell anhand der spezifischen Aufgaben testen, die Ihnen wichtig sind. Die Überprüfung von Kennzahlen kann Ihnen dabei helfen, die Fähigkeiten eines Stiftungsmodells einzuschätzen, bevor Sie es ausprobieren.
Die folgenden Referenzwerte für das Stiftungsmodell sind verfügbar in watsonx.ai:
Um auf die Benchmarks des Stiftungsmodells zuzugreifen, führen Sie die folgenden Schritte aus:
Klicken Sie im watsonx.ai Prompt Lab im Chat-Modus auf das Feld Modell und wählen Sie dann Alle Gründungsmodelle anzeigen.
Klicken Sie auf die Registerkarte Modell-Benchmarks, um die verfügbaren Benchmarks anzuzeigen.
Klicken Sie auf das Filtersymbol , um Faktoren wie die Modelle oder Benchmark-Typen zu ändern, die in der Vergleichsansicht angezeigt werden sollen.
Die Punktezahl reicht von 0 bis 100. Höhere Punktzahlen sind dabei jeweils besser.
Benchmark-Evaluierungen für Ihr eigenes Stiftungsmodell durchführen
Copy link to section
Die Ansicht "Modell-Benchmarks" in watsonx.ai zeigt die Benchmark-Ergebnisse von Tests, die von IBM durchgeführt wurden. IBM verwendet einen Bewertungsrahmen für das Fundamentmodell, der hauptsächlich auf der Unitxt-Bibliothek basiert. Unitxt ist ein Open-Source-Projekt, das von IBM Research entwickelt wurde, um den einzigartigen Anforderungen an die Bewertung von Fundamentmodellen in Unternehmensanwendungsfällen gerecht zu werden. IBM der Modellbewertungsrahmen von 's verwendet auch einen anderen führenden Open-Source-Bewertungsrahmen, der LM-Evaluierungsgurt genannt wird. Beide Open-Source-Tools können für unabhängige Bewertungen von Fundamentmodellen verwendet werden.
Die IBM Benchmarks für das englische Sprachverständnis werden von IBM auf der Grundlage von Tests veröffentlicht, die von IBM Research durchgeführt wurden, um die Fähigkeit der einzelnen Modelle zur Erledigung gängiger Aufgaben zu bewerten.
In der folgenden Tabelle werden die Datensätze, Ziele und Metriken für die IBM beschrieben.
IBM Benchmarks zum englischen Sprachverständnis
Name der Benchmark
Ziel
Beschreibung des Datensatzes
Metrik
Zusammenfassung
Fasst große Textmengen in wenigen Sätzen zusammen, die das Wesentliche wiedergeben. Nützlich, um z. B. die wichtigsten Ideen, Entscheidungen oder Aktionspunkte aus einem langen Sitzungsprotokoll festzuhalten.
Beauftragt die Modelle mit der Zusammenfassung von Text und vergleicht die KI-generierten Zusammenfassungen mit von Menschen erstellten Zusammenfassungen aus drei Datensätzen: - IT-Dialoge - Dialoge des technischen Supports - Social Media Blogs
Durchschnittliche ROUGE-L Punktzahl
Retrieval-augmented Generation (RAG)
Eine Technik, bei der eine Eingabeaufforderung für ein Fundamentmodell mit Wissen aus externen Quellen ergänzt wird. Beim Retrieval werden aus der Anfrage des Nutzers relevante Dokumente aus einer externen Quelle ermittelt. Im Generierungsschritt werden Teile dieser Dokumente in die Eingabeaufforderung aufgenommen, um eine Antwort zu erzeugen, die auf relevanten Informationen beruht.
Stellt Fragen auf der Grundlage von Informationen aus Dokumenten in 3 separaten Datensätzen
Durchschnittliche ROUGE-L Punktzahl
Klassifikation
Identifiziert Daten als zu unterschiedlichen Informationsklassen gehörend. Nützlich für die Kategorisierung von Informationen, wie z. B. Kundenfeedback, so dass Sie die Informationen effizienter verwalten oder darauf reagieren können.
Fünf Datensätze mit unterschiedlichem Inhalt, darunter vertragliche Inhalte, die klassifiziert werden sollen, und Inhalte, die nach Stimmung, Emotion und Tonfall bewertet werden sollen.
Durchschnittliche F1
Generierung
Erzeugt Sprache als Reaktion auf Anweisungen und Hinweise, die in den Aufforderungen des Foundation-Modells enthalten sind.
Ein Datensatz mit Marketing-E-Mails
SacreBLEU Partitur
Extraktion
Findet Schlüsselbegriffe oder Erwähnungen in Daten auf der Grundlage der semantischen Bedeutung von Wörtern und nicht durch einfache Textübereinstimmungen.
Vergleicht die vom Modell gefundenen Entitätserwähnungen mit den von einem Menschen gefundenen Entitätserwähnungen. Die Datensätze umfassen einen Datensatz mit 12 benannten Entitäten und einen Datensatz mit drei Gefühlstypen.
Durchschnittliche F1
Open-Source-Benchmarks zum englischen Sprachverständnis für Stiftungsmodelle
Copy link to section
Die Open-Source-Benchmarks für das Verständnis der englischen Sprache zeigen Ergebnisse von Tests, die von IBM Research durchgeführt werden und die hauptsächlich englische Datensätze verwenden, die von Dritten, wie z. B. akademischen Einrichtungen oder Forschungsteams aus der Industrie, veröffentlicht werden.
Die folgende Tabelle beschreibt die Datensätze, Ziele und Messgrößen für die Benchmarks zum englischen Sprachverständnis.
Open-Source-Benchmarks zum englischen Sprachverständnis in watsonx.ai
Name der Benchmark
Ziel
Beschreibung des Datensatzes
Metrik
Weitere Informationen
20 Newsgroups
Bewertet die Fähigkeit eines Modells, Text zu klassifizieren.
Eine Version des 20 Newsgroups-Datensatzes von scikit-learn mit fast 20.000 Newsgroup-Dokumenten, die in 20 Kategorien gruppiert sind, darunter Computer, Automobile, Sport, Medizin, Raumfahrt und Politik.
BBQ (Bias-Benchmark für die Beantwortung von Fragen)
Bewertet die Fähigkeit eines Modells, Aussagen zu erkennen, die voreingenommene Ansichten über Menschen enthalten, die in der englischen Sprache der USA als geschützte Gruppen gelten.
Bewerten Sie die Fähigkeit eines Modells, Text zu klassifizieren.
Beschwerden des Consumer Financial Protection Bureau (CFPB) von echten Kunden über Kreditauskünfte, Studentenkredite, Geldüberweisungen und andere Finanzdienstleistungen.
Bewerten Sie die Fähigkeit eines Modells, anspruchsvolle Aufgaben zu verstehen.
Eine anspruchsvollere Version des Massive Multitask Language Understanding (MMLU)-Datensatzes, die mehr Fragen zum logischen Denken enthält und die Antwortmöglichkeiten von 4 auf 10 Optionen erhöht.
Bewerten Sie die Fähigkeit eines Modells, bei der Beantwortung von Multiple-Choice-Fragen eine mehrstufige Argumentation und ein umfassendes Textverständnis anzuwenden.
Simuliert ein offenes Prüfungsformat, um unterstützende Passagen und Multiple-Choice-Fragenpaare bereitzustellen.
Bewertet die Fähigkeit eines Modells, einen Text zusammenzufassen.
Über 3 Mio. vorverarbeitete Beiträge von Reddit mit einer durchschnittlichen Länge von 270 Wörtern für den Inhalt und 28 Wörtern in der Zusammenfassung.
Bewertet die Fähigkeit eines Modells, benannte Entitäten zu erkennen.
Enthält 19 Datensätze aus verschiedenen Bereichen, darunter Nachrichten und soziale Medien. Die Datensätze enthalten Annotationen zu benannten Entitäten und decken 13 verschiedene Sprachen ab.
Open-Source-Benchmarks für das mehrsprachige Sprachverständnis von Gründungsmodellen
Copy link to section
Die Open-Source-Benchmarks für das mehrsprachige Sprachverständnis zeigen Ergebnisse von Tests, die von IBM Research durchgeführt werden und mehrsprachige Datensätze verwenden, die von Dritten, wie z. B. akademischen Einrichtungen oder Forschungsteams aus der Industrie, veröffentlicht werden.
Die folgende Tabelle beschreibt die Datensätze, Ziele, Metriken und Zielsprachen für die mehrsprachigen Benchmarks.
Open-Source-Benchmarks zum mehrsprachigen Sprachverständnis in watsonx.ai
Name der Benchmark
Ziel
Beschreibung des Datensatzes
Metrik
Sprachen
Weitere Informationen
Grundlegendes Englisch
Bewertet, ob ein Modell englische Sätze in diese Sprachen übersetzen kann: Französisch, Deutsch, Spanisch, Portugiesisch, Japanisch und Koreanisch.
850 englische Schlüsselwörter und ihre Übersetzungen.
Die Metrik zeigt den String Containment Score, der den Wort- oder Zeichenabstand zwischen dem Zielsatz und der Referenzübersetzung misst.
Der Datensatz unterstützt Englisch, Französisch, Deutsch, Spanisch, Portugiesisch, Japanisch und Koreanisch. Verfügbar in watsonx.ai für Modelle, die Koreanisch unterstützen.
Bewertet die Fähigkeit eines Modells, mehrsprachigen Text zu klassifizieren.
Über 1 Mio. Äußerungen aus Interaktionen mit dem Sprachassistenten von Amazon, die in 52 Sprachen lokalisiert und mit Informationen über die Absicht und den Slot-Typ versehen sind.
F1-Bewertung
Verfügbar in watsonx.ai für Modelle, die Arabisch, Französisch, Deutsch, Japanisch, Koreanisch, Portugiesisch und Spanisch unterstützen.
Bewertet die Fähigkeit eines Modells, mehrsprachigen Text mit englischen Bezeichnungen zu klassifizieren.
Über 1 Mio. Äußerungen aus Interaktionen mit dem Sprachassistenten von Amazon, die in 52 Sprachen lokalisiert und mit Informationen über die Absicht und den Slot-Typ versehen sind.
F1-Bewertung
Verfügbar in watsonx.ai für Modelle, die Arabisch und Koreanisch unterstützen.
Bewertet die Fähigkeit eines Modells, mehrsprachigen Text zusammenzufassen.
Über 1.5 Mio. Artikel-Zusammenfassungs-Paare aus Online-Zeitungen in 5 Sprachen (Französisch, Deutsch, Spanisch, Russisch, Türkisch) und englischen Zeitungen von CNN und Daily Mail
ROUGE-L score für die erstellte Zusammenfassung.
Verfügbar in watsonx.ai für Modelle, die Französisch und Deutsch unterstützen.
Bewertet die Fähigkeit des Modells, mehrsprachige Fragen über elementare Mathematik, US-Geschichte, Informatik, Recht und mehr zu beantworten.
Übersetzungen des Massive Multitask Language Understanding (MMLU)-Datensatzes für Englisch, der aus Multiple-Choice-Fragen zum Allgemeinwissen besteht.
Die Metrik misst die Genauigkeit der Antworten.
Verfügbar in watsonx.ai für Modelle, die Arabisch, Französisch und Koreanisch unterstützen.
XNLI
Bewertet, wie gut ein Modell mehrsprachige Sätze klassifizieren kann.
Teilmenge von Daten aus dem MNLI-Datensatz (Multi-Genre Natural Language Inference), der Satzpaare enthält, die von einer Vielzahl von Personen stammen, mit Text-Enthüllungsinformationen annotiert und in 14 Sprachen übersetzt sind.
Die Metrik misst die Genauigkeit der Antworten.
Verfügbar in watsonx.ai für Modelle, die Arabisch, Französisch, Deutsch und Spanisch unterstützen.
Bewertet, wie gut ein Modell mehrsprachige Sätze klassifizieren kann, wenn die Prompts auf Englisch sind.
Teilmenge von Daten aus dem MNLI-Datensatz (Multi-Genre Natural Language Inference), der Satzpaare enthält, die von einer Vielzahl von Personen stammen und mit textuellen Folgerungsinformationen versehen sind, übersetzt in 14 Sprachen
Die Metrik misst die Genauigkeit der Antworten.
Verfügbar in watsonx.ai für Modelle, die Arabisch unterstützen.
Die Code-Benchmarks zeigen, wie verschiedene Basismodelle bei Tests abschneiden, die die Fähigkeit des Modells zur Durchführung von Programmieraufgaben bewerten, wie z. B. das Generieren von Code, das Erklären von Code, das Reparieren von Code oder das Übersetzen von Code von einer Programmiersprache in eine andere.
Diese Benchmarks zeigen die Ergebnisse von Tests, die von IBM Research unter Verwendung von Code-Evaluierungsdatensätzen durchgeführt wurden, die von Dritten, z. B. akademischen Einrichtungen oder industriellen Forschungsteams, veröffentlicht wurden.
Die folgende Tabelle beschreibt die Datensätze, Ziele und Zielprogrammiersprachen für die Code-Benchmarks, die unter watsonx.ai verfügbar sind.
Code-Benchmarks in watsonx.ai
Name der Benchmark
Ziel
Beschreibung des Datensatzes
Metrik
Programmiersprachen
Weitere Informationen
CanItEdit
Bewertet die Fähigkeit eines Modells, verschiedene Code-Bearbeitungsszenarien in Python zu bewältigen.
105 Probleme bei der Bearbeitung von Lehrtexten, die von Menschen geschrieben wurden.
Bewertet die Fähigkeit eines Modells, Python Code zu generieren, Sprache zu verstehen, zu argumentieren und Probleme zu lösen, die mit Algorithmen und einfacher Mathematik zusammenhängen.
164 Python Programmierprobleme, die von Menschen geschrieben wurden.
Bewertet die Fähigkeit eines Modells, Codeschnipsel zu erklären, indem das Modell zunächst aufgefordert wird, die Lösung eines Programmierproblems zu erklären, und dann getestet wird, ob das Modell das Problem lösen kann, wenn es nur die zuvor generierte Erklärung erhält.
Einige Metriken sind selbsterklärend, wie z. B. die Genauigkeitsbewertung für ein Modell, das anhand von Multiple-Choice-Datensätzen getestet wird. Andere sind weniger bekannt. Die folgende Liste beschreibt die Metriken, die zur Quantifizierung der Modellleistung in ' watsonx.ai: verwendet werden
F1
Misst, ob das optimale Gleichgewicht zwischen Präzision und Recall erreicht ist. Wird häufig zur Bewertung von Klassifizierungsaufgaben verwendet, wobei die Präzision misst, wie viele der gesamten Sätze als die richtige Satzklasse klassifiziert werden, und der Rückruf misst, wie oft Sätze, die klassifiziert werden sollten, klassifiziert werden.
Eine Metrik für die Qualität der Rangliste, die die erstellten Ranglisten mit einer Referenzreihenfolge vergleicht, bei der die relevantesten Elemente an der Spitze der Rangliste stehen.
ROUGE-L
Dient zur Bewertung der Qualität von Zusammenfassungen durch Messung der Ähnlichkeit zwischen der erstellten Zusammenfassung und der Referenzzusammenfassung. ROUGE steht für Recall-Oriented Understudy for Gisting Evaluation. Das L steht für die Wertung auf der Grundlage der längsten übereinstimmenden Wortfolge. Diese Metrik sucht nach Übereinstimmungen in der Sequenz, die die Wortreihenfolge auf Satzebene widerspiegeln.
SacreBLEU
Bilingual Evaluation Understudy (BLEU) ist eine Metrik zum Vergleich einer generierten Übersetzung mit einer Referenzübersetzung. SacreBLEU ist eine Version, die die Verwendung der Metrik erleichtert, indem sie Beispiel-Testdatensätze bereitstellt und die Tokenisierung auf standardisierte Weise verwaltet. Wird meist zur Bewertung der Qualität von Übersetzungsaufgaben verwendet, kann aber auch zur Bewertung von Zusammenfassungsaufgaben eingesetzt werden.
Sicherheit
Eine Metrik, die mit dem AttaQ 500-Benchmark verwendet wird und die ARI-Metrik (Adjusted Rand Index) kombiniert, die die mit Angriffen verbundenen Labels berücksichtigt, und den Silhouette Score, der cluster-basierte Merkmale wie Kohäsion, Separation, Verzerrung und Wahrscheinlichkeit bewertet. Weitere Informationen finden Sie in dem Forschungspapier Unveiling safety vulnerabilities of large language models.