Benchmarks für das Stiftungsmodell

Letzte Aktualisierung: 07. Apr. 2025
Benchmarks für das Stiftungsmodell

Um das richtige Stiftungsmodell für Ihre Bedürfnisse zu finden, vergleichen Sie, wie verschiedene Stiftungsmodelle bei relevanten Leistungsbenchmarks abschneiden.

Benchmarks für das Fundamentmodell testen die Fähigkeit eines Fundamentmodells, genaue oder erwartete Ergebnisse für bestimmte Aufgaben zu generieren. Die Benchmarks decken verschiedene Fähigkeiten ab, z. B. ob das Modell Fragen zu Themen beantworten kann, die von elementarer Mathematik bis hin zu Rechts- und Finanzfragen reichen, oder ob das Modell Texte zusammenfassen, Texte in anderen Sprachen generieren kann und mehr.

Benchmarks bestehen aus Datensätzen mit Eingaben und erwarteten Ausgaben und Metriken, die die Qualität der Antworten eines Modells durch die Messung von Faktoren wie Genauigkeit, Schädlichkeit und Verzerrung quantifizieren.

Suchen Sie nach Benchmarks, die das Modell anhand der spezifischen Aufgaben testen, die Ihnen wichtig sind. Die Überprüfung von Kennzahlen kann Ihnen dabei helfen, die Fähigkeiten eines Stiftungsmodells einzuschätzen, bevor Sie es ausprobieren.

Die folgenden Referenzwerte für das Stiftungsmodell sind verfügbar in watsonx.ai:

Ermitteln der Modell-Benchmark-Werte

Um auf die Benchmarks des Stiftungsmodells zuzugreifen, führen Sie die folgenden Schritte aus:

  1. Klicken Sie im watsonx.ai Prompt Lab im Chat-Modus auf das Feld Modell und wählen Sie dann Alle Gründungsmodelle anzeigen.

  2. Klicken Sie auf die Registerkarte Modell-Benchmarks, um die verfügbaren Benchmarks anzuzeigen.

    Klicken Sie auf das Filtersymbol Symbol zum Filtern , um Faktoren wie die Modelle oder Benchmark-Typen zu ändern, die in der Vergleichsansicht angezeigt werden sollen.

    Die Punktezahl reicht von 0 bis 100. Höhere Punktzahlen sind dabei jeweils besser.

Benchmark-Evaluierungen für Ihr eigenes Stiftungsmodell durchführen

Die Ansicht "Modell-Benchmarks" in watsonx.ai zeigt die Benchmark-Ergebnisse von Tests, die von IBM durchgeführt wurden. IBM verwendet einen Bewertungsrahmen für das Fundamentmodell, der hauptsächlich auf der Unitxt-Bibliothek basiert. Unitxt ist ein Open-Source-Projekt, das von IBM Research entwickelt wurde, um den einzigartigen Anforderungen an die Bewertung von Fundamentmodellen in Unternehmensanwendungsfällen gerecht zu werden. IBM der Modellbewertungsrahmen von 's verwendet auch einen anderen führenden Open-Source-Bewertungsrahmen, der LM-Evaluierungsgurt genannt wird. Beide Open-Source-Tools können für unabhängige Bewertungen von Fundamentmodellen verwendet werden.

Sehen Sie sich dieses Beispielnotizbuch an, in dem das granite-13b-instruct-v2 -Modell anhand von Standard-Benchmarks bewertet wird, indem Sie den LM-Evaluierungsrahmen verwenden, um mehr zu erfahren. Siehe Verwendung von lm-evaluation-harness und eigenen Benchmarking-Daten mit watsonx.ai -Stiftungsmodellen.

Weitere Informationen können Sie über die folgenden Links aufrufen:

IBM Benchmarks zum englischen Sprachverständnis

Die IBM Benchmarks für das englische Sprachverständnis werden von IBM auf der Grundlage von Tests veröffentlicht, die von IBM Research durchgeführt wurden, um die Fähigkeit der einzelnen Modelle zur Erledigung gängiger Aufgaben zu bewerten.

In der folgenden Tabelle werden die Datensätze, Ziele und Metriken für die IBM beschrieben.

IBM Benchmarks zum englischen Sprachverständnis
Name der Benchmark Ziel Beschreibung des Datensatzes Metrik
Zusammenfassung Fasst große Textmengen in wenigen Sätzen zusammen, die das Wesentliche wiedergeben. Nützlich, um z. B. die wichtigsten Ideen, Entscheidungen oder Aktionspunkte aus einem langen Sitzungsprotokoll festzuhalten. Beauftragt die Modelle mit der Zusammenfassung von Text und vergleicht die KI-generierten Zusammenfassungen mit von Menschen erstellten Zusammenfassungen aus drei Datensätzen:
- IT-Dialoge
- Dialoge des technischen Supports
- Social Media Blogs
Durchschnittliche ROUGE-L Punktzahl
Retrieval-augmented Generation (RAG) Eine Technik, bei der eine Eingabeaufforderung für ein Fundamentmodell mit Wissen aus externen Quellen ergänzt wird. Beim Retrieval werden aus der Anfrage des Nutzers relevante Dokumente aus einer externen Quelle ermittelt. Im Generierungsschritt werden Teile dieser Dokumente in die Eingabeaufforderung aufgenommen, um eine Antwort zu erzeugen, die auf relevanten Informationen beruht. Stellt Fragen auf der Grundlage von Informationen aus Dokumenten in 3 separaten Datensätzen Durchschnittliche ROUGE-L Punktzahl
Klassifikation Identifiziert Daten als zu unterschiedlichen Informationsklassen gehörend. Nützlich für die Kategorisierung von Informationen, wie z. B. Kundenfeedback, so dass Sie die Informationen effizienter verwalten oder darauf reagieren können. Fünf Datensätze mit unterschiedlichem Inhalt, darunter vertragliche Inhalte, die klassifiziert werden sollen, und Inhalte, die nach Stimmung, Emotion und Tonfall bewertet werden sollen. Durchschnittliche F1
Generierung Erzeugt Sprache als Reaktion auf Anweisungen und Hinweise, die in den Aufforderungen des Foundation-Modells enthalten sind. Ein Datensatz mit Marketing-E-Mails SacreBLEU Partitur
Extraktion Findet Schlüsselbegriffe oder Erwähnungen in Daten auf der Grundlage der semantischen Bedeutung von Wörtern und nicht durch einfache Textübereinstimmungen. Vergleicht die vom Modell gefundenen Entitätserwähnungen mit den von einem Menschen gefundenen Entitätserwähnungen. Die Datensätze umfassen einen Datensatz mit 12 benannten Entitäten und einen Datensatz mit drei Gefühlstypen. Durchschnittliche F1

 

Open-Source-Benchmarks zum englischen Sprachverständnis für Stiftungsmodelle

Die Open-Source-Benchmarks für das Verständnis der englischen Sprache zeigen Ergebnisse von Tests, die von IBM Research durchgeführt werden und die hauptsächlich englische Datensätze verwenden, die von Dritten, wie z. B. akademischen Einrichtungen oder Forschungsteams aus der Industrie, veröffentlicht werden.

Die folgende Tabelle beschreibt die Datensätze, Ziele und Messgrößen für die Benchmarks zum englischen Sprachverständnis.

Open-Source-Benchmarks zum englischen Sprachverständnis in watsonx.ai
Name der Benchmark Ziel Beschreibung des Datensatzes Metrik Weitere Informationen
20 Newsgroups Bewertet die Fähigkeit eines Modells, Text zu klassifizieren. Eine Version des 20 Newsgroups-Datensatzes von scikit-learn mit fast 20.000 Newsgroup-Dokumenten, die in 20 Kategorien gruppiert sind, darunter Computer, Automobile, Sport, Medizin, Raumfahrt und Politik. F1-Bewertung Datensatzkarte auf Hugging Face
Arena-Hard-Auto Bewertet die Fähigkeit eines Modells, Fragen zu beantworten. 500 Benutzeraufforderungen aus Live-Daten, die an die Crowd-Sourcing-Plattform Chatbot Arena übermittelt werden. Die Metrik zeigt die Gewinnrate für Musterantworten. Datensatzkarte auf Hugging Face
Forschungsbericht
AttaQ 500 Bewertet, ob ein Modell für Sicherheitslücken anfällig ist. Fragen, die schädliche Reaktionen in den Kategorien Täuschung, Diskriminierung, schädliche Informationen, Drogenmissbrauch, sexuelle Inhalte, persönlich identifizierbare Informationen (PII) und Gewalt provozieren sollen. Die Metrik zeigt die Modellsicherheit an. Datensatzkarte auf Hugging Face
Forschungsbericht
BBQ
(Bias-Benchmark für die Beantwortung von Fragen)
Bewertet die Fähigkeit eines Modells, Aussagen zu erkennen, die voreingenommene Ansichten über Menschen enthalten, die in der englischen Sprache der USA als geschützte Gruppen gelten. Fragesätze, die Vorurteile aufzeigen. Die Metrik misst die Genauigkeit der Antworten. Datensatzkarte auf Hugging Face
Forschungsbericht
BillSum Bewertet die Fähigkeit eines Modells, einen Text zusammenzufassen. Datensatz mit einer Zusammenfassung der Gesetzesentwürfe des US-Kongresses und des Staates Kalifornien. ROUGE-L score für die erstellte Zusammenfassung. Datensatzkarte auf Hugging Face
Forschungsbericht
CFPB-Beschwerde-Datenbank Bewerten Sie die Fähigkeit eines Modells, Text zu klassifizieren. Beschwerden des Consumer Financial Protection Bureau (CFPB) von echten Kunden über Kreditauskünfte, Studentenkredite, Geldüberweisungen und andere Finanzdienstleistungen. F1-Bewertung - Datensatzkarte auf Unitxt.ai
CLAPnq Bewerten Sie die Fähigkeit eines Modells, Informationen aus Textstellen zur Beantwortung von Fragen zu nutzen. Langform-Frage-Antwort-Paare. F1-Bewertung Datensatzkarte auf Hugging Face
Forschungsbericht
FinQA Bewertet die Fähigkeit eines Modells, Finanzfragen zu beantworten und numerische Schlussfolgerungen zu ziehen. Über 8.000 QA-Paare zum Thema Finanzen, die von Finanzexperten geschrieben wurden. Die Metrik misst die Genauigkeit der Antworten. Datensatzkarte auf Hugging Face
Forschungsbericht
FLORES-101 Bewertet die Fähigkeit eines Modells, Text zu übersetzen. Englische Wikipedia-Artikel, die von professionellen menschlichen Übersetzern in 101 Sprachen übersetzt wurden SacreBLEU Partitur Datensatzkarte auf Hugging Face
Forschungsbericht
HellaSwag Bewertet die Fähigkeit eines Modells, vernünftige Szenarien zu vervollständigen. Multiple-Choice-Fragen, die von ActivityNet und WikiHow bezogen werden. Die Metrik misst die Genauigkeit der Antworten. Datensatzkarte auf Hugging Face
Forschungsbericht
LegalBench Bewertet die Fähigkeit eines Modells, Schlussfolgerungen über rechtliche Szenarien zu ziehen. 162 Aufgaben, die verschiedene Rechtstexte, Strukturen und Bereiche abdecken. F1-Bewertung Datensatzkarte auf Hugging Face
Forschungsbericht
MMLU-Pro Bewerten Sie die Fähigkeit eines Modells, anspruchsvolle Aufgaben zu verstehen. Eine anspruchsvollere Version des Massive Multitask Language Understanding (MMLU)-Datensatzes, die mehr Fragen zum logischen Denken enthält und die Antwortmöglichkeiten von 4 auf 10 Optionen erhöht. Die Metrik misst die Genauigkeit der Antworten. Datensatzkarte auf Hugging Face
Forschungsbericht
OpenBookQA Bewerten Sie die Fähigkeit eines Modells, bei der Beantwortung von Multiple-Choice-Fragen eine mehrstufige Argumentation und ein umfassendes Textverständnis anzuwenden. Simuliert ein offenes Prüfungsformat, um unterstützende Passagen und Multiple-Choice-Fragenpaare bereitzustellen. Die Metrik misst die Genauigkeit der Antworten. Datensatzkarte auf Hugging Face
Forschungsbericht
TLDR Bewertet die Fähigkeit eines Modells, einen Text zusammenzufassen. Über 3 Mio. vorverarbeitete Beiträge von Reddit mit einer durchschnittlichen Länge von 270 Wörtern für den Inhalt und 28 Wörtern in der Zusammenfassung. ROUGE-L score für die erstellte Zusammenfassung. Datensatzkarte auf Hugging Face
Forschungsbericht
Universal NER Bewertet die Fähigkeit eines Modells, benannte Entitäten zu erkennen. Enthält 19 Datensätze aus verschiedenen Bereichen, darunter Nachrichten und soziale Medien. Die Datensätze enthalten Annotationen zu benannten Entitäten und decken 13 verschiedene Sprachen ab. F1-Bewertung Datensatzkarte auf Hugging Face

 

Open-Source-Benchmarks für das mehrsprachige Sprachverständnis von Gründungsmodellen

Die Open-Source-Benchmarks für das mehrsprachige Sprachverständnis zeigen Ergebnisse von Tests, die von IBM Research durchgeführt werden und mehrsprachige Datensätze verwenden, die von Dritten, wie z. B. akademischen Einrichtungen oder Forschungsteams aus der Industrie, veröffentlicht werden.

Die folgende Tabelle beschreibt die Datensätze, Ziele, Metriken und Zielsprachen für die mehrsprachigen Benchmarks.

Open-Source-Benchmarks zum mehrsprachigen Sprachverständnis in watsonx.ai
Name der Benchmark Ziel Beschreibung des Datensatzes Metrik Sprachen Weitere Informationen
Grundlegendes Englisch Bewertet, ob ein Modell englische Sätze in diese Sprachen übersetzen kann: Französisch, Deutsch, Spanisch, Portugiesisch, Japanisch und Koreanisch. 850 englische Schlüsselwörter und ihre Übersetzungen. Die Metrik zeigt den String Containment Score, der den Wort- oder Zeichenabstand zwischen dem Zielsatz und der Referenzübersetzung misst. Der Datensatz unterstützt Englisch, Französisch, Deutsch, Spanisch, Portugiesisch, Japanisch und Koreanisch. Verfügbar in watsonx.ai für Modelle, die Koreanisch unterstützen. Ogden's Basic English Wortliste
Belebele Bewertet die Fähigkeit eines Modells, mehrsprachige Texte zu lesen und zu verstehen und Fragen zu beantworten. Fragen, zugehörige Textstellen und Multiple-Choice-Antworten in 122 Sprachen. Die Metrik misst die Genauigkeit der Antworten. Verfügbar in watsonx.ai für Modelle, die Arabisch, Französisch, Deutsch, Japanisch, Koreanisch, Portugiesisch und Spanisch unterstützen. Datensatzkarte auf Hugging Face
MASSIV Bewertet die Fähigkeit eines Modells, mehrsprachigen Text zu klassifizieren. Über 1 Mio. Äußerungen aus Interaktionen mit dem Sprachassistenten von Amazon, die in 52 Sprachen lokalisiert und mit Informationen über die Absicht und den Slot-Typ versehen sind. F1-Bewertung Verfügbar in watsonx.ai für Modelle, die Arabisch, Französisch, Deutsch, Japanisch, Koreanisch, Portugiesisch und Spanisch unterstützen. Datensatzkarte auf Hugging Face
MASSIVE mit englischen Eingabeaufforderungen Bewertet die Fähigkeit eines Modells, mehrsprachigen Text mit englischen Bezeichnungen zu klassifizieren. Über 1 Mio. Äußerungen aus Interaktionen mit dem Sprachassistenten von Amazon, die in 52 Sprachen lokalisiert und mit Informationen über die Absicht und den Slot-Typ versehen sind. F1-Bewertung Verfügbar in watsonx.ai für Modelle, die Arabisch und Koreanisch unterstützen. Datensatzkarte auf Hugging Face
MKQA Bewertet die Fähigkeit eines Modells zur mehrsprachigen Beantwortung von Fragen. Enthält 10 K Frage-Antwort-Paare für jede der 26 Sprachen (insgesamt 260 K Paare). F1-Bewertung Verfügbar in watsonx.ai für Modelle, die Arabisch, Französisch, Deutsch, Japanisch, Koreanisch, Portugiesisch und Spanisch unterstützen. Datensatzkarte auf Hugging Face
MLSUM Bewertet die Fähigkeit eines Modells, mehrsprachigen Text zusammenzufassen. Über 1.5 Mio. Artikel-Zusammenfassungs-Paare aus Online-Zeitungen in 5 Sprachen (Französisch, Deutsch, Spanisch, Russisch, Türkisch) und englischen Zeitungen von CNN und Daily Mail ROUGE-L score für die erstellte Zusammenfassung. Verfügbar in watsonx.ai für Modelle, die Französisch und Deutsch unterstützen. Datensatzkarte auf Hugging Face
XGLUE.qg Bewertet die Fähigkeit eines Modells, mehrsprachige Texte zu verstehen und aufschlussreiche Fragen zum Text zu stellen. 11 Aufgaben, die 19 Sprachen umfassen ROUGE-L Punktzahl für die generierte Frage. Verfügbar in watsonx.ai für Modelle, die Französisch, Deutsch, Portugiesisch und Spanisch unterstützen. Datensatzkarte auf Hugging Face
XGLUE.wpr Bewertet die Fähigkeit eines Modells, mehrsprachigen Text zu finden und zu bewerten. 11 Aufgaben, die 19 Sprachen umfassen. Normalized Discounted Cumulative Gain (NDCG) Score für die Informationssuche und das Ranking. Verfügbar in watsonx.ai für Modelle, die Französisch, Deutsch, Portugiesisch und Spanisch unterstützen. Datensatzkarte auf Hugging Face
XLSum Bewertet die Fähigkeit eines Modells, mehrsprachigen Text zusammenzufassen. 1. 1.35 M professionell kommentierte Zusammenfassungen von BBC-Nachrichtenartikeln in 44 Sprachen. ROUGE-L score für die erstellte Zusammenfassung. Verfügbar in watsonx.ai für Modelle, die Arabisch, Französisch, Japanisch, Koreanisch, Portugiesisch und Spanisch unterstützen. Datensatzkarte auf Hugging Face
XMMLU Bewertet die Fähigkeit des Modells, mehrsprachige Fragen über elementare Mathematik, US-Geschichte, Informatik, Recht und mehr zu beantworten. Übersetzungen des Massive Multitask Language Understanding (MMLU)-Datensatzes für Englisch, der aus Multiple-Choice-Fragen zum Allgemeinwissen besteht. Die Metrik misst die Genauigkeit der Antworten. Verfügbar in watsonx.ai für Modelle, die Arabisch, Französisch und Koreanisch unterstützen.
XNLI Bewertet, wie gut ein Modell mehrsprachige Sätze klassifizieren kann. Teilmenge von Daten aus dem MNLI-Datensatz (Multi-Genre Natural Language Inference), der Satzpaare enthält, die von einer Vielzahl von Personen stammen, mit Text-Enthüllungsinformationen annotiert und in 14 Sprachen übersetzt sind. Die Metrik misst die Genauigkeit der Antworten. Verfügbar in watsonx.ai für Modelle, die Arabisch, Französisch, Deutsch und Spanisch unterstützen. Datensatzkarte auf GitHub
XNLI mit englischer Anleitung Bewertet, wie gut ein Modell mehrsprachige Sätze klassifizieren kann, wenn die Prompts auf Englisch sind. Teilmenge von Daten aus dem MNLI-Datensatz (Multi-Genre Natural Language Inference), der Satzpaare enthält, die von einer Vielzahl von Personen stammen und mit textuellen Folgerungsinformationen versehen sind, übersetzt in 14 Sprachen Die Metrik misst die Genauigkeit der Antworten. Verfügbar in watsonx.ai für Modelle, die Arabisch unterstützen. Datensatzkarte auf GitHub
XWinograd Bewertet die Fähigkeit eines Modells, den Kontext zu verstehen und Mehrdeutigkeiten in mehrsprachigen Texten aufzulösen. Mehrsprachige Sammlung von Winograd-Schemata, d. h. Satzpaaren, deren Bedeutung sich aufgrund geringfügiger Wortänderungen drastisch unterscheidet. Die Metrik misst die Genauigkeit der Antworten. Verfügbar in watsonx.ai für Modelle, die Portugiesisch unterstützen. Datensatzkarte auf Hugging Face

 

Code-Benchmarks für Gründungsmodelle

Die Code-Benchmarks zeigen, wie verschiedene Basismodelle bei Tests abschneiden, die die Fähigkeit des Modells zur Durchführung von Programmieraufgaben bewerten, wie z. B. das Generieren von Code, das Erklären von Code, das Reparieren von Code oder das Übersetzen von Code von einer Programmiersprache in eine andere.

Diese Benchmarks zeigen die Ergebnisse von Tests, die von IBM Research unter Verwendung von Code-Evaluierungsdatensätzen durchgeführt wurden, die von Dritten, z. B. akademischen Einrichtungen oder industriellen Forschungsteams, veröffentlicht wurden.

Die folgende Tabelle beschreibt die Datensätze, Ziele und Zielprogrammiersprachen für die Code-Benchmarks, die unter watsonx.ai verfügbar sind.

Code-Benchmarks in watsonx.ai
Name der Benchmark Ziel Beschreibung des Datensatzes Metrik Programmiersprachen Weitere Informationen
CanItEdit Bewertet die Fähigkeit eines Modells, verschiedene Code-Bearbeitungsszenarien in Python zu bewältigen. 105 Probleme bei der Bearbeitung von Lehrtexten, die von Menschen geschrieben wurden. Pass@1 Python Forschungspapier
CodeLingua Bewertet die Fähigkeit eines Modells, Code von einer Programmiersprache in eine andere zu übersetzen. 1.700 Codebeispiele für verschiedene Programmiersprachen. Pass@1 C++, Go, Java, JavaScript, Python, Rust Forschungspapier
HumanEval Bewertet die Fähigkeit eines Modells, Python Code zu generieren, Sprache zu verstehen, zu argumentieren und Probleme zu lösen, die mit Algorithmen und einfacher Mathematik zusammenhängen. 164 Python Programmierprobleme, die von Menschen geschrieben wurden. Pass@1 Python Forschungspapier
HumanEvalExplain Bewertet die Fähigkeit eines Modells, Codeschnipsel zu erklären, indem das Modell zunächst aufgefordert wird, die Lösung eines Programmierproblems zu erklären, und dann getestet wird, ob das Modell das Problem lösen kann, wenn es nur die zuvor generierte Erklärung erhält. Eine Erweiterung des HumanEval Datensatzes. Pass@1 C++, Go, Java, JavaScript, Python, Rust Forschungspapier
HumanEvalFix Bewertet die Fähigkeit eines Modells, Kodierungsfehler in programmatischen Codeschnipseln zu beheben. HumanEval datensatz, der mit Fehlern behaftet ist, und Einheitstests, die helfen können, die Probleme zu identifizieren. Pass@1 C++, Go, Java, JavaScript, Python, Rust Forschungspapier
HumanEvalSynthesize Bewertet die Fähigkeit eines Modells, Code zu erzeugen. 164 Code-Probleme aus dem HumanEval -Datensatz, die von Menschen von Python in andere Programmiersprachen übersetzt wurden. Pass@1 Python, C++, Go, Java, JavaScript, Rust Forschungspapier
MBPP Bewertet die Fähigkeit eines Modells, Einstiegsprobleme zu lösen Python 974 crowd-sourced Python Programmierprobleme und Lösungen. Pass@1 Python Forschungspapier
MBPP+ Bewertet die Fähigkeit eines Modells, Python Kodierungsprobleme zu lösen. Erweitert den MBPP-Datensatz um mehr Python Programmierprobleme und umfassendere Testfälle, die eine strengere Bewertung ermöglichen sollen. Pass@1 Python Datensatzkarte

Benchmark-Metriken

Einige Metriken sind selbsterklärend, wie z. B. die Genauigkeitsbewertung für ein Modell, das anhand von Multiple-Choice-Datensätzen getestet wird. Andere sind weniger bekannt. Die folgende Liste beschreibt die Metriken, die zur Quantifizierung der Modellleistung in ' watsonx.ai: verwendet werden

F1
Misst, ob das optimale Gleichgewicht zwischen Präzision und Recall erreicht ist. Wird häufig zur Bewertung von Klassifizierungsaufgaben verwendet, wobei die Präzision misst, wie viele der gesamten Sätze als die richtige Satzklasse klassifiziert werden, und der Rückruf misst, wie oft Sätze, die klassifiziert werden sollten, klassifiziert werden.
Normalisierter diskontierter kumulativer Gewinn (NDCG)
Eine Metrik für die Qualität der Rangliste, die die erstellten Ranglisten mit einer Referenzreihenfolge vergleicht, bei der die relevantesten Elemente an der Spitze der Rangliste stehen.
ROUGE-L
Dient zur Bewertung der Qualität von Zusammenfassungen durch Messung der Ähnlichkeit zwischen der erstellten Zusammenfassung und der Referenzzusammenfassung. ROUGE steht für Recall-Oriented Understudy for Gisting Evaluation. Das L steht für die Wertung auf der Grundlage der längsten übereinstimmenden Wortfolge. Diese Metrik sucht nach Übereinstimmungen in der Sequenz, die die Wortreihenfolge auf Satzebene widerspiegeln.
SacreBLEU
Bilingual Evaluation Understudy (BLEU) ist eine Metrik zum Vergleich einer generierten Übersetzung mit einer Referenzübersetzung. SacreBLEU ist eine Version, die die Verwendung der Metrik erleichtert, indem sie Beispiel-Testdatensätze bereitstellt und die Tokenisierung auf standardisierte Weise verwaltet. Wird meist zur Bewertung der Qualität von Übersetzungsaufgaben verwendet, kann aber auch zur Bewertung von Zusammenfassungsaufgaben eingesetzt werden.
Sicherheit
Eine Metrik, die mit dem AttaQ 500-Benchmark verwendet wird und die ARI-Metrik (Adjusted Rand Index) kombiniert, die die mit Angriffen verbundenen Labels berücksichtigt, und den Silhouette Score, der cluster-basierte Merkmale wie Kohäsion, Separation, Verzerrung und Wahrscheinlichkeit bewertet. Weitere Informationen finden Sie in dem Forschungspapier Unveiling safety vulnerabilities of large language models.
Abschlussrate
Eine Metrik, die mit dem Arena-Hard-Auto-Benchmark verwendet wird, um den Prozentsatz der Konversationen anzuzeigen, in denen Modellantworten zum erfolgreichen Abschluss einer Aktion führen. Weitere Informationen finden Sie im Forschungsbericht "Von Crowdsourcing-Daten zu hochwertigen Benchmarks: Arena-Hard und Benchbuilder-Pipeline ".

Weitere Informationen

Übergeordnetes Thema: Unterstützte Stiftungsmodelle