IBM granite-8b-japanese
Modellversion (1.0.0): Freigegeben 29.02.2024
Das Modell Granite 8 Billion Japanisch (granite-8b-japanese
) ist eine Instruct-Variante, die aus dem vorab trainierten Modell Granite Base 8 Billion Japanisch initialisiert wurde. Vor dem Training wurden 1.0T Tokens von Englisch, 0.5T Tokens von Japanisch und 0.1T Tokens von Code verwendet. Dieses Modell ist für die Arbeit mit japanischem Text konzipiert. IBM Generative AI Large Language Foundation Models sind mehrsprachige Modelle auf Unternehmensebene, die mit großen Datenmengen trainiert wurden, die einer intensiven Vorverarbeitung und sorgfältigen Analyse unterzogen wurden.
- Person oder Organisation, die das Modell entwickelt:
granite-8b-japanese
wurde von IBM Research entwickelt.
- Releasedatum und -version des Modells:
granite-8b-japanese
Version 1.0 wurde am 29.02.2024 freigegeben.
- Modelltyp
granite-8b-japanese
ist ein reines Decodertransformatormodell.- Beim Design des Modells wurden folgende Merkmale verwendet:
- Nur-Decoder-Modell
- Gruppenabfrage Aufmerksamkeit
- IBM Tokenizer für Japanisch/Englisch mit Training
- 4096 Kontextlänge
- Einbettung in Drehposition (RoPE)
- SwiGLU Aktivierungen
- Root Mean Square Ebenen-Normalisierung
- Informationen zu Trainingsalgorithmen, Parametern, Fairnesseinschränkungen oder anderen angewendeten Ansätzen und Funktionen:
- Das Modell wurde mit 4x Tensor Parallel + 4x Pipeline Parallel + Megatron Distributed Optimizer Megatron-LM trainiert.
- GPUs: 448x A100 80GB
- Verbindung: 1600 Gigabit Infiniband
- Lizenz:
- Nur über IBM Produkte und Angebote verfügbar. Wenden Sie sich wegen der Lizenzbedingungen an IBM .
Verwendung
- Primäre Verwendungszwecke:
granite-8b-japanese
wird für Textgenerierung, Zusammenfassung, Frage und Antwort, Klassifizierung und Extraktion in Japanisch verwendet.
- Primär vorgesehene Benutzer:
- Die primären Benutzer sind IBM Enterprise-Kunden, die ihre Portfolios mit generativen KI-Modellen auf Unternehmensebene stärken wollen.
- Anwendungsfälle außerhalb des Geltungsbereichs:
granite-8b-japanese
ist nicht für Codeanwendungsfälle jeglicher Art konzipiert, getestet oder unterstützt.
Faktoren
- Relevante Faktoren:
granite-8b-japanese
funktioniert mit japanischem Text. Alle Datensätze wurden von jeder Art von Tagging bereinigt (z. B. HTML) und alle Medien wurden ebenfalls entfernt.
Metriken
granite-8b-japanese
wurde anhand der folgenden acht bekannten Datensätze aus Stability-AI/lm-evaluation-harness bewertet:
JCommonsenseQA ist eine japanische Version von CommonsenseQA (Talmor+, 2019), einem Multiple-Choice-Datensatz zur Beantwortung von Fragen, die die Fähigkeit zum logischen Denken erfordern. Sie wird durch Crowdsourcing mit Seeds aus der Wissensdatenbank ConceptNet erstellt.
JNLI ist eine japanische Version des NLI-Datasets (NLI = Natural Language Inference). NLI ist eine Aufgabe, die Inferenzbeziehung zu erkennen, die ein Prämissesatz zu einem Hypothesensatz hat. Die Inferenzbeziehungen sind
含意
,矛盾
und中立
.MARC-ja ist ein Dataset der Textklassifikationsaufgabe. Dieser Datensatz basiert auf dem japanischen Teil des Multilingual Amazon Reviews Corpus (MARC ) (Keung+, 2020).
JSQuAD ist eine japanische Version von SQuAD (Rajpurkar+, 2016), einem der Datensätze zum Leseverstehen. Jede Instanz im Datensatz besteht aus einer Frage zu einem bestimmten Kontext (Wikipedia-Artikel) und seiner Antwort. JSQuAD basiert auf SQuAD 1.1 (es gibt keine unbeantwortete Fragen). Wir haben den japanischen Wikipedia-Dump von 20211101 verwendet.
Japanische Fragen zum Wissen der Entität (JAQKET) ist ein japanisches offenes Fragenbeantwortungsdataset, bei dem die Antworten Wikipedia-Artikeltitel sind.
XLSum-ja Dies ist eine gefilterte japanische Untermenge von XLSum auf der Grundlage von ROUGE-2, die PaLM 2 verwendet. Sie besteht aus gefilterten Daten, die auf einer 15-Gramm-Überlappung basieren, wie PaLM 2.
XWinograd - XWinograd ist eine Sammlung von Winograd-Schema-Satzpaaren. Beispiel:
- © © © © © © © © © © © © © © © ©.Weitere Informationen zu dieser Wiederausgabe und zu dieser Wiederausgabe.
- © © © © © © © © © © © © © © © ©.-und -ausgabe.-.................................
In diesem Fall ist der erste Satz richtig, denn es macht keinen Sinn, wenn Bob Tom fragt, wie viel Geld Bob selbst leihen wird. Das Modell hat die Aufgabe, dem angemessenen Satz die höhere Log-Likelihood zuzuweisen. Aufgrund der Art und Weise, wie die Task definiert wird, ist sie immer null-Aufnahme ohne Eingabeaufforderung. Während XWinograd eine mehrsprachige Task ist, wird hier nur das japanische Subset mit 959 Paaren verwendet.
Multilingual Grade School Math ist ein Satz von 250 mathematischen Wortaufgaben auf Japanisch, und die Aufgabe besteht darin, die richtige ganzzahlige Lösung für das Problem zu finden.
Zero-shot-Ergebnisse
Task | version | Metrik | Leistung |
---|---|---|---|
jcommonsenseqa-1.1-0.3 | 1.1 | Acc | 0.7078 |
jnli-1.3-0.3 | 1.3 | Balanced_acc | 0.5032 |
marc_ja-1.1-0.3 | 1.1 | Balanced_acc | 0.6442 |
jsquad-1.1-0.3 | 1.1 | f1 | 59.3862 |
jaqket_v2-0.2-0.3 | 0.2 | f1 | 60.3066 |
xlsum_ja-1.0-0.3 | 1 | rouge2 | 7.2561 |
Xwinograd_ja | 1 | Acc | 0.683 |
mgsm-1.0-0.3 | 1 | Acc | 0.028 |
N-Schuss-Ergebnisse
Task | version | Metrik | Leistung |
---|---|---|---|
jcommonsenseqa-1.1-0.3 | 1.1 | Acc | 0.807 |
jnli-1.3-0.3 | 1.3 | Balanced_acc | 0.5935 |
marc_ja-1.1-0.3 | 1.1 | Balanced_acc | 0.9461 |
jsquad-1.1-0.3 | 1.1 | f1 | 80.9671 |
jaqket_v2-0.2-0.3 | 0.2 | f1 | 74.9605 |
xlsum_ja-1.0-0.3 | 1 | rouge2 | 9.4874 |
Xwinograd_ja | 1 | Acc | 0.683 |
mgsm-1.0-0.3 | 1 | Acc | 0.116 |
Daten, Einschränkungen und Empfehlungen
- Datenauswahl für Training:
- Die
granite-8b-japanese
wurden vor dem Training mit 1.0T Token für Englisch, 0.5T Token für Japanisch und 0.1T Token für Code trainiert.
- Die