0 / 0
Zurück zur englischen Version der Dokumentation

IBM granite-8b-japanese

Letzte Aktualisierung: 28. Nov. 2024
IBM granite-8b-japanese

Modellversion (1.0.0): Freigegeben 29.02.2024

Das Modell Granite 8 Billion Japanisch (granite-8b-japanese) ist eine Instruct-Variante, die aus dem vorab trainierten Modell Granite Base 8 Billion Japanisch initialisiert wurde. Vor dem Training wurden 1.0T Tokens von Englisch, 0.5T Tokens von Japanisch und 0.1T Tokens von Code verwendet. Dieses Modell ist für die Arbeit mit japanischem Text konzipiert. IBM Generative AI Large Language Foundation Models sind mehrsprachige Modelle auf Unternehmensebene, die mit großen Datenmengen trainiert wurden, die einer intensiven Vorverarbeitung und sorgfältigen Analyse unterzogen wurden.

  • Person oder Organisation, die das Modell entwickelt:
    • granite-8b-japanese wurde von IBM Research entwickelt.
  • Releasedatum und -version des Modells:
    • granite-8b-japanese Version 1.0 wurde am 29.02.2024 freigegeben.
  • Modelltyp
  • Informationen zu Trainingsalgorithmen, Parametern, Fairnesseinschränkungen oder anderen angewendeten Ansätzen und Funktionen:
    • Das Modell wurde mit 4x Tensor Parallel + 4x Pipeline Parallel + Megatron Distributed Optimizer Megatron-LM trainiert.
    • GPUs: 448x A100 80GB
    • Verbindung: 1600 Gigabit Infiniband
  • Lizenz:
    • Nur über IBM Produkte und Angebote verfügbar. Wenden Sie sich wegen der Lizenzbedingungen an IBM .

Verwendung

  • Primäre Verwendungszwecke:
    • granite-8b-japanese wird für Textgenerierung, Zusammenfassung, Frage und Antwort, Klassifizierung und Extraktion in Japanisch verwendet.
  • Primär vorgesehene Benutzer:
    • Die primären Benutzer sind IBM Enterprise-Kunden, die ihre Portfolios mit generativen KI-Modellen auf Unternehmensebene stärken wollen.
  • Anwendungsfälle außerhalb des Geltungsbereichs:
    • granite-8b-japanese ist nicht für Codeanwendungsfälle jeglicher Art konzipiert, getestet oder unterstützt.

Faktoren

  • Relevante Faktoren: granite-8b-japanese funktioniert mit japanischem Text. Alle Datensätze wurden von jeder Art von Tagging bereinigt (z. B. HTML) und alle Medien wurden ebenfalls entfernt.

Metriken

granite-8b-japanese wurde anhand der folgenden acht bekannten Datensätze aus Stability-AI/lm-evaluation-harness bewertet:

  • JCommonsenseQA ist eine japanische Version von CommonsenseQA (Talmor+, 2019), einem Multiple-Choice-Datensatz zur Beantwortung von Fragen, die die Fähigkeit zum logischen Denken erfordern. Sie wird durch Crowdsourcing mit Seeds aus der Wissensdatenbank ConceptNet erstellt.

  • JNLI ist eine japanische Version des NLI-Datasets (NLI = Natural Language Inference). NLI ist eine Aufgabe, die Inferenzbeziehung zu erkennen, die ein Prämissesatz zu einem Hypothesensatz hat. Die Inferenzbeziehungen sind 含意, 矛盾und 中立.

  • MARC-ja ist ein Dataset der Textklassifikationsaufgabe. Dieser Datensatz basiert auf dem japanischen Teil des Multilingual Amazon Reviews Corpus (MARC ) (Keung+, 2020).

  • JSQuAD ist eine japanische Version von SQuAD (Rajpurkar+, 2016), einem der Datensätze zum Leseverstehen. Jede Instanz im Datensatz besteht aus einer Frage zu einem bestimmten Kontext (Wikipedia-Artikel) und seiner Antwort. JSQuAD basiert auf SQuAD 1.1 (es gibt keine unbeantwortete Fragen). Wir haben den japanischen Wikipedia-Dump von 20211101 verwendet.

  • Japanische Fragen zum Wissen der Entität (JAQKET) ist ein japanisches offenes Fragenbeantwortungsdataset, bei dem die Antworten Wikipedia-Artikeltitel sind.

  • XLSum-ja Dies ist eine gefilterte japanische Untermenge von XLSum auf der Grundlage von ROUGE-2, die PaLM 2 verwendet. Sie besteht aus gefilterten Daten, die auf einer 15-Gramm-Überlappung basieren, wie PaLM 2.

  • XWinograd - XWinograd ist eine Sammlung von Winograd-Schema-Satzpaaren. Beispiel:

    • © © © © © © © © © © © © © © © ©.Weitere Informationen zu dieser Wiederausgabe und zu dieser Wiederausgabe.
    • © © © © © © © © © © © © © © © ©.-und -ausgabe.-.................................

    In diesem Fall ist der erste Satz richtig, denn es macht keinen Sinn, wenn Bob Tom fragt, wie viel Geld Bob selbst leihen wird. Das Modell hat die Aufgabe, dem angemessenen Satz die höhere Log-Likelihood zuzuweisen. Aufgrund der Art und Weise, wie die Task definiert wird, ist sie immer null-Aufnahme ohne Eingabeaufforderung. Während XWinograd eine mehrsprachige Task ist, wird hier nur das japanische Subset mit 959 Paaren verwendet.

  • Multilingual Grade School Math ist ein Satz von 250 mathematischen Wortaufgaben auf Japanisch, und die Aufgabe besteht darin, die richtige ganzzahlige Lösung für das Problem zu finden.

Zero-shot-Ergebnisse

Task version Metrik Leistung
jcommonsenseqa-1.1-0.3 1.1 Acc 0.7078
jnli-1.3-0.3 1.3 Balanced_acc 0.5032
marc_ja-1.1-0.3 1.1 Balanced_acc 0.6442
jsquad-1.1-0.3 1.1 f1 59.3862
jaqket_v2-0.2-0.3 0.2 f1 60.3066
xlsum_ja-1.0-0.3 1 rouge2 7.2561
Xwinograd_ja 1 Acc 0.683
mgsm-1.0-0.3 1 Acc 0.028

N-Schuss-Ergebnisse

Task version Metrik Leistung
jcommonsenseqa-1.1-0.3 1.1 Acc 0.807
jnli-1.3-0.3 1.3 Balanced_acc 0.5935
marc_ja-1.1-0.3 1.1 Balanced_acc 0.9461
jsquad-1.1-0.3 1.1 f1 80.9671
jaqket_v2-0.2-0.3 0.2 f1 74.9605
xlsum_ja-1.0-0.3 1 rouge2 9.4874
Xwinograd_ja 1 Acc 0.683
mgsm-1.0-0.3 1 Acc 0.116

Daten, Einschränkungen und Empfehlungen

  • Datenauswahl für Training:
    • Die granite-8b-japanese wurden vor dem Training mit 1.0T Token für Englisch, 0.5T Token für Japanisch und 0.1T Token für Code trainiert.