IBM granite-8b-japanese モデル・カード
モデル・バージョン (1.0.0): リリース 2/29/2024
Granite 800 億日本語 (granite-8b-japanese
) モデルは、事前にトレーニングされた Granite Base 80 億日本語モデルから初期化された命令バリアントです。 事前トレーニングでは、英語の 1.0T トークン、日本語の 0.5T トークン、およびコードの 0.1T トークンが使用されました。 このモデルは、日本語テキストを処理するように設計されています。 IBM Generative AI Large Language Foundation Models は、大量のデータを使用してトレーニングされたエンタープライズ・レベルのマルチリンガル・モデルであり、集中的な前処理および注意深い分析の対象となっています。
- モデルを開発する個人または組織:
granite-8b-japanese
は、 IBM Research によって開発されました。
- モデルのリリース日およびバージョン:
granite-8b-japanese
バージョン 1.0 は 2024 年 2 月 29 日にリリースされました。
- モデル タイプ:
granite-8b-japanese
は、デコーダーのみの変換プログラム・モデルです。- モデルの設計では、以下の機能が使用されました。
- デコーダーのみのモデル
- グループ-照会アテンション
- IBM 日本語/英語学習トークナイザー
- 4096 コンテキストの長さ
- Rotary Position Embedding (RoPE)
- SwiGLU の活動化
- Root Mean Square Layer 正規化 (Root Mean Square Layer Normalization)
- トレーニング・アルゴリズム、パラメーター、公平性制約またはその他の適用されたアプローチ、および特徴量に関する情報:
- モデルは、 4x Tensor Parallel + 4x Pipeline Parallel + Megatron 分散オプティマイザー Megatron-LM を使用してトレーニングされました。
- GPU: 448x A100 80GB
- 相互接続: 1600 ギガビット Infiniband
- ライセンス:
- IBM 製品およびオファリングでのみ使用可能です。 ライセンス条項については、 IBM にお問い合わせください。
用途
- 主な用途は以下のとおりです。
granite-8b-japanese
は、テキスト生成、要約、質問と回答、分類、および日本語での抽出に使用されます。
- 主な対象ユーザー:
- 主なユーザーは、エンタープライズ・レベルの生成 AI モデルを使用してポートフォリオを強化しようとしている IBM Enterprise のお客様です。
- 範囲外のユース・ケース:
granite-8b-japanese
は、いかなる種類のコード・ユース・ケースに対しても設計、テスト、またはサポートされていません。
因子
- 関連する要因:
granite-8b-japanese
は日本語テキストを処理します。 すべてのデータ・セットは、あらゆるタイプのタグ付け (HTML など) でクレンジングされており、すべてのメディアも同様に削除されています。
メトリック
granite-8b-japanese
は、 Stability-AI/lm-evaluation-harnessからの以下の 8 つの既知のデータ・セットを使用して評価されました。
JCommonsenseQA は、 CommonsenseQA (Talmor +, 2019) の日本語版です。これは、常識的な推論能力を必要とする複数項目の質問の回答データ・セットです。 これは、知識ベース ConceptNetから抽出されたシードを使用して、クラウドソーシングを使用して作成されます。
JNLI は、NLI (Natural Language Inference) データ・セットの日本語版です。 NLI は、前提文が仮説文に対して持つ推論関係を認識するタスクです。 推論関係は、
含意
、矛盾
、および中立
です。MARC-ja は、テキスト分類タスクのデータ・セットです。 このデータ・セットは、 Multilingual Amazon Reviews Corpus (MARC) (Keung +, 2020) の日本語部分に基づいています。
JSQuAD は、読み取り理解のデータ・セットの 1 つである SQuAD (ラジプルカー +、2016) の日本語版です。 データ・セット内の各インスタンスは、特定のコンテキスト (ウィキペディアの記事) とその回答に関する質問で構成されています。 JSQuAD は、 SQuAD 1.1 に基づいています (回答できない質問はありません)。 20211101 年現在、 日本語版ウィキペディアのダンプ を使用しています。
Japanese Questions on Knowledge of Entity (JAQKET) は、ウィキペディアの記事のタイトルによる、日本語のオープン・ドメインの質問回答データ・セットです。
XLSum-ja これは、 PaLM 2 が使用する ROUGE-2に基づく XLSum のフィルタリングされた日本語サブセットです。 これは、 PaLM 2 と同様に、15 グラムのオーバーラップに基づいてフィルタリングされたデータで構成されます。
XWinograd -XWinograd は、Winograd スキーマのセンテンス・ペアのセットです。 例:
- ボブシブエサービスには、以下のようになります。お金をいれかてくるるかかとかと。
- ボブシブエサービスには、以下のようになります。ボブスはお金をいれんかてくるるかず。
この場合、最初の文が正しいのは、ボブがボブ自身にどれだけのお金を貸すかをトムに尋ねるのは意味がないからです。 このタスクでは、モデルは、より高い対数尤度を妥当な文に割り当てます。 タスクの定義方法が原因で、常にゼロ・ショットが表示され、プロンプトは表示されません。 XWinograd はマルチリンガル・タスクですが、これは 959 組の日本語サブセットのみを使用します。
Multilingual Grade Math は、日本語の 250 個の数学ワード問題のセットで、問題に対する適切な整数解を得る作業です。
ゼロ・ショットの結果
タスク | バージョン | メトリック (Metric) | パフォーマンス |
---|---|---|---|
jcommonsenseqa-1.1-0.3 | 1.1 | ACC | 0.7078 |
jnli-1.3-0.3 | 1.3 | 平衡型アクセス | 0.5032 |
marc_ja-1.1-0.3 | 1.1 | 平衡型アクセス | 0.6442 |
jsquad-1.1-0.3 | 1.1 | f1 | 59.3862 |
jaqket_v2-0.2-0.3 | 0.2 | f1 | 60.3066 |
xlsum_ja-1.0-0.3 | 1 | rouge2 | 7.2561 |
xwinograd_ja | 1 | ACC | 0.683 |
mgsm-1.0-0.3 | 1 | ACC | 0.028 |
N ショットの結果
タスク | バージョン | メトリック (Metric) | パフォーマンス |
---|---|---|---|
jcommonsenseqa-1.1-0.3 | 1.1 | ACC | 0.807 |
jnli-1.3-0.3 | 1.3 | 平衡型アクセス | 0.5935 |
marc_ja-1.1-0.3 | 1.1 | 平衡型アクセス | 0.9461 |
jsquad-1.1-0.3 | 1.1 | f1 | 80.9671 |
jaqket_v2-0.2-0.3 | 0.2 | f1 | 74.9605 |
xlsum_ja-1.0-0.3 | 1 | rouge2 | 9.4874 |
xwinograd_ja | 1 | ACC | 0.683 |
mgsm-1.0-0.3 | 1 | ACC | 0.116 |
データ、制限、および推奨事項
- トレーニング用のデータ選択:
granite-8b-japanese
は、英語の 1.0T トークン、日本語の 0.5T トークン、およびコードの 0.1T トークンを使用して事前トレーニングを受けています。