あなたのニーズに合ったfoundation modelを見つけるには、関連するパフォーマンス・ベンチマークで異なるファンデーション・モデルのパフォーマンスを比較してください。
ファウンデーションモデルのベンチマークは、特定のテストデータセットに対して、foundation modelが正確または期待される出力を生成する能力をテストするメトリクスです。 ベンチマークは、初歩的な数学から法律問題や金融まで幅広いトピックに関する質問に答えられるかどうか、あるいはテキストを要約できるかどうか、他言語のテキストを生成できるかどうかなど、さまざまな機能をカバーしている。
Foundation model benchmarks test a foundation model’s ability to generate accurate or expected output for specific tasks. ベンチマークは、初歩的な数学から法律問題や金融まで幅広いトピックに関する質問に答えられるかどうか、あるいはテキストを要約できるかどうか、他言語のテキストを生成できるかどうかなど、さまざまな機能をカバーしている。 ベンチマークは、入力と期待される出力、および正確性、有害性、偏りなどの要因を測定することでモデルの反応の質を数値化する指標を含むデータセットで構成されます。
あなたが気にかけている特定のタスクに対してモデルをテストするベンチマークを探す。 メトリクスを確認することは、それを試す前にfoundation modelモデルの能力を評価するのに役立ちます。
以下のfoundation modelのベンチマークはwatsonx.ai:で利用可能です:
モデルのベンチマークスコアを見つける
foundation modelのベンチマークにアクセスするには、以下の手順を実行します:
チャットモードの watsonx.ai Prompt Labから、 モデルフィールドをクリックし、 すべての基礎モデルの表示を選択します。
モデルベンチマークタブをクリックすると、利用可能なベンチマークが表示されます。
フィルタアイコン
をクリックして、比較ビューに表示するモデルやベンチマークの種類などの要素を変更します。
点数は0点から100点まで。 スコアは高い方がいい。
独自の foundation model ベンチマーク評価を実施する
watsonx.ai のモデルベンチマークの表示では、 IBM によって実施されたテストのベンチマークスコアが表示されます。 IBM foundation model 評価フレームワークを使用しており、これは主にUnitxtライブラリに基づいています。 Unitxtは、 IBM Researchが開発したオープンソースプロジェクトです。企業におけるユースケースにおける foundation model 評価の独自ニーズに対応することを目的としています。 IBM のモデル評価フレームワークは、LM評価ハーネスと呼ばれる別の主要なオープンソース評価フレームワークも使用しています。 これらのオープンソースツールは、どちらも基盤モデルの独立評価を行うために使用できます。
このサンプルノートブックでは、LM評価ハーネスを使用して granite-13b-instruct-v2 モデルを標準ベンチマークと比較評価しています。詳細はこちらをご覧ください。 Use lm-evaluation-harness and own benchmarking data with watsonx.ai foundation models を参照してください。
詳しくは、以下のリソースを参照してください。
IBM英語理解ベンチマーク
IBM英語理解ベンチマークは、各モデルの一般的なタスクに対する能力を評価するためにIBMリサーチによって行われたテストに基づいてIBMが公表しているベンチマークです。
以下の表は、IBMベンチマークのデータセット、目標、およびメトリクスについて説明したものです。
ベンチマーク名 | 目標 | データセットの説明 | メトリック |
---|---|---|---|
要約 | 大量の文章を要点をとらえた数センテンスに凝縮する。 例えば、長い会議の記録から重要なアイデア、決定事項、行動項目をキャプチャするのに便利です。 | モデルにテキストの要約を依頼し、AIが生成した要約と、3つのデータセットから人間が生成した要約を比較する: ' - ITダイアログ - テクニカルサポートダイアログ - ソーシャルメディアブログ |
平均ROUGE-Lスコア |
検索補強世代(RAG) | foundation modelのプロンプトを外部ソースからの知識で補強する手法。 検索ステップでは、ユーザーのクエリから、外部ソースからの関連文書が特定される。 生成ステップでは、これらの文書の一部がプロンプトに含まれ、関連情報に基づいた応答が生成される。 | 3つのデータセットに含まれる文書からの情報に基づいて質問を提出する | 平均ROUGE-Lスコア |
機密区分 | データを情報の異なるクラスに属するものとして識別する。 顧客からのフィードバックなどの情報を分類し、より効率的に情報を管理したり行動したりするのに便利です。 | 分類される契約内容、センチメント、感情、トーンについて評価される内容を含む、さまざまな内容の5つのデータセット。 | 平均F1スコア |
生成 | foundation modelのプロンプトで提供される指示や合図に反応して、言語を生成する。 | マーケティング・メールを含む1つのデータセット | SacreBLEUのスコア |
抽出 | 単純なテキストの一致ではなく、単語の意味に基づいてデータ内の重要な用語や言及を検索します。 | モデルによって検出されたエンティティの言及と、人間が検出したエンティティの言及を比較する。 データセットには、12の名前付きエンティティのデータセットと、3つのセンチメントタイプのデータセットがある。 | 平均F1スコア |
基礎モデルのためのオープンソース英語理解ベンチマーク
オープンソースの英語理解ベンチマークは、IBMリサーチが、学術機関や業界の研究チームなど、サードパーティによって公開されている英語データセットを主に使用して行ったテストの結果を示しています。
次の表は、英語理解ベンチマークのデータセット、目標、指標について説明したものです。
ベンチマーク名 | 目標 | データセットの説明 | メトリック | 関連情報 |
---|---|---|---|---|
20 ニュースグループ | テキストを分類するモデルの能力を評価する。 | scikit-learnの20ニュースグループデータセットのバージョンで、約20,000のニュースグループ文書をコンピュータ、自動車、スポーツ、医学、宇宙、政治など20のカテゴリに分類している。 | F1 スコア | - データ集合Hugging Face |
アリーナ・ハードオート | 質問に答えるモデルの能力を評価する。 | クラウドソーシング・プラットフォーム「チャットボット・アリーナ」に投稿されたライブデータから、500人のユーザーがプロンプトを表示。 | この指標は模範解答の勝率を示している。 | - データ集合Hugging Faceのカード -研究論文 |
AttaQ500 | モデルに安全上の脆弱性があるかどうかを評価する。 | 欺瞞、差別、有害情報、薬物乱用、性的な内容、個人を特定できる情報(PII)、暴力のカテゴリーにおいて、有害な反応を引き起こすようにデザインされた質問。 | メトリックはモデルの安全性を示す。 | - データ集合Hugging Faceのカード -研究論文 |
BBQ (質問に対するバイアスのベンチマーク) |
米国英語圏で保護されているとされるクラスの人々に関する偏った見解を含む発言を認識するモデルの能力を評価する。 | バイアスを強調する質問セット。 | この指標は回答の正確さを測るものだ。 | - データ集合Hugging Faceのカード -研究論文 |
BillSum | テキストを要約するモデルの能力を評価する。 | 米国連邦議会とカリフォルニア州の法案をまとめたデータセット。 | 生成された要約のROUGE-Lスコア。 | - データ集合Hugging Faceのカード -研究論文 |
CFPB苦情データベース | テキストを分類するモデルの能力を評価する。 | 消費者金融保護局(CFPB)は、信用報告書、学生ローン、送金、その他の金融サービスに関して、実際の顧客から寄せられた苦情を掲載しています。 | F1 スコア | Unitxt.aiのデータセットカード |
クラップンク | 質問に答えるために文章中の情報を使用するモデルの能力を評価する。 | 長文の一問一答。 | F1 スコア | - データ集合Hugging Faceのカード -研究論文 |
FinQA | ファイナンスの質問に答え、数値的推論を行うモデルの能力を評価する。 | 金融の専門家によって書かれた金融に関する8,000以上のQAペア。 | この指標は回答の正確さを測るものだ。 | - データ集合Hugging Faceのカード -研究論文 |
FLORES-101 | モデルのテキスト翻訳能力を評価する。 | プロの翻訳者によって101の言語に翻訳された英語版ウィキペディアの記事 | SacreBLEUのスコア | - データ集合Hugging Faceのカード -研究論文 |
HellaSwag | 常識的なシナリオ補完を行うモデルの能力を評価する。 | ActivityNetと WikiHowから出典されている多肢選択問題。 | この指標は回答の正確さを測るものだ。 | - データ集合Hugging Faceのカード -研究論文 |
LegalBench | 法的シナリオを推論するモデルの能力を評価する。 | さまざまな法文、構造、領域をカバーする162のタスク。 | F1 スコア | - データ集合Hugging Faceのカード -研究論文 |
MMLUプロ | 困難なタスクを理解するモデルの能力を評価する。 | 大規模マルチタスク言語理解(MMLU)データセットの難易度を高めたバージョンで、より推論に重点を置いた問題が出題され、解答の選択肢も4つから10つに増えています。 | この指標は回答の正確さを測るものだ。 | - データ集合Hugging Faceのカード -研究論文 |
OpenBookQA | 多段階の推論と豊かな文章理解を使って、多肢選択問題に答えるモデルの能力を評価する。 | オープンブック形式の試験をシミュレートし、サポートとなるパッセージと複数選択肢のQ&Aペアを提供。 | この指標は回答の正確さを測るものだ。 | - データ集合Hugging Faceのカード -研究論文 |
TLDR | テキストを要約するモデルの能力を評価する。 | Redditに投稿された3M以上の投稿を前処理したもので、内容の平均長さは270ワード、要約の平均長さは28ワード。 | 生成された要約のROUGE-Lスコア。 | - データ集合Hugging Faceのカード -研究論文 |
ユニバーサルNER | 名前付きエンティティを認識するモデルの能力を評価する。 | ニュースやソーシャルメディアなど、さまざまな分野の19のデータセットを収録。 データセットには名前付きエンティティのアノテーションが含まれ、13の多様な言語をカバーしている。 | F1 スコア | - データ集合Hugging Face |
基礎モデルのためのオープンソース多言語言語理解ベンチマーク
オープンソース多言語言語理解ベンチマークは、学術機関や業界の研究チームなどのサードパーティによって公開された多言語データセットを使用して、 IBM リサーチによって行われたテストの結果を示しています。
以下の表は、多言語ベンチマークのデータセット、目標、メトリクス、ターゲット言語について説明したものである。
ベンチマーク名 | 目標 | データセットの説明 | メトリック | 言語 | 関連情報 |
---|---|---|---|---|---|
基礎英語 | あるモデルが英語の文章を以下の言語に翻訳できるかどうかを評価します:フランス語、ドイツ語、スペイン語、ポルトガル語、日本語、韓国語。 | 850の主要英単語とその訳語。 | この指標は、ターゲット文と参照訳文との間の単語または文字の距離を測定する文字列封じ込めスコアを示しています。 | データセット 英語、フランス語、ドイツ語、スペイン語、ポルトガル語、日本語、韓国語をサポート。 韓国語をサポートするモデルでは、 watsonx.aiで利用可能。 | オグデンの基本英単語リスト |
ベレベレ | モデルの多言語読解力と質問応答力を評価。 | 122カ国語の問題、関連パッセージ、選択式解答。 | この指標は回答の正確さを測るものだ。 | watsonx.aiでは、アラビア語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、スペイン語をサポートするモデルでご利用いただけます。 | データ集合Hugging Face |
MASSIVE | 多言語テキストを分類するモデルの能力を評価する。 | 52言語にローカライズされ、インテントとスロットタイプの情報でアノテーションされたAmazonの音声アシスタントとのインタラクションから得られた1M以上の発話。 | F1 スコア | watsonx.aiでは、アラビア語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、スペイン語をサポートするモデルでご利用いただけます。 | データ集合Hugging Face |
英語プロンプトでMASSIVE | 英語ラベルを持つ多言語テキストを分類するモデルの能力を評価する。 | 52言語にローカライズされ、インテントとスロットタイプの情報でアノテーションされたAmazonの音声アシスタントとのインタラクションから得られた1M以上の発話。 | F1 スコア | watsonx.aiでアラビア語と韓国語をサポートするモデルで利用可能。 | データ集合Hugging Face |
MKQA | モデルの多言語質問応答能力を評価します。 | 26の言語それぞれに10Kの質問と答えのペアを収録(合計260Kのペア)。 | F1 スコア | watsonx.aiでは、アラビア語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、スペイン語をサポートするモデルでご利用いただけます。 | データ集合Hugging Face |
MLSUM | 多言語テキストを要約するモデルの能力を評価する。 | 5カ国語(フランス語、ドイツ語、スペイン語、ロシア語、トルコ語)のオンライン新聞と、CNNとDaily Mailの英字新聞から、 1.5 万以上の記事と要約のペアを収録 | 生成された要約のROUGE-Lスコア。 | フランス語とドイツ語をサポートするモデルでは、 watsonx.aiで利用可能です。 | データ集合Hugging Face |
XGLUE.qg | 多言語テキストを理解し、テキストに関する洞察に富んだ質問を生成するモデルの能力を評価します。 | 19言語にまたがる11のタスク | 生成された質問のROUGE-Lスコア。 | フランス語、ドイツ語、ポルトガル語、スペイン語をサポートするモデルでは、 watsonx.aiで利用可能。 | データ集合Hugging Face |
XGLUE.wpr | 多言語テキストを検索し、ランク付けするモデルの能力を評価する。 | 19の言語にまたがる11のタスク。 | 情報検索とランキングの正規化割引累積利得(NDCG)スコア。 | フランス語、ドイツ語、ポルトガル語、スペイン語をサポートするモデルでは、 watsonx.aiで利用可能。 | データ集合Hugging Face |
エックスエルサム | 多言語テキストを要約するモデルの能力を評価する。 | 1. 1.35 Mの専門家による注釈付きBBCニュース記事の要約(44言語)。 | 生成された要約のROUGE-Lスコア。 | watsonx.aiでは、アラビア語、フランス語、日本語、韓国語、ポルトガル語、スペイン語をサポートするモデルでご利用いただけます。 | データ集合Hugging Face |
XMMLU | 初等数学、米国史、コンピュータサイエンス、法律などに関する多言語の質問に答えるモデルの能力を評価。 | Massive Multitask Language Understanding (MMLU)英語データセットの翻訳。一般常識の多肢選択問題で構成されている。 | この指標は回答の正確さを測るものだ。 | watsonx.aiでアラビア語、フランス語、韓国語をサポートするモデルで利用可能。 | |
エックスエヌエルアイ | モデルがどの程度多言語の文章を分類できるかを評価する。 | MNLI (Multi-Genre Natural Language Inference)データセットのサブセット。このデータセットには、テキストの含意情報がアノテーションされ、14の言語に翻訳されたクラウドソース文ペアが含まれる。 | この指標は回答の正確さを測るものだ。 | アラビア語、フランス語、ドイツ語、スペイン語をサポートするモデルでは、 watsonx.aiで利用可能です。 | GitHubのデータセットカード |
XNLI(英語説明書付き | プロンプトが英語の場合に、モデルが多言語の文章をどの程度分類できるかを評価する。 | MNLI (Multi-Genre Natural Language Inference)データセットのサブセットで、14言語に翻訳された、テキスト含意情報がアノテーションされた文のペアをクラウドソースしている | この指標は回答の正確さを測るものだ。 | watsonx.aiでアラビア語をサポートするモデルで利用可能。 | GitHubのデータセットカード |
XWinograd | 多言語テキストの文脈を理解し、曖昧さを解決するモデルの能力を評価する。 | Winogradスキーマの多言語コレクション。わずかな単語の変化によって意味が大きく異なる文のペア。 | この指標は回答の正確さを測るものだ。 | ポルトガル語をサポートするモデルについては、 watsonx.ai で利用可能。 | データ集合Hugging Face |
ベンチマーク指標を理解する
メトリクスの中には、多肢選択式データセットに対してテストされたモデルの精度スコアなど、自明なものもある。 その他はあまり知られていない。 以下のリストでは、watsonx.ai:でモデルのパフォーマンスを定量化するために使用されるメトリッ クについて説明します:
- F1
- 精度と想起の最適なバランスに達しているかどうかを測定する。 多くの場合、分類タスクのスコア付けに使用され、精度は全体の文のうちいくつが正しい文クラスに分類されたかを測定し、想起は分類されるべき文が分類された頻度を測定する。
- 正規化割引累積利益(NDCG)
- 生成されたランキングを、最も関連性の高い項目がランク付けされたリストの最上位にある参照順位と比較するランキング品質指標。
- ROUGE-L
- 生成された要約と参照要約の類似度を測定することで、要約の品質をスコア化するために使用される。 ROUGEとは、Recall-Oriented Understudy for Gisting Evaluationの略。 Lは、最長一致の単語列に基づくスコアリングを意味する。 この指標は、文レベルの語順を反映する配列内の一致を探す。
- SacreBLEU
- BLEU(Bilingual Evaluation Understudy)は、生成された翻訳を参照翻訳と比較するための指標です。 SacreBLEUは、テストデータセットのサンプルを提供し、トークン化を標準化された方法で管理することで、メトリックを使いやすくしたバージョンである。 翻訳タスクの品質を評価するために使用されることが多いが、要約タスクのスコア付けにも使用できる。
- 安全
- AttaQ500ベンチマークで使用される指標で、攻撃に関連するラベルを考慮するARI(Adjusted Rand Index)指標と、凝集、分離、歪み、尤度などのクラスタベースの特性を評価するシルエットスコアを組み合わせたもの。 詳細については、研究論文「Unveiling safety vulnerabilities of large language models」を参照のこと。
- 勝率
- Arena-Hard-Autoベンチマークで使用される指標で、モデルの応答がアクションの成功につながる会話の割合を示します。 詳細については、研究論文「From crowsourced data to high-quality benchmark」を参照:Arena-HardとBenchbuilderのパイプライン。
詳細情報
親トピック: サポートされる基盤モデル