プロジェクトのプロンプトテンプレートをwatsonx.governanceで評価することで、foundation modelのタスクのパフォーマンスを測定し、モデルがどのように応答を生成するかを理解することができます。
watsonx.governance を使用すると、プロジェクトのプロンプト テンプレートを評価し、以下のタスク タイプに対して基礎モデルがどの程度効果的に応答を生成しているかを測定できます:
- 機密区分
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 取得の拡張生成
開始前に
プロンプト・テンプレートを評価するには、プロジェクトにアクセスする必要があります。 詳しくは、セットアップ watsonx.governanceを参照してください。
評価を実行するには、watsonx.governanceとwatsonx.aiインスタンスがインストールされているwatsonxアカウントにログインし、スイッチする必要があります。 次にプロジェクトを開く。 プロジェクトを開くには、アカウントに管理者または編集者のロールが割り当てられている必要があります。
プロジェクトでは、watsonx.ai Prompt Labを使用してプロンプト・テンプレートを作成し、保存する必要があります。 評価を有効にするには、プロンプトテンプレートを作成するときに変数を指定する必要があります。 Prompt Labの Tryセクションには、少なくとも1つの変数を含める必要があります。
プロンプト・テンプレートをプロジェクトで評価する方法をビデオでご覧ください。
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
以下のセクションでは、プロジェクトでプロンプトテンプレートを評価し、評価結果を確認する方法について説明します。
ランニング評価
プロンプト テンプレートの評価を実行するには、watsonx.governance の Assets タブで保存したプロンプト テンプレートを開くときに Evaluate をクリックすると、Evaluate prompt template ウィザードが開きます。 評価を実行できるのは、プロジェクトの管理者または編集者ロールが割り当てられている場合のみです。
ディメンションの選択
プロンプトテンプレートの評価ウィザードは、プロンプトに関連付けられているタスクタイプに対して評価可能な寸法を表示する。 ディメンジョンを展開すると、選択したディメンジョンの評価に使用されるメトリクスのリストを表示できます。
Watsonx.governanceは、各ディメンジョンの評価をデフォルト設定で自動的に構成します。 異なる設定で評価を構成するには、詳細設定を選択して、サンプルサイズを設定し、プロンプト・テンプレートを評価するために使用するメトリクスを選択することができます:
また、評価のために選択した各指標にしきい値を設定することもできる:
テスト・データの選択
テストデータを選択するには、参照してCSVファイルをアップロードするか、プロジェクトからアセットを選択します。 選択するテストデータには、参照列と各プロンプト変数の列が含まれている必要があります。
変数のマッピング
プロンプト変数をテストデータの関連カラムにマッピングする必要があります。
レビューと評価
プロンプトテンプレートの評価を実行する前に、プロンプトタスクのタイプ、アップロードされたテストデータ、および実行される評価のタイプの選択を確認できます。
評価結果のレビュー
評価が完了すると、watsonx.governance の Evaluate タブで評価結果のサマリーを確認し、モデルのパフォーマンスに関する洞察を得ることができます。 サマリーには、プロンプトテンプレート評価のメトリックスコアおよびデフォルトスコアのしきい値違反の概要が表示されます。
プロジェクトにビューアロールが割り当てられている場合、資産タブの資産リストから評価を選択すると、評価結果を見ることができます。
結果を分析するには、プロンプトテンプレートの評価の横にある矢印 をクリックすると、時系列で結果のデータビジュアライゼーションを表示できます。 また、プロンプトテンプレートの評価時にデフォルトで実行されるモデル健全性評価の結果を分析し、モデルがどれだけ効率的にデータを処理しているかを把握することもできます。
Actionsメニューには、結果の分析に役立つ以下のオプションもあります:
- 今すぐ評価:別のテストデータセットで評価を実行する
- すべての評価:評価の履歴を表示し、時間の経過による結果の変化を把握できます。
- モニターを設定する:評価のしきい値とサンプルサイズを設定します。
- モデル情報を見る:モデルの詳細を表示し、デプロイ環境がどのように設定されているかを理解します。
プロンプト テンプレートを追跡する場合、評価結果をレビューして、AIのライフサイクル全体を通してモデルのパフォーマンスに関する洞察を得ることができます。
親トピック AIモデルの評価