watsonx.governanceサービスを使用してデプロイメントスペースでプロンプトテンプレートを評価すると、foundation modelのタスクのパフォーマンスを測定し、モデルがどのように応答を生成するかを理解できます。
watsonx.governanceを使用すると、デプロイメント・スペース内のプロンプト・テンプレートを評価して、以下のタスク・タイプに対して基盤モデルがどの程度効果的に応答を生成するかを測定できます。
- 機密区分
- 要約
- 生成
- 質問への回答
- エンティティー抽出
- 取得の拡張生成
プロンプト・テンプレートは、基盤モデルの保存されたプロンプト入力です。 実動前スペースと実動スペースでプロンプト・テンプレートのデプロイメントを評価できます。
カスタムBringYourOwnModel)またはチューニングされた基礎モデルのパフォーマンスを測定するために、プロンプトテンプレートを評価することができます。
開始前に
必要な権限
プロンプト・テンプレートを評価するには、デプロイメント・スペースで
管理者 役割または 編集者 役割を持っている必要があります。
プロジェクトでは、プロンプトテンプレートを作成して保存し、プロンプトテンプレートを配置スペースに昇格する必要もあります。 評価を有効にするには、プロンプト・テンプレートを作成するときに少なくとも 1 つの変数を指定する必要があります。
カスタムモデルまたは調整済みモデルを使用したプロンプトテンプレートの評価
カスタムまたは調整されたfoundation modelの展開を使用するプロンプトテンプレートを、展開スペースで評価することができます。 また、異なるスペース間で移動する際にも、これらのモデルを管理および展開することができます。 詳細については、 プロンプトテンプレートをプログラムで展開するを参照してください。
以下のセクションでは、デプロイメント・スペース内のプロンプト・テンプレートを評価し、評価結果を確認する方法について説明します。
実動前スペースでのプロンプト・テンプレートの評価
評価の実行
プロンプト・テンプレート評価を実行するには、デプロイメントを開いて 「プロンプト・テンプレートの評価」 ウィザードを開くときに、 「評価」 タブで 「評価」 をクリックします。 評価を実行できるのは、デプロイメント・スペースの 管理者 役割または 編集者 役割が割り当てられている場合のみです。
watsonx.governance インスタンスに関連付けられているデータベースがない場合は、評価を実行する前にデータベースを関連付ける必要もあります。 データベースを関連付けるには、 「データベースが必要」 ダイアログ・ボックスで 「データベースの関連付け」 をクリックしてデータベースに接続する必要もあります。 データベースを関連付けるには、デプロイメント・スペースと watsonx.governance インスタンスの 管理者 役割が割り当てられている必要があります。
ディメンションの選択
「プロンプト・テンプレートの評価」 ウィザードには、プロンプトに関連付けられているタスク・タイプを評価するために使用できるディメンションが表示されます。 ディメンションを展開して、選択したディメンションの評価に使用されるメトリックのリストを表示できます。
Watsonx.governance は、各ディメンションの評価をデフォルト設定で自動的に構成します。 異なる設定で評価を構成するには、詳細設定を選択してサンプルサイズを設定し、プロンプトテンプレートの評価に使用するメトリクスを選択します:
また、評価のために選択した各指標にしきい値を設定することもできる:
テスト・データの選択
テスト データを選択するには、参照して CSV ファイルをアップロードするか、デプロ イメント スペースからアセットを選択します。 選択するテストデータには、参照列と各プロンプト変数の列が含まれている必要があります。
変数のマッピング
プロンプト変数をテストデータの関連カラムにマッピングする必要があります。
レビューと評価
プロンプト・タスク・タイプ、アップロードされたテスト・データ、および実行される評価のタイプの選択内容を確認できます。 評価を実行するには、 「評価」 を選択する必要があります。
評価結果の確認
評価が終了したら、 watsonx.governance の 「評価」 タブで評価結果の要約を確認して、モデルのパフォーマンスに関する洞察を得ることができます。 要約には、プロンプト・テンプレート評価の評価の評価指標スコアとデフォルト・スコアしきい値違反の概要が示されます。
結果を分析するには、プロンプトテンプレートの評価の横にある矢印 をクリックすると、時系列で結果のデータビジュアライゼーションを表示できます。 また、プロンプト・テンプレートの評価中にデフォルトで実行されるモデル正常性評価の結果を分析して、モデルがデータをどのように効率的に処理するかを理解することもできます。
「アクション」 メニューには、結果の分析に役立つ以下のオプションも用意されています。
- 今すぐ評価 (Evaluate now): 別のテスト・データ・セットを使用して評価を実行します。
- すべての評価: 時間の経過とともに結果がどのように変化するかを理解するために、評価の履歴を表示します。
- モニターの構成: 評価しきい値とサンプル・サイズを構成します。
- モデル情報の表示: モデルに関する詳細を表示して、デプロイメント環境がどのようにセットアップされているかを理解します。
プロンプト・テンプレートを追跡すると、評価結果を確認して、AI ライフサイクル全体でのモデルのパフォーマンスに関する洞察を得ることができます。
実動スペースでのプロンプト・テンプレートの評価
評価のアクティブ化
プロンプト・テンプレートの評価を実行するには、デプロイメントを開いたときに 「評価」 タブで 「アクティブ化」 をクリックして、 「プロンプト・テンプレートの評価」 ウィザードを開きます。
デプロイメント・スペースに watsonx.governance インスタンスが関連付けられていない場合、評価を実行する前に、 「サービス・インスタンスの関連付け」 ダイアログ・ボックスで 「サービス・インスタンスの関連付け」 を選択する必要があります。 「評価のためのインスタンスの関連付け」 ウィンドウで、使用する watsonx.governance インスタンスを選択し、 「サービス・インスタンスの関連付け」 を選択してインスタンスをデプロイメント・スペースに関連付ける必要があります。 インスタンスを関連付けるには、デプロイメント・スペースの 管理者 役割が割り当てられている必要があります。
watsonx.governance インスタンスに関連付けられているデータベースがない場合は、評価を実行する前にデータベースを関連付ける必要もあります。 データベースを関連付けるには、 「データベースが必要」 ダイアログ・ボックスで 「データベースの関連付け」 をクリックしてデータベースに接続する必要もあります。 データベースを関連付けるには、デプロイメント・スペースと watsonx.governance インスタンスの 管理者 役割が割り当てられている必要があります。
ディメンションの選択
「プロンプト・テンプレートの評価」 ウィザードには、プロンプトに関連付けられているタスク・タイプを評価するために使用できるディメンションが表示されます。 フィードバック・データに指定する参照出力のラベル列名を指定することができます。 ディメンションを展開して、選択したディメンションの評価に使用されるメトリックのリストを表示することもできます。
Watsonx.governance は、各ディメンションの評価をデフォルト設定で自動的に構成します。 異なる設定で評価を構成するには、詳細設定を選択してサンプルサイズを設定し、プロンプトテンプレートの評価に使用するメトリクスを選択します:
また、評価のために選択した各指標にしきい値を設定することもできる:
レビューと評価
プロンプト・タスク・タイプの選択と、実行される評価のタイプを確認できます。 「ペイロード・スキーマの表示 (View payload schema)」 または 「フィードバック・スキーマの表示 (View feedback schema)」 を選択して、列名がプロンプト・テンプレート内のプロンプト変数名と一致することを検証することもできます。 評価を実行するには、 「アクティブ化」 を選択する必要があります。
評価結果を生成するには、 「アクション」 メニューで 「今すぐ評価」 を選択して、評価の要約ページが表示されたときに 「テスト・データのインポート」 ウィンドウを開きます。
テスト・データのインポート
「テスト・データのインポート (Import test data)」 ウィンドウで、 「ペイロード・データのアップロード (Upload payload data)」 または 「フィードバック・データのアップロード (Upload feedback data)」 を選択して、ペイロードおよびフィードバック・スキーマ内の列と一致するラベル付き列を含む CSV ファイルをアップロードできます。
アップロードが正常に完了したら、 「今すぐ評価」 を選択して評価を実行できます。
評価結果の確認
評価が終了したら、 watsonx.governance の 「評価」 タブで評価結果の要約を確認して、モデルのパフォーマンスに関する洞察を得ることができます。 要約には、プロンプト・テンプレート評価の評価の評価指標スコアとデフォルト・スコアしきい値違反の概要が示されます。
結果を分析するには、プロンプトテンプレートの評価の横にある矢印 をクリックすると、時系列で結果のデータビジュアライゼーションを表示できます。 また、プロンプト・テンプレートの評価中にデフォルトで実行されるモデル正常性評価の結果を分析して、モデルがデータをどのように効率的に処理するかを理解することもできます。
「アクション」 メニューには、結果の分析に役立つ以下のオプションも用意されています。
- 今すぐ評価 (Evaluate now): 別のテスト・データ・セットを使用して評価を実行します。
- モニターの構成: 評価しきい値とサンプル・サイズを構成します。
- モデル情報の表示: モデルに関する詳細を表示して、デプロイメント環境がどのようにセットアップされているかを理解します。
プロンプト・テンプレートを追跡すれば、評価結果をレビューして、AIのライフサイクル全体を通してモデルのパフォーマンスに関する洞察を得ることができます。