プロジェクト内の切り離されたプロンプト・テンプレートを評価して、 IBMによって作成またはホストされていないファウンデーション・モデルのパフォーマンスを測定することができます。
プロジェクト内の切り離されたプロンプト・テンプレートを評価するときに、外部モデルが以下のタスク・タイプに対してどの程度効果的に応答を生成するかを評価できます。
- テキストの要約
- テキストの分類
- 質問への回答
- エンティティー抽出
- コンテンツの生成
- 検索拡張生成
開始前に
必要な権限
プロンプト・テンプレートを評価するには、以下の役割が必要です。
管理者 またはプロジェクト内の 編集者 役割
プロジェクト内の切り離されたプロンプト・テンプレートを評価する前に、外部モデルを watsonx.governanceに接続する切り離されたプロンプト・テンプレートを作成する必要があります。 切り離されたプロンプト・テンプレートを作成するときには、変数を指定し、外部モデルの名前やその URL などの接続の詳細を指定する必要があります。 以下の例は、API を使用して切り離されたプロンプト・テンプレートを作成する方法を示しています。
{
"name": "prompt name",
"description": "prompt description",
"model_version": {
"number": "2.0.0-rc.7",
"tag": "my prompt tag",
"description": "my description"
},
"prompt_variables": {
"var1": {},
"var2": {}
},
"task_ids": [
"retrieval_augmented_generation"
],
"input_mode": "detached",
"prompt": {
"model_id": "",
"input": [
[
"Some input",
""
]
],
"data": {},
"external_information": {
"external_prompt_id": "external prompt",
"external_model_id": "external model",
"external_model_provider": "external provider",
"external_prompt": {
"url": "https://asdfasdf.com?asd=a&32=1",
"additional_information": [
{
"additional_key": "additional settings"
}
]
},
"external_model": {
"name": "An external model",
"url": "https://asdfasdf.com?asd=a&32=1"
}
}
}
}
評価の実行
切り離されたプロンプト・テンプレートの評価をプロジェクトで実行するには、 「資産」 タブで保存された切り離されたプロンプト・テンプレートを開き、 watsonx.governance の 「評価」 タブで 「評価」 を選択して、 「プロンプト・テンプレートの評価」 ウィザードを開きます。 評価を実行できるのは、プロジェクトの 管理者 役割または 編集者 役割が割り当てられている場合のみです。
ディメンションの選択
「プロンプト・テンプレートの評価」 ウィザードに、プロンプトに関連付けられているタスク・タイプの評価に使用できるディメンションが表示されます。 ディメンションを展開して、選択したディメンションの評価に使用されるメトリックのリストを表示できます。
Watsonx.governance は、各ディメンションの評価をデフォルト設定で自動的に構成します。 異なる設定で 評価を構成 するには、以下の例に示すように、 「詳細設定」 を選択して、各メトリックの最小サンプル・サイズとしきい値を設定します。
テスト・データの選択
入力および予期されるモデル出力を含む参照列を持つテスト・データを含む CSV ファイルをアップロードする必要があります。 切り離されたデプロイメント評価を有効にするには、アップロードするテスト・データにモデル出力が含まれている必要があります。 アップロードが完了したら、プロンプト変数をテストデータから関連するカラムにマップする必要があります。
レビューと評価
プロンプト・タスク・タイプ、アップロードされたテスト・データ、および実行される評価のタイプの選択を確認できます。 評価を実行するには、 「評価」 を選択する必要があります。
評価結果のレビュー
評価が完了したら、 watsonx.governance の 「評価」 タブで評価結果のサマリーを確認して、モデルのパフォーマンスに関する洞察を得ることができます。 この要約には、プロンプト・テンプレート評価の評価指標スコアおよびデフォルトのスコアしきい値の違反の概要が示されます。
プロジェクトの ビューアー 役割が割り当てられている場合は、 「資産」 タブの資産リストから 「評価」 を選択して、評価結果を表示できます。
結果を分析するには、プロンプト・テンプレート評価の横にある矢印 をクリックして、時間の経過に伴う結果のデータ視覚化を表示します。 また、プロンプト・テンプレートの評価時にデフォルトで実行されるモデル正常性評価の結果を分析して、モデルによるデータの処理効率を把握することもできます。
「アクション」 メニューには、結果の分析に役立つ以下のオプションもあります。
- 今すぐ評価: 別のテスト・データ・セットを使用して評価を実行します
- すべての評価: 時間の経過とともに結果がどのように変化するかを理解するために、評価の履歴を表示します。
- モニターの構成: 評価しきい値およびサンプル・サイズを構成します。
- モデル情報の表示: デプロイメント環境がどのようにセットアップされているかを理解するために、モデルに関する詳細を表示します。
今後のステップ
プロンプト・テンプレートをデプロイメント・スペースにプロモートして、 スペース内の切り離されたプロンプト・テンプレートを評価 することで、AI ライフサイクル全体でのモデルのパフォーマンスに関する洞察を得ることができます。
詳細情報
AIのユースケースでデタッチド・デプロイメントを追跡している場合、モデルと評価結果の詳細はファクトシートに記録される。