0 / 0
資料の 英語版 に戻る
スペース内の切り離されたデプロイメントの評価
最終更新: 2024年12月06日
スペース内の切り離されたデプロイメントの評価

IBMによって作成またはホストされていないファウンデーション・モデルのプロンプト・テンプレートを評価するために、切り離されたデプロイメントを作成できます。

watsonx.governanceで外部ファウンデーション・モデルを評価するために、外部プロンプト・テンプレートに接続するためのデプロイメント・スペース内にデタッチ・デプロイメントを作成できます。 切り離されたデプロイメントを評価する際に、外部モデルが以下のタスク・タイプに対してどの程度効果的に応答を生成するかを測定できます。

  • テキストの要約
  • テキストの分類
  • 質問への回答
  • エンティティー抽出
  • コンテンツの生成
  • 検索拡張世代(RAG)

開始前に

必要な権限
デプロイメント・スペース内の切り離されたデプロイメントを評価するには、 管理者 役割または 編集者 役割が必要です。

プロジェクトでは、 切り離されたプロンプト・テンプレートを作成して評価 し、切り離されたプロンプト・テンプレートをデプロイメント・スペースにプロモートすることができます。

切り離されたプロンプト・テンプレートをデプロイメント・スペースにプロモートしない場合は、スペース内の切り離されたプロンプト・テンプレートを評価する前に、外部モデルを watsonx.governance に接続する切り離されたプロンプト・テンプレートを作成する必要があります。 切り離されたプロンプト・テンプレートを作成するときに、外部モデルの名前やその URL などの接続の詳細を指定する必要があります。 以下の例は、API を使用して切り離されたプロンプト・テンプレートを作成する方法を示しています。

{
    "name": "prompt name",
    "description": "prompt description",
    "model_version": {
        "number": "2.0.0-rc.7",
        "tag": "my prompt tag",
        "description": "my description"
    },
    "prompt_variables": {
        "var1": {},
        "var2": {}
    },
    "task_ids": [
        "retrieval_augmented_generation"
    ],
    "input_mode": "detached",
    "prompt": {
        "model_id": "",
        "input": [
            [
                "Some input",
                ""
            ]
        ],
        "data": {},
        "external_information": {
            "external_prompt_id": "external prompt",
            "external_model_id": "external model",
            "external_model_provider": "external provider",
            "external_prompt": {
                "url": "https://asdfasdf.com?asd=a&32=1",
                "additional_information": [
                    {
                        "additional_key": "additional settings"
                    }
                ]
            },
            "external_model": {
                "name": "An external model",
                "url": "https://asdfasdf.com?asd=a&32=1"
            }
        }
    }
}

スペースからの切り離されたデプロイメントの作成

切り離されたプロンプト・テンプレートをプロジェクトからデプロイメント・スペースにプロモートしない場合は、スペースから切り離されたデプロイメントを作成する必要があります。 以下のステップを使用して、デプロイメント・スペースから切り離されたデプロイメントを作成できます。

  1. プロンプト・テンプレートを作成したら、スペース ID を指定してデプロイメント・スペースに保存します。

    {
        "prompt_template": {
        "id": "<PT ID>"
        },
        "detached": {},
        "base_model_id": "abcabc",
        "description": "Prompt template deployment description",
        "name": "Prompt template deployment name",
        "space_id": "<Space ID>"
    }
    
  2. デプロイメント・スペースの 「資産」 タブで、切り離されたプロンプト・テンプレート資産の 「新規デプロイメント」 をクリックします。

  3. デプロイメント・タイプとして 「切り離し済み」 を選択します。

  4. デプロイメントの名前と説明 (オプション) を指定します。

切り離されたデプロイメントの作成

AI ユース・ケースで切り離されたプロンプト・テンプレートを追跡すると、切り離されたデプロイメントがユース・ケースに追加されます。

切り離されたデプロイメントの追跡

スペース内の切り離されたデプロイメントの評価

以下のセクションでは、スペース内の切り離されたデプロイメントを評価し、評価結果を確認する方法について説明します。

実動前スペースでの切り離されたデプロイメントの評価

評価の実行

プロンプト・テンプレート評価を実行するには、デプロイメントを開いて 「プロンプト・テンプレートの評価」 ウィザードを開くときに、 「評価」 タブで 「評価」 をクリックします。 評価を実行できるのは、デプロイメント・スペースの 管理者 役割または 編集者 役割が割り当てられている場合のみです。

外部プロンプト・テンプレート評価の実行

ディメンションの選択

「プロンプト・テンプレートの評価」 ウィザードに、プロンプトに関連付けられているタスク・タイプの評価に使用できるディメンションが表示されます。 ディメンションを展開して、選択したディメンションの評価に使用されるメトリックのリストを表示できます。

評価する外部 llm ディメンションの選択

Watsonx.governance は、各ディメンションの評価をデフォルト設定で自動的に構成します。 異なる設定で 評価を構成 するには、以下の例に示すように、 「詳細設定」 を選択して、各メトリックの最小サンプル・サイズとしきい値を設定します。

外部 llm 評価の構成

テスト・データの選択

入力および予期されるモデル出力を含む参照列を持つテスト・データを含む CSV ファイルをアップロードする必要があります。 切り離されたデプロイメント評価を有効にするには、アップロードするテスト・データにモデル出力が含まれている必要があります。 アップロードが完了したら、プロンプト変数をテストデータから関連するカラムにマップする必要があります。 アップロードする外部 LLM テスト・データの選択

レビューと評価

プロンプト・タスク・タイプ、アップロードされたテスト・データ、および実行される評価のタイプの選択を確認できます。 評価を実行するには、 「評価」 を選択する必要があります。

切り離されたプロンプト・テンプレートの評価設定の確認および評価

評価結果のレビュー

評価が完了したら、 watsonx.governance の 「評価」 タブで評価結果のサマリーを確認して、モデルのパフォーマンスに関する洞察を得ることができます。 この要約には、プロンプト・テンプレート評価の評価指標スコアおよびデフォルトのスコアしきい値の違反の概要が示されます。

結果を分析するには、プロンプト・テンプレート評価の横にある矢印 ナビゲーション矢印 をクリックして、時間の経過に伴う結果のデータ視覚化を表示します。 また、プロンプト・テンプレートの評価時にデフォルトで実行されるモデル正常性評価の結果を分析して、モデルによるデータの処理効率を把握することもできます。

「アクション」 メニューには、結果の分析に役立つ以下のオプションもあります。

  • 今すぐ評価: 別のテスト・データ・セットを使用して評価を実行します
  • すべての評価: 時間の経過とともに結果がどのように変化するかを理解するために、評価の履歴を表示します。
  • モニターの構成: 評価しきい値およびサンプル・サイズを構成します。
  • モデル情報の表示: デプロイメント環境がどのようにセットアップされているかを理解するために、モデルに関する詳細を表示します。

切り離されたプロンプト・テンプレート評価結果の分析

実動スペースでの切り離されたデプロイメントの評価

評価のアクティブ化

プロンプト・テンプレートの評価を実行するには、デプロイメントを開いて 「プロンプト・テンプレートの評価」 ウィザードを開くときに、 「評価」 タブで 「アクティブ化」 をクリックします。 評価を実行できるのは、デプロイメント・スペースの 管理者 役割または 編集者 役割が割り当てられている場合のみです。

切り離されたプロンプト・テンプレート評価の実行

デプロイメント・スペースに watsonx.governance インスタンスが関連付けられていない場合、評価を実行する前に、 「サービス・インスタンスの関連付け」 ダイアログ・ボックスで 「サービス・インスタンスの関連付け」 を選択する必要があります。 「評価のためのインスタンスの関連付け」 ウィンドウで、使用する watsonx.governance インスタンスを選択し、 「サービス・インスタンスの関連付け」 を選択してインスタンスをデプロイメント・スペースに関連付ける必要があります。 インスタンスを関連付けるには、デプロイメント・スペースの 管理者 役割が割り当てられている必要があります。

watsonx.governance インスタンスの関連付け

watsonx.governance インスタンスに関連付けられているデータベースがない場合は、評価を実行する前にデータベースを関連付ける必要もあります。 データベースを関連付けるには、 「データベースが必要」 ダイアログ・ボックスで 「データベースの関連付け」 をクリックしてデータベースに接続する必要もあります。 データベースを関連付けるには、デプロイメント・スペースと watsonx.governance インスタンスの 管理者 役割が割り当てられている必要があります。

ディメンションの選択

「プロンプト・テンプレートの評価」 ウィザードに、プロンプトに関連付けられているタスク・タイプの評価に使用できるディメンションが表示されます。 フィードバック・データに指定する参照出力のラベル列名を指定することができます。 ディメンションを展開して、選択したディメンションの評価に使用されるメトリックのリストを表示することもできます。

評価するディメンションの選択

Watsonx.governance は、各ディメンションの評価をデフォルト設定で自動的に構成します。 異なる設定で 評価を構成 するには、以下の例に示すように、 「詳細設定」 を選択して、各メトリックの最小サンプル・サイズとしきい値を設定します。

評価の構成

レビューと評価

プロンプト・タスク・タイプの選択および実行される評価のタイプを確認できます。 また、 「ペイロード・スキーマの表示 (View payload schema)」 または 「フィードバック・スキーマの表示 (View feedback schema)」 を選択して、列名がプロンプト・テンプレート内のプロンプト変数名と一致することを検証することもできます。 評価を実行するには、 「アクティブ化」 を選択する必要があります。

選択内容の確認と評価

評価結果を生成するには、 「アクション」 メニューで 「今すぐ評価」 を選択して、評価の要約ページが表示されたら 「テスト・データのインポート」 ウィンドウを開きます。

今すぐ評価を選択

テスト・データのインポート

「テスト・データのインポート」 ウィンドウで、 「ペイロード・データのアップロード」 または 「フィードバック・データのアップロード」 を選択して、ペイロードおよびフィードバック・スキーマの列に一致するラベル付き列を含む CSV ファイルをアップロードできます。

テスト・データのインポート

評価結果のレビュー

評価が完了したら、 watsonx.governance の 「評価」 タブで評価結果のサマリーを確認して、モデルのパフォーマンスに関する洞察を得ることができます。 この要約には、プロンプト・テンプレート評価の評価指標スコアおよびデフォルトのスコアしきい値の違反の概要が示されます。

結果を分析するには、プロンプト・テンプレート評価の横にある矢印 ナビゲーション矢印 をクリックして、時間の経過に伴う結果のデータ視覚化を表示します。 また、プロンプト・テンプレートの評価時にデフォルトで実行されるモデル正常性評価の結果を分析して、モデルによるデータの処理効率を把握することもできます。

「アクション」 メニューには、結果の分析に役立つ以下のオプションもあります。

  • 今すぐ評価: 別のテスト・データ・セットを使用して評価を実行します
  • モニターの構成: 評価しきい値およびサンプル・サイズを構成します。
  • モデル情報の表示: デプロイメント環境がどのようにセットアップされているかを理解するために、モデルに関する詳細を表示します。

切り離されたプロンプト・テンプレート評価結果の分析

AIのユースケースでデタッチド・デプロイメントを追跡している場合、モデルと評価結果の詳細はファクトシートに記録され、閲覧することができます。