0 / 0
資料の 英語版 に戻る
クイックスタート:即時のパフォーマンスを比較
最終更新: 2025年1月16日
クイックスタート:即時のパフォーマンスを比較

このチュートリアルでは、Evaluation Studio で複数のプロンプトを比較する方法を説明します。 Evaluation Studio を使用すると、生成型 AI 資産を、ユースケースに適した定量的な指標とカスタマイズ可能な基準で評価および比較できます。 複数の資産のパフォーマンスを同時に評価し、結果の比較分析を表示して、最適なソリューションを特定します。

必須のサービス
watsonx.ai
watsonx.governance
watsonx.ai
必須ロール
Watsonx.governance サービスレベルへのアクセス:リーダーの役割
プロジェクト用:管理者または編集者としての役割
プロジェクトで使用するCloud Object Storage ・バケット:ライターの役割

基本的なワークフローには、以下のタスクが含まれます:

  1. 評価するプロンプトテンプレートを含むプロジェクトを開きます。 プロジェクトでは、他のユーザーと協力しながら資産を扱うことができます。
  2. 評価スタジオの実験を作成します。
  3. 結果を確認します。

評価スタジオについて読む

Evaluation Studio を使用すると、さまざまなタスクタイプに対応する複数の 資産を評価するプロセスを自動化することで、生成型 AI の開発を効率化することができます。 各プロンプトテンプレートを個別にレビューし、手動でパフォーマンスを比較する代わりに、複数のプロンプトテンプレートを同時に評価する単一の実験を設定することができます。これにより、開発時間を短縮できます。

次の機能が評価スタジオに含まれています。プロンプトテンプレートを評価および比較し、ニーズに資産を特定するのに役立ちます

  • カスタマイズ可能な実験設定
  • 柔軟な結果分析

評価スタジオについてさらに読む

評価スタジオに関するビデオを見る

< このチュートリアルのステップをプレビューするには、このビデオをご覧ください。 動画で表示されているユーザーインターフェースと若干異なる場合があります。 このビデオは、文章によるチュートリアルの補助教材となることを目的としています。

このビデオでは、この文書で説明する概念と作業を視覚的に学習する方法を提供しています。


Evaluation Studioのチュートリアルをお試しください

このチュートリアルでは、以下のタスクを実行します:





このチュートリアルを完了するためのヒント
このチュートリアルを成功させるためのヒントをいくつかご紹介します。

ビデオのピクチャー・イン・ピクチャー機能を使用する

ヒント :ビデオを再生し、チュートリアルをスクロールすると、ビデオがピクチャー・イン・ピクチャーモードに切り替わります。 ピクチャー・イン・ピクチャーを最大限に活用するには、ビデオの目次を閉じてください。 ピクチャー・イン・ピクチャー・モードを使用すると、このチュートリアルでタスクを完了しながら動画を追うことができます。 各タスクのタイムスタンプをクリックすると、進捗状況を確認できます。

次のアニメーション画像は、ビデオのピクチャ・イン・ピクチャ機能と目次機能の使用方法を示しています

ピクチャー・イン・ピクチャーとチャプターの使い方

地域社会で助けを得る

このチュートリアルについてお困りの場合は、 watsonxのディスカッションフォーラムで質問を投稿したり、回答を検索することができます。

ブラウザウィンドウを設定する

このチュートリアルを最適な状態で完了するには、ブラウザウィンドウの1つで Cloud Pak for Data を開き、もう1つのブラウザウィンドウでこのチュートリアルページを開いて、2つのアプリケーション間を簡単に切り替えられるようにします。 2つのブラウザウィンドウを並べて表示すると、操作がわかりやすくなります。

チュートリアルとUIを並べて表示

ヒント: ユーザーインターフェースでこのチュートリアルを実行中にガイド付きツアーが表示された場合は 、「後で検討する」 をクリックします。



タスク1:サンプルプロジェクトを作成する

チュートリアルビデオのプレビュー このタスクをプレビューするには、 00:16 から始まるビデオをご覧ください。

リソースハブには、Evaluation Studioで比較できるサンプルプロンプトテンプレートを含むサンプルプロジェクトが含まれています。 サンプルを基にプロジェクトを作成するには、以下の手順に従います

  1. ホーム画面から、 新規プロジェクト作成アイコン 新規プロジェクトの作成 をクリックします。

  2. サンプルを選択します。

  3. Getting started with watsonx.governance を検索し、そのサンプルプロジェクトを選択して、 [次へ] をクリックします。

  4. 既存の オブジェクト・ストレージ・サービス・インスタンス を選択するか、または新規作成します。

  5. 「作成」 をクリックします。

  6. プロジェクトのインポートが完了するまで待ち、 [新しいプロジェクトを表示] をクリックします。

  7. watsonx.ai ランタイムサービスをプロジェクトに関連付けます。 詳細については watsonx.ai ランタイムを参照してください。

    1. プロジェクトが開いたら 、「管理」タブをクリックし 、「サービスと統合」ページを選択します。

    2. IBM サービス] タブで、 [サービスを関連付ける ] をクリックします。

    3. watsonx.ai の実行インスタンスを選択します。 watsonx.aiのランタイムサービスインスタンスをプロビジョニングしていない場合は、以下の手順に従ってください

      1. 新しいサービスをクリックします。

      2. watsonx.ai ランタイムを選択します。

      3. 「作成」 をクリックします。

      4. リストから新しいサービスインスタンスを選択します。

    4. 「関連サービス 」をクリックします。

    5. 必要に応じて 、[キャンセル] をクリックして [サービス & 統合] ページに戻ります。

  8. プロジェクト内の 資産 タブをクリックすると、 資産が表示されます。

詳細情報またはビデオの視聴については 、「プロジェクトの作成」 を参照してください。 関連サービスの詳細については 、「関連サービスの追加 」を参照してください。

チェックポイントアイコン 進捗状況を確認する

次の画像は、プロジェクト資産を示しています。 これで実験を作成する準備ができました。

資産のサンプル




課題2:評価スタジオの実験を作成する

チュートリアルビデオのプレビュー このタスクのプレビューを見るには、 1:11 から始まるビデオをご覧ください。

プロンプトのパフォーマンスを比較するには、評価スタジオのテストを作成する必要があります。 以下の手順に従って、実験を作成してください

  1. 資産 タブから、 新しい資産 > プロンプトを評価および比較する をクリックします。

  2. セットアップページで、名前に Summarization Evaluation experiment と入力します。

  3. タスクの種類を選択します。 この場合、要約プロンプトテンプレートを比較したいので 、「要約」 を選択します。

  4. 「次へ」 をクリックして、 プロンプト テンプレートページに進みます。

  5. 保険請求サマリー 、2 保険請求サマリー3 保険請求サマリープロンプトテンプレートを選択します。

    これらのプロンプトテンプレートの3つすべてに 「入力変数」 が含まれていることに注目してください。これは、Evaluation Studioの要件です。

  6. 「次へ」 をクリックして、 「メトリック」 ページに進みます。

  7. 生成AIの品質モデルの健全性のセクションを展開して、評価に使用される指標を確認します。

  8. 「次へ」 をクリックして、 テスト データページに進みます。

  9. テストデータを選択します

    1. プロジェクトからデータを選択をクリックしてください。

    2. プロジェクトファイル > 保険請求の要約data.csv を選択します。

      アップロードするテストデータには、各プロンプト変数に対する参照出力および入力カラムを含める必要があります。 参照出力列は、ROUGEやBLEUなどの参照ベースの指標を計算するために使用されます。

    3. 「選択」をクリックします。

    4. 入力列には 、Insurance_Claim を選択します。

    5. 参照出力列では、 サマリー を選択します。

  10. 次へをクリックして、 レビューと実行ページに進みます。

  11. 構成を確認し 、「評価を実行」 をクリックします。 評価には数分かかる場合があります。

チェックポイントアイコン 進捗状況を確認する

次の画像は評価結果を示しています。 結果を確認できます。

テンプレートの評価テスト結果




タスク 3: Evaluation Studioで結果を確認する

チュートリアルビデオのプレビュー このタスクのプレビューを見るには、 2分26秒から始まるビデオをご覧ください。

これで、 資産を評価し比較する準備ができました。 以下の手順に従って、Evaluation Studio の結果を確認してください

  1. 評価が完了したら、 メトリック比較の視覚化を表示します。

    グラフは、選択した各プロンプトテンプレートの結果を比較します。 可視化ディスプレイは、各評価基準でスコアが閾値を上回っているかどうかを表示します。

  2. レコードリストをクリックして、別のメトリックを選択します。 例えば 、「コンテンツ分析」 を選択すると、選択した指標に基づくチャートの更新を確認できます。

    コンテンツ分析指標の比較

  3. グラフ内の棒グラフにカーソルを合わせると詳細が表示されます。

  4. ビジュアル化の下にある表で、3つのプロンプトテンプレートを確認してください。 それぞれのプロンプトで異なる foundation model が使用されていることに注意してください。

  5. 比較を行うには、プロンプトテンプレートの横にある 「参照として設定」 アイコン 参照として設定 をクリックします。

    参照テンプレートを設定すると、表内の列がハイライトされ、 資産て、他の資産のパフォーマンスが優れているか、劣っているかが示されます。

  6. カスタムランキングアイコン カスタム・ランキング をクリックします。

    カスタムランキングを作成する

    結果を分析するために、重み付けの要因とランキングの計算式を指定して、異なるグループ間で独自のランキングを作成し、どのプロンプトテンプレートが最も高いパフォーマンスを発揮しているかを判断することもできます。 カスタムランキングを作成する際には、ランキングに関連する評価基準を選択し、それらに重み付けをすることができます。 「キャンセル」をクリックします。

  7. 評価を再度実行するには、 設定の調整アイコン 設定を調整する をクリックします。 評価の詳細] パネルを使用して、テストデータを更新したり、メトリクスを再構成します。

  8. 実験を編集するには、 資産 アイコン 資産 をクリックして、評価から資産を削除または追加し、比較を変更します。

  9. 表から、プロンプトテンプレートの横にある 溢れ出る メニュー オーバーフロー をクリックし、 ファクトシートを見る を選択します。 ファクトシートは、AIライフサイクルの各段階における資産の詳細を把握し、ガバナンスとコンプライアンスの目標達成を支援します。

  10. ファクトシート ページを閉じると、評価スタジオに戻ります。

  11. ここから、AIのユースケースにおけるプロンプトテンプレートの追跡を開始できます。 表から、プロンプトテンプレートの横にあるオーバーフローメニュー オーバーフロー をクリックし、 AI使用事例の追跡を選択します。

チェックポイントアイコン 進捗状況を確認する

次の画像は評価結果を示しています。

テンプレートの評価テスト結果




詳細情報

詳細については、以下のトピックを参照してください

今後のステップ

他のチュートリアルのいずれかを試してみてください

その他のリソース

  • 詳しくは、 ビデオを参照してください。

  • リソースハブでサンプルデータセット、プロジェクト、モデル、プロンプト、ノートブックを見つけ、実践的な経験を積んでください

    ノートブック プロジェクトに追加して、データの分析とモデルの構築を開始できるノートブック

    プロジェクト インポート可能なプロジェクトには、ノートブック、データセット、プロンプト、その他の資産が含まれます。

    データ・セット プロジェクトに追加して、モデルの改良、分析、構築を行うためのデータセット

    プロンプト プロンプト 。プロンプト・ラボで基盤モデルのプロンプトを出すために使用できます。

    プロンプト・ラボで使用できる モデル 基盤モデル

親トピック: クイックスタートチュートリアル