このチュートリアルでは、Evaluation Studio で複数のプロンプトを比較する方法を説明します。 Evaluation Studio を使用すると、生成型 AI 資産を、ユースケースに適した定量的な指標とカスタマイズ可能な基準で評価および比較できます。 複数の資産のパフォーマンスを同時に評価し、結果の比較分析を表示して、最適なソリューションを特定します。
- 必須のサービス
- watsonx.ai
- watsonx.governance
- watsonx.ai
- 必須ロール
- Watsonx.governance サービスレベルへのアクセス:リーダーの役割
- プロジェクト用:管理者または編集者としての役割
- プロジェクトで使用するCloud Object Storage ・バケット:ライターの役割
基本的なワークフローには、以下のタスクが含まれます:
- 評価するプロンプトテンプレートを含むプロジェクトを開きます。 プロジェクトでは、他のユーザーと協力しながら資産を扱うことができます。
- 評価スタジオの実験を作成します。
- 結果を確認します。
評価スタジオについて読む
Evaluation Studio を使用すると、さまざまなタスクタイプに対応する複数の 資産を評価するプロセスを自動化することで、生成型 AI の開発を効率化することができます。 各プロンプトテンプレートを個別にレビューし、手動でパフォーマンスを比較する代わりに、複数のプロンプトテンプレートを同時に評価する単一の実験を設定することができます。これにより、開発時間を短縮できます。
次の機能が評価スタジオに含まれています。プロンプトテンプレートを評価および比較し、ニーズに資産を特定するのに役立ちます
- カスタマイズ可能な実験設定
- 柔軟な結果分析
評価スタジオに関するビデオを見る
このチュートリアルのステップをプレビューするには、このビデオをご覧ください。 動画で表示されているユーザーインターフェースと若干異なる場合があります。 このビデオは、文章によるチュートリアルの補助教材となることを目的としています。
このビデオでは、この文書で説明する概念と作業を視覚的に学習する方法を提供しています。
Evaluation Studioのチュートリアルをお試しください
このチュートリアルでは、以下のタスクを実行します:
このチュートリアルを完了するためのヒント
このチュートリアルを成功させるためのヒントをいくつかご紹介します。
ビデオのピクチャー・イン・ピクチャー機能を使用する
次のアニメーション画像は、ビデオのピクチャ・イン・ピクチャ機能と目次機能の使用方法を示しています
地域社会で助けを得る
このチュートリアルについてお困りの場合は、 watsonxのディスカッションフォーラムで質問を投稿したり、回答を検索することができます。
ブラウザウィンドウを設定する
このチュートリアルを最適な状態で完了するには、ブラウザウィンドウの1つで Cloud Pak for Data を開き、もう1つのブラウザウィンドウでこのチュートリアルページを開いて、2つのアプリケーション間を簡単に切り替えられるようにします。 2つのブラウザウィンドウを並べて表示すると、操作がわかりやすくなります。
タスク1:サンプルプロジェクトを作成する
このタスクをプレビューするには、 00:16 から始まるビデオをご覧ください。
リソースハブには、Evaluation Studioで比較できるサンプルプロンプトテンプレートを含むサンプルプロジェクトが含まれています。 サンプルを基にプロジェクトを作成するには、以下の手順に従います
ホーム画面から、 新規プロジェクト作成アイコン をクリックします。
サンプルを選択します。
Getting started with watsonx.governance
を検索し、そのサンプルプロジェクトを選択して、 [次へ] をクリックします。既存の オブジェクト・ストレージ・サービス・インスタンス を選択するか、または新規作成します。
「作成」 をクリックします。
プロジェクトのインポートが完了するまで待ち、 [新しいプロジェクトを表示] をクリックします。
watsonx.ai ランタイムサービスをプロジェクトに関連付けます。 詳細については watsonx.ai ランタイムを参照してください。
プロジェクトが開いたら 、「管理」タブをクリックし 、「サービスと統合」ページを選択します。
IBM サービス] タブで、 [サービスを関連付ける ] をクリックします。
watsonx.ai の実行インスタンスを選択します。 watsonx.aiのランタイムサービスインスタンスをプロビジョニングしていない場合は、以下の手順に従ってください
新しいサービスをクリックします。
watsonx.ai ランタイムを選択します。
「作成」 をクリックします。
リストから新しいサービスインスタンスを選択します。
「関連サービス 」をクリックします。
必要に応じて 、[キャンセル] をクリックして [サービス & 統合] ページに戻ります。
プロジェクト内の 資産 タブをクリックすると、 資産が表示されます。
詳細情報またはビデオの視聴については 、「プロジェクトの作成」 を参照してください。 関連サービスの詳細については 、「関連サービスの追加 」を参照してください。
進捗状況を確認する
次の画像は、プロジェクト資産を示しています。 これで実験を作成する準備ができました。
課題2:評価スタジオの実験を作成する
このタスクのプレビューを見るには、 1:11 から始まるビデオをご覧ください。
プロンプトのパフォーマンスを比較するには、評価スタジオのテストを作成する必要があります。 以下の手順に従って、実験を作成してください
資産 タブから、 新しい資産 > プロンプトを評価および比較する をクリックします。
セットアップページで、名前に
Summarization Evaluation experiment
と入力します。タスクの種類を選択します。 この場合、要約プロンプトテンプレートを比較したいので 、「要約」 を選択します。
「次へ」 をクリックして、 プロンプト テンプレートページに進みます。
保険請求サマリー 、2 保険請求サマリー、 3 保険請求サマリープロンプトテンプレートを選択します。
これらのプロンプトテンプレートの3つすべてに 「入力変数」 が含まれていることに注目してください。これは、Evaluation Studioの要件です。
「次へ」 をクリックして、 「メトリック」 ページに進みます。
生成AIの品質とモデルの健全性のセクションを展開して、評価に使用される指標を確認します。
「次へ」 をクリックして、 テスト データページに進みます。
テストデータを選択します
プロジェクトからデータを選択をクリックしてください。
プロジェクトファイル > 保険請求の要約data.csv を選択します。
アップロードするテストデータには、各プロンプト変数に対する参照出力および入力カラムを含める必要があります。 参照出力列は、ROUGEやBLEUなどの参照ベースの指標を計算するために使用されます。
「選択」をクリックします。
入力列には 、Insurance_Claim を選択します。
参照出力列では、 サマリー を選択します。
次へをクリックして、 レビューと実行ページに進みます。
構成を確認し 、「評価を実行」 をクリックします。 評価には数分かかる場合があります。
進捗状況を確認する
次の画像は評価結果を示しています。 結果を確認できます。
タスク 3: Evaluation Studioで結果を確認する
このタスクのプレビューを見るには、 2分26秒から始まるビデオをご覧ください。
これで、 資産を評価し比較する準備ができました。 以下の手順に従って、Evaluation Studio の結果を確認してください
評価が完了したら、 メトリック比較の視覚化を表示します。
グラフは、選択した各プロンプトテンプレートの結果を比較します。 可視化ディスプレイは、各評価基準でスコアが閾値を上回っているかどうかを表示します。
レコードリストをクリックして、別のメトリックを選択します。 例えば 、「コンテンツ分析」 を選択すると、選択した指標に基づくチャートの更新を確認できます。
グラフ内の棒グラフにカーソルを合わせると詳細が表示されます。
ビジュアル化の下にある表で、3つのプロンプトテンプレートを確認してください。 それぞれのプロンプトで異なる foundation model が使用されていることに注意してください。
比較を行うには、プロンプトテンプレートの横にある 「参照として設定」 アイコン をクリックします。
参照テンプレートを設定すると、表内の列がハイライトされ、 資産て、他の資産のパフォーマンスが優れているか、劣っているかが示されます。
カスタムランキングアイコン をクリックします。
結果を分析するために、重み付けの要因とランキングの計算式を指定して、異なるグループ間で独自のランキングを作成し、どのプロンプトテンプレートが最も高いパフォーマンスを発揮しているかを判断することもできます。 カスタムランキングを作成する際には、ランキングに関連する評価基準を選択し、それらに重み付けをすることができます。 「キャンセル」をクリックします。
評価を再度実行するには、 設定の調整アイコン をクリックします。 評価の詳細] パネルを使用して、テストデータを更新したり、メトリクスを再構成します。
実験を編集するには、 資産 アイコン をクリックして、評価から資産を削除または追加し、比較を変更します。
表から、プロンプトテンプレートの横にある 溢れ出る メニュー をクリックし、 ファクトシートを見る を選択します。 ファクトシートは、AIライフサイクルの各段階における資産の詳細を把握し、ガバナンスとコンプライアンスの目標達成を支援します。
ファクトシート ページを閉じると、評価スタジオに戻ります。
ここから、AIのユースケースにおけるプロンプトテンプレートの追跡を開始できます。 表から、プロンプトテンプレートの横にあるオーバーフローメニュー をクリックし、 AI使用事例の追跡を選択します。
進捗状況を確認する
次の画像は評価結果を示しています。
詳細情報
詳細については、以下のトピックを参照してください
今後のステップ
他のチュートリアルのいずれかを試してみてください
その他のリソース
詳しくは、 ビデオを参照してください。
リソースハブでサンプルデータセット、プロジェクト、モデル、プロンプト、ノートブックを見つけ、実践的な経験を積んでください
プロジェクトに追加して、データの分析とモデルの構築を開始できるノートブック。
インポート可能なプロジェクトには、ノートブック、データセット、プロンプト、その他の資産が含まれます。
プロジェクトに追加して、モデルの改良、分析、構築を行うためのデータセット。
プロンプト 。プロンプト・ラボで基盤モデルのプロンプトを出すために使用できます。
プロンプト・ラボで使用できる 基盤モデル 。
親トピック: クイックスタートチュートリアル