生成型AIの品質評価の設定

最終更新: 2025年3月11日
生成型AIの品質評価の設定

生成型AIの品質評価を設定して、 基盤モデルがタスクをどの程度うまく実行できるかを測定することができます。

プロンプト・テンプレートを評価すると、以下のタスク・タイプの生成 AI 品質評価結果の要約を確認できます。

  • テキストの要約
  • コンテンツの生成
  • エンティティー抽出
  • 質問への回答
  • 取得拡張世代 (RAG)

要約には、デフォルト設定で計算されたメトリックのスコアと違反が表示されます。

独自の設定を使用して生成 AI 品質評価を構成するには、以下の例に示すように、最小サンプル・サイズを設定し、各メトリックのしきい値を設定します。

生成 AI 品質評価の構成

最小サンプル・サイズは、評価するモデル・トランザクション・レコードの最小数を示し、しきい値は、メトリック・スコアがしきい値に違反した場合にアラートを作成します。 違反を回避するには、評価指標スコアを下限しきい値より高くする必要があります。 評価指標値が高いほど、スコアが高いことを示します。

また、LLM-as-a-judge モデルでメトリクスを計算する設定も可能です。 LLM-as-a-judgeモデルは、他のモデルのパフォーマンスを評価するために使用できるLLMモデルです。

LLM-as-a-judgeモデルでメトリクスを計算するには、評価設定の際に「管理」を選択して「generative_ai_evaluatorシステムを追加する必要があります。

LLM-as-a-judgeモデル評価のためのgen AI評価器を追加する

回答品質と検索品質メトリクスを計算する評価者を選択できます。

指標設定にAI評価者を選択する

また、watsonx.governance でプロンプトテンプレートを設定し、RAG タスクの評価結果を確認する際に、ノートブックを使って評価者を作成することもできます。

親トピック :AIモデルの評価