watsonx.governanceのジェネレーティブAI品質評価を使用して、foundation modelがどの程度タスクを実行するかを測定することができます。
プロンプト・テンプレートを評価すると、以下のタスク・タイプの生成 AI 品質評価結果の要約を確認できます。
- テキストの要約
- コンテンツの生成
- エンティティー抽出
- 質問への回答
- 取得拡張世代 (RAG)
要約には、デフォルト設定で計算されたメトリックのスコアと違反が表示されます。
独自の設定を使用して生成 AI 品質評価を構成するには、以下の例に示すように、最小サンプル・サイズを設定し、各メトリックのしきい値を設定します。
最小サンプル・サイズは、評価するモデル・トランザクション・レコードの最小数を示し、しきい値は、メトリック・スコアがしきい値に違反した場合にアラートを作成します。 違反を回避するには、評価指標スコアを下限しきい値より高くする必要があります。 評価指標値が高いほど、スコアが高いことを示します。
また、LLM-as-a-judge モデルでメトリクスを計算する設定も可能です。 LLM-as-a-judgeモデルは、他のモデルのパフォーマンスを評価するために使用できるLLMモデルです。
LLM-as-a-judgeモデルでメトリクスを計算するには、評価設定の際に「管理」を選択して「generative_ai_evaluator
システムを追加する必要があります。
回答品質と検索品質メトリクスを計算する評価者を選択できます。
また、watsonx.governance でプロンプトテンプレートを設定し、RAG タスクの評価結果を確認する際に、ノートブックを使って評価者を作成することもできます。
サポートされる生成 AI 品質メトリック
watsonx.governance: では、以下の生成 AI 品質メトリックがサポートされています。
ROUGE
ROUGE (Recall-Oriented UnderStudy for Gisting Evaluation) メトリックは、生成された要約または変換が参照出力と比較してどの程度良好であるかを測定します。 生成 AI の品質評価では、 rouge1、 rouge2、および rougeLSum メトリックが計算されます。
タスク・タイプ:
- テキストの要約
- コンテンツの生成
- 質問への回答
- エンティティー抽出
- 取得拡張世代 (RAG)
パラメーター:
- ステマーの使用: true の場合、ユーザーは Porter ステマーを使用して単語のサフィックスを削除します。 デフォルトは false です。
しきい値:
- 下限: 0.8
- 上限: 1.0
仕組み: スコアが高いほど、要約と参照の類似性が高いことを示します。
SARI
SARI (参照および入力センテンスに対するシステム出力) は、予測されたセンテンス出力を参照センテンス出力と比較して、モデルがセンテンスを生成するために使用する単語の品質を測定します。
タスク・タイプ:
- テキストの要約
しきい値:
- 下限: 0
- 上限: 100
仕組み: スコアが高いほど、文の生成に使用される単語の品質が高いことを示します。
METEOR
METEOR (明示的 ORdering を使用した翻訳の評価メトリック) は、機械翻訳を使用して生成されたテキストが、参照翻訳からのテキストの構造とどの程度一致しているかを測定します。 これは、適合率と再現率の調和平均で計算されます。
タスク・タイプ:
- テキストの要約
- コンテンツの生成
パラメーター:
- アルファ: 適合率と再現率の相対的な重みを制御します
- ベータ: ペナルティーの形状をフラグメント化の関数として制御します。
- ガンマ: フラグメント化ペナルティーに割り当てられた相対的な重み。
しきい値:
- 下限: 0
- 上限: 1
仕組み: スコアが高いほど、機械翻訳が参照とより密接に一致していることを示します。
テキスト品質
テキスト品質は、モデル予測およびそのグランドトゥルース・データに対して F1 スコア、精度、および再現率を測定することにより、 SuperGLUE データ・セットに対してモデルの出力を評価します。 これは、入力ストリングを正規化し、予測と参照の間に存在する類似したトークンの数を識別することによって計算されます。
タスク・タイプ:
- テキストの要約
- コンテンツの生成
しきい値:
- 下限: 0.8
- 上限: 1
仕組み: スコアが高いほど、予測と参照の間の類似度が高いことを示します。
BLEU
BLEU (Bilingual Evaluation UnderStudy) は、機械翻訳から翻訳されたセンテンスを参照翻訳からセンテンスに比較して、参照テキストと予測の類似性を測定します。
タスク・タイプ:
- テキストの要約
- コンテンツの生成
- 質問への回答
- 取得拡張世代 (RAG)
パラメーター:
- 最大順序: BLEU スコアの完了時に使用する最大 N-gram 順序
- 平滑化: データからノイズを除去するために平滑化機能を適用するかどうか
しきい値:
- 下限: 0.8
- 上限: 1
仕組み: スコアが高いほど、参照テキストと予測の間の類似性が高いことを示します。
文の類似性
センテンスの類似性は、センテンスの埋め込みからセマンティック情報を取り込み、テキスト間の類似性を測定します。 Jaccard の類似性とコサインの類似性を測定します。
タスク・タイプ: テキストの要約
しきい値:
- 下限: 0.8
- 上限: 1
仕組み: スコアが高いほど、テキストがより類似していることを示します。
データの安全性
以下のデータ安全性メトリクスを使用して、モデルの入力や出力に有害な情報や機密情報が含まれているかどうかを識別できます:
- PII
- PII は、Watson 自然言語処理エンティティ抽出モデルを使用して、モデルの入力データまたは出力データに個人を特定できる情報が含まれているかどうかを測定します。
- タスク・タイプ:
- テキストの要約
- コンテンツの生成
- 質問への回答
- 取得拡張世代 (RAG)
- しきい値:
- 上限: 0
- 仕組み: スコアが高いほど、入力データまたは出力データに存在する個人情報の割合が高いことを示します。
- タスク・タイプ:
- HAP
- HAP は、モデルの入力データまたは出力データにヘイト、虐待、または不適切表現を含む有害なコンテンツがあるかどうかを測定します。
- タスク・タイプ:
- テキストの要約
- コンテンツの生成
- 質問への回答
- 取得拡張世代 (RAG)
- ThesHold (テスホールド)
- 上限: 0
- 仕組み: スコアが高いほど、モデルの入力または出力に存在する有害な内容の割合が高いことを示します。
- タスク・タイプ:
可読性
読みやすさは、文の長さや単語の複雑さなどの特性を測定することによって、モデルの出力を読み取るのがいかに難しいかを決定します。
タスク・タイプ:
- テキストの要約
- コンテンツの生成
しきい値:
- 下限: 60
仕組み: スコアが高いほど、モデルの出力が読みやすいことを示します。
完全一致突き合わせ
完全一致突き合わせでは、モデル予測文字列を参照文字列と比較して、文字列が一致する頻度を測定します。
タスク・タイプ:
- 質問への回答
- エンティティー抽出
- 取得拡張世代 (RAG)
パラメーター:
- 無視する正規表現: 完全一致の計算時に無視する文字の正規表現。
- 大/小文字を無視: True の場合、大/小文字の違いが無視されるように、すべてを小文字に変換します。
- 句読点を無視: True の場合、ストリングを比較する前に句読点を削除します。
- 数値を無視: True の場合、文字列を比較する前にすべての数字を削除します。
しきい値:
- 下限: 0.8
- 上限: 1
仕組み: スコアが高いほど、モデル予測文字列が参照文字列と一致する頻度が高いことを示します。
複数のラベル/クラスのメトリック
複数ラベル/クラス・メトリックは、複数ラベル/複数クラス予測のモデル・パフォーマンスを測定します。
- メトリック:
- マイクロ F1 スコア
- マクロ F1 スコア
- マイクロの適合率
- マクロの適合率
- マイクロの再現率
- マクロの再現率
- タスク・タイプ: エンティティー抽出
- しきい値:
- 下限: 0.8
- 上限: 1
- 仕組み: スコアが高いほど、予測の精度が高いことを示します。
回答の品質
模範解答の品質を評価するために、解答品質メトリクスを使用することができます。 回答品質メトリクスはLLM-as-a-judgeモデルで計算される。
以下の回答品質メトリクスを計算できます:
- 忠実さ
忠実度は、モデル出力がモデルの文脈にどの程度基づいているかを測定し、モデル出力に寄与する最も重要な文を示すために、文脈からの帰属を提供する。 ファインチューニングされたモデルで計算された場合のみ、アトリビュートが表示される。
- タスクの種類検索拡張世代(RAG)
- しきい値:
- 下限:0
- 上限: 1
- どのように機能するか:スコアが高いほど、出力はより地に足がついており、幻覚が少ないことを示す。
- 回答の関連性
解答の関連性は、モデル出力の解答が、モデル入力の質問にどれだけ関連しているかを測定します。
- タスクの種類検索拡張世代(RAG)
- しきい値:
- 下限:0
- 上限: 1
- どのように機能するか:スコアが高いほど、そのモデルが質問に対して適切な答えを提供していることを示します。
- 回答類似性
解答の類似度は、解答または生成されたテキストがグランドトゥルースまたは参照解答にどれだけ似ているかを測定し、モデルのパフォーマンスの質を決定します。 回答類似度メトリックは、LLM-as-a-judgeモデルとの構成でのみサポートされています。
- タスクの種類検索拡張世代(RAG)
- しきい値:
- 下限:0
- 上限: 1
- どのように機能するかスコアが高いほど、その答えが参照出力により近いことを示す。
- 失敗した要求
不成功のリクエストは、質問総数のうち不成功に終わった質問の比率を測定します。 Watsonx.governanceは、微調整されたモデルで失敗したリクエストのメトリックを計算しない。
- タスク・タイプ:
- 取得拡張世代 (RAG)
- 質問への回答
- しきい値:
- 下限:0
- 上限: 1
- どのように機能するか:スコアが高いほど、そのモデルは質問に対する答えを提供できないことを示す。
- タスク・タイプ:
コンテンツ分析
以下の内容分析メトリクスを使用して、モデルのインプットまたはコンテキストに対するモデルのアウトプットを評価することができます:
- カバレッジ
カバレッジは、入力にも含まれる出力テキストの割合を計算することによって、foundation modelの出力がモデルの入力から生成される程度を測定する。
- タスク・タイプ:
- テキストの要約
- 取得拡張世代 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- 仕組みスコアが高いほど、入力テキスト内の出力単語の割合が高いことを示す。
- タスク・タイプ:
- 密度
密度は、原文からの逐語的な抽出に近い抽出断片の平均を計算することで、foundation model出力の要約がモデル入力からどれだけ抽出されているかを測定する。
- タスク・タイプ:
- テキストの要約
- 取得拡張世代 (RAG)
- しきい値下限:0
- どのように機能するかスコアが低いほど、モデルの出力がより抽象的であり、平均して抽出された断片が原文からの逐語的な抽出に似ていないことを示す。
- タスク・タイプ:
- 圧縮
圧縮は、入力テキストと比較して要約がどれだけ短くなったかを測定する。 これは、原文の単語数とfoundation model出力の単語数の比率を計算する。
- タスク・タイプ: テキストの要約
- しきい値下限:0
- どのように機能するか:スコアが高いほど、原文と比較して要約がより簡潔であることを示す。
- 反復性
反復性は、繰り返されるn-gramの数とモデル出力のn-gramの総数を計算することにより、foundation model出力で繰り返されるn-gramの割合を測定します。
- タスク・タイプ: テキストの要約
- しきい値下限:0
- 抽象性
抽象度は、生成されたテキスト出力に含まれるn-gramのうち、foundation modelモデルの元コンテンツに現れないものの比率を測定する。
- タスク・タイプ:
- テキストの要約
- 取得拡張世代 (RAG)
- しきい値:
- 下限: 0
- 上限: 1
- どのように機能するかスコアが高いほど、生成されたテキスト出力の抽象度が高いことを示す。
- タスク・タイプ:
検索品質
検索品質メトリクスを使用して、検索システムが関連するコンテキストをランク付けする方法の品質を測定できます。 検索品質メトリクスはLLM-as-a-judgeモデルで計算される。
以下の検索品質メトリクスを計算できます:
- コンテキスト関連性
コンテキストの関連性は、プロンプトで指定された質問と、あなたのモデルが検索するコンテキストの関連性を測定します。 複数のコンテキスト変数が存在する場合、微調整されたモデルのみでメトリックを計算すると、コンテキスト関連性スコアが生成される。
- タスクの種類検索拡張世代(RAG)
- しきい値:
- 下限:0
- 上限: 1
- どのように機能するかスコアが高いほど、文脈がプロンプトの質問により関連していることを示します。
- 検索精度
検索精度は、検索されたコンテキストの合計から関連するコンテキストの数を測定する。
- タスクの種類検索オーグメント・ジェネレーション(RAG)
- しきい値:
- 下限:0
- 上限: 1
- どのように機能するか:1の値は、検索されたすべてのコンテキストが関連することを示す。 値0は、検索されたコンテキストに関連するものがないことを示す。 スコアが上昇傾向にある場合、検索されたコンテキストは質問に関連している。 スコアが下降傾向にある場合、検索されたコンテキストは質問に関連していない。
- 平均精度
平均精度は、関連するコンテキストの精度スコアの平均を計算することで、関連するコンテキストのすべてが上位にランクされているかどうかを評価する。
- タスクの種類検索オーグメント・ジェネレーション(RAG)
- しきい値:
- 下限:0
- 上限: 1
- どのように機能するか1の値は、関連するすべてのコンテキストが上位にランク付けされていることを示す。 値0は、検索されたコンテキストに関連するものがないことを示す。 スコアが上昇傾向にある場合は、関連するコンテクストの順位が高くなる。 スコアが下降傾向にある場合、関連するコンテキストの順位が下がることはない。
- 逆順位
逆順位は、最初に関連するコンテキストの逆順位である。
- タスクの種類検索オーグメント・ジェネレーション(RAG)
- しきい値:
- 下限:0
- 上限: 1
- どのように機能するか:1の値は、関連する最初のコンテキストが最初の位置にあることを示す。 値0は、関連するコンテキストが1つも検索されないことを示す。 スコアが上昇傾向にある場合、最初に関連したコンテキストの順位が高くなる。 スコアが下降傾向にある場合は、最初に関連したコンテキストの順位が下がる。
- ヒット率
ヒット率は、検索されたコンテキストの中に関連するコンテキストが少なくとも1つあるかどうかを測定する。
- タスクの種類検索オーグメント・ジェネレーション(RAG)
- しきい値:
- 下限:0
- 上限: 1
- どのように機能するか:1の値は、関連するコンテキストが少なくとも1つあることを示す。 値0は、検索されたコンテキストに関連するコンテキストがないことを示す。 スコアが上昇傾向にある場合、少なくとも1つの関連するコンテキストが検索されたコンテキストにある。 スコアが下降傾向にある場合、関連するコンテキストは検索されない。
- 正規化割引累積利益
正規化割引累積利得(NDCG)は、検索されたコンテキストのランキング品質を測定する。
- タスクの種類検索オーグメント・ジェネレーション(RAG)
- しきい値:
- 下限:0
- 上限: 1
- どのように機能するか:1の値は、検索されたコンテキストが正しい順序でランク付けされていることを示す。 スコアが上昇傾向にあれば、検索されたコンテキストの順位は正しい。 スコアが下降傾向にある場合は、検索されたコンテキストの順位が正しくない。
親トピック: モデル評価の構成