生成 AI の品質評価
watsonx.governance 生成 AI 品質評価を使用して、ファウンデーション・モデルがタスクをどの程度実行しているかを測定できます。
プロンプト・テンプレートを評価すると、以下のタスク・タイプの生成 AI 品質評価結果の要約を確認できます。
- テキストの要約
- コンテンツの生成
- エンティティー抽出
- 質問への回答
- 取得拡張世代 (RAG)
要約には、デフォルト設定で計算されたメトリックのスコアと違反が表示されます。
独自の設定を使用して生成 AI 品質評価を構成するには、以下の例に示すように、最小サンプル・サイズを設定し、各メトリックのしきい値を設定します。
最小サンプル・サイズは、評価するモデル・トランザクション・レコードの最小数を示し、しきい値は、メトリック・スコアがしきい値に違反した場合にアラートを作成します。 違反を回避するには、評価指標スコアを下限しきい値より高くする必要があります。 評価指標値が高いほど、スコアが高いことを示します。
サポートされる生成 AI 品質メトリック
watsonx.governance: では、以下の生成 AI 品質メトリックがサポートされています。
ROUGE
ROUGE (Recall-Oriented UnderStudy for Gisting Evaluation) メトリックは、生成された要約または変換が参照出力と比較してどの程度良好であるかを測定します。 生成 AI の品質評価では、 rouge1、 rouge2、および rougeLSum メトリックが計算されます。
タスク・タイプ:
- テキストの要約
- コンテンツの生成
- 質問への回答
- エンティティー抽出
- 取得拡張世代 (RAG)
パラメーター:
- ステマーの使用: true の場合、ユーザーは Porter ステマーを使用して単語のサフィックスを削除します。 デフォルトは false です。
しきい値:
- 下限: 0.8
- 上限: 1.0
仕組み: スコアが高いほど、要約と参照の類似性が高いことを示します。
SARI
SARI (参照および入力センテンスに対するシステム出力) は、予測されたセンテンス出力を参照センテンス出力と比較して、モデルがセンテンスを生成するために使用する単語の品質を測定します。
タスク・タイプ:
- テキストの要約
しきい値:
- 下限: 0
- 上限: 100
仕組み: スコアが高いほど、文の生成に使用される単語の品質が高いことを示します。
METEOR
METEOR (明示的 ORdering を使用した翻訳の評価メトリック) は、機械翻訳を使用して生成されたテキストが、参照翻訳からのテキストの構造とどの程度一致しているかを測定します。 これは、適合率と再現率の調和平均で計算されます。
タスク・タイプ:
- テキストの要約
- コンテンツの生成
パラメーター:
- アルファ: 適合率と再現率の相対的な重みを制御します
- ベータ: ペナルティーの形状をフラグメント化の関数として制御します。
- ガンマ: フラグメント化ペナルティーに割り当てられた相対的な重み。
しきい値:
- 下限: 0
- 上限: 1
仕組み: スコアが高いほど、機械翻訳が参照とより密接に一致していることを示します。
テキスト品質
テキスト品質は、モデル予測およびそのグランドトゥルース・データに対して F1 スコア、精度、および再現率を測定することにより、 SuperGLUE データ・セットに対してモデルの出力を評価します。 これは、入力ストリングを正規化し、予測と参照の間に存在する類似したトークンの数を識別することによって計算されます。
タスク・タイプ:
- テキストの要約
- コンテンツの生成
しきい値:
- 下限: 0.8
- 上限: 1
仕組み: スコアが高いほど、予測と参照の間の類似度が高いことを示します。
BLEU
BLEU (Bilingual Evaluation UnderStudy) は、機械翻訳から翻訳されたセンテンスを参照翻訳からセンテンスに比較して、参照テキストと予測の類似性を測定します。
タスク・タイプ:
- テキストの要約
- コンテンツの生成
- 質問への回答
- 取得拡張世代 (RAG)
パラメーター:
- 最大順序: BLEU スコアの完了時に使用する最大 N-gram 順序
- 平滑化: データからノイズを除去するために平滑化機能を適用するかどうか
しきい値:
- 下限: 0.8
- 上限: 1
仕組み: スコアが高いほど、参照テキストと予測の間の類似性が高いことを示します。
文の類似性
センテンスの類似性は、センテンスの埋め込みからセマンティック情報を取り込み、テキスト間の類似性を測定します。 Jaccard の類似性とコサインの類似性を測定します。
タスク・タイプ: テキストの要約
しきい値:
- 下限: 0.8
- 上限: 1
仕組み: スコアが高いほど、テキストがより類似していることを示します。
データの安全性
以下のデータ安全性メトリクスを使用して、モデルの入力や出力に有害な情報や機密情報が含まれているかどうかを識別できます:
- PII
- PII は、Watson 自然言語処理エンティティ抽出モデルを使用して、モデルの入力データまたは出力データに個人を特定できる情報が含まれているかどうかを測定します。
- タスク・タイプ:
- テキストの要約
- コンテンツの生成
- 質問への回答
- 取得拡張世代 (RAG)
- しきい値:
- 上限: 0
- 仕組み: スコアが高いほど、入力データまたは出力データに存在する個人情報の割合が高いことを示します。
- タスク・タイプ:
- HAP
- HAP は、モデルの入力データまたは出力データにヘイト、虐待、または不適切表現を含む有害なコンテンツがあるかどうかを測定します。
- タスク・タイプ:
- テキストの要約
- コンテンツの生成
- 質問への回答
- 取得拡張世代 (RAG)
- ThesHold (テスホールド)
- 上限: 0
- 仕組み: スコアが高いほど、モデルの入力または出力に存在する有害な内容の割合が高いことを示します。
- タスク・タイプ:
可読性
読みやすさは、文の長さや単語の複雑さなどの特性を測定することによって、モデルの出力を読み取るのがいかに難しいかを決定します。
タスク・タイプ:
- テキストの要約
- コンテンツの生成
しきい値:
- 下限: 60
仕組み: スコアが高いほど、モデルの出力が読みやすいことを示します。
完全一致突き合わせ
完全一致突き合わせでは、モデル予測文字列を参照文字列と比較して、文字列が一致する頻度を測定します。
タスク・タイプ:
- 質問への回答
- エンティティー抽出
- 取得拡張世代 (RAG)
パラメーター:
- 無視する正規表現: 完全一致の計算時に無視する文字の正規表現。
- 大/小文字を無視: True の場合、大/小文字の違いが無視されるように、すべてを小文字に変換します。
- 句読点を無視: True の場合、ストリングを比較する前に句読点を削除します。
- 数値を無視: True の場合、文字列を比較する前にすべての数字を削除します。
しきい値:
- 下限: 0.8
- 上限: 1
仕組み: スコアが高いほど、モデル予測文字列が参照文字列と一致する頻度が高いことを示します。
複数のラベル/クラスのメトリック
複数ラベル/クラス・メトリックは、複数ラベル/複数クラス予測のモデル・パフォーマンスを測定します。
- メトリック:
- マイクロ F1 スコア
- マクロ F1 スコア
- マイクロの適合率
- マクロの適合率
- マイクロの再現率
- マクロの再現率
- タスク・タイプ: エンティティー抽出
- しきい値:
- 下限: 0.8
- 上限: 1
- 仕組み: スコアが高いほど、予測の精度が高いことを示します。
親トピック: モデル評価の構成