0 / 0
資料の 英語版 に戻る
評価メトリック
最終更新: 2025年2月21日
評価メトリック

評価指標は、AIモデルのパフォーマンスを継続的に監視し、AIのライフサイクル全体を通じて洞察を提供するために役立ちます。 watsonx.governance を使用すると、これらの指標を活用して規制要件へのコンプライアンスを確実にし、リスクを軽減するための改善策を特定することができます。

Watsonx.governance で評価を実行し、自動監視による指標を生成することで、AIガバナンスの目標達成に役立つ実行可能な洞察を得ることができます。 これらの指標は、以下の目標達成に役立てることができます

  • コンプライアンスの徹底 :閾値が超過された際にアラートが発せられるため、進化する規制や組織のポリシーへの準拠を自動的に追跡できます。
  • 透明性を推進する :モデルの動作、パフォーマンス、結果の説明可能性について明確な洞察を提供するための詳細な文書を作成する。
  • リスクの軽減 :継続的な評価と積極的なリスク評価により、バイアスや精度の低下などの問題を検知し、対処します。
  • プライバシーとセキュリティを保護 :個人識別情報(PII)の公開などのセキュリティ脆弱性を監視し、ガードレールを強化して機密データの悪用を防止します。

モデルのパフォーマンスに関する洞察を得るために使用できる評価基準は、有効にする評価の種類によって決まります。 各評価タイプでは、分析して洞察を得るための異なる指標が生成されます。

また 、 Python SDK を使用して、ノートブックの実行環境でメトリクスを計算したり、 IBM Analytics Engine に評価用として Spark ジョブとしてオフロードすることもできます。 一部の指標は、 Python SDK でのみ利用できる場合があります。

ドリフト評価指標

ドリフト評価指標は、モデルの精度とデータの整合性の低下を検知し、モデルが時間の経過とともに結果をどの程度正確に予測できるかを判断するのに役立ちます。 Watsonx.governance 機械学習のための以下のドリフト評価指標をサポートしています。 models.:

表 1. ドリフト評価指標の説明
メトリック 説明
正解率の低下 トレーニングデータと比較した実行時のモデルの精度低下を推定します
データ整合性の低下 トレーニングデータ内のトランザクションパターンと実行中のトランザクションを比較し、不整合を特定する

ドリフト v2 評価指標

Drift v2 の評価指標は、モデルの一貫した結果を確保するために、データの経時的な変化を測定するのに役立ちます。 これらの指標を使用して、モデル出力の変化、予測の正確さ、入力データの分布を特定することができます。 Watsonx.governance 次のドリフト メトリクスをサポートしています。 v2

表 2. ドリフト v2 評価指標の説明
メトリック 説明
埋め込みドリフト 基準データと比較した際に異常値となるレコードの割合を検出する
フィーチャー・ドリフト 重要な特徴の値分布の変化を測定する
入力メタデータのドリフト LLM入力テキストのメタデータの分布の変化を測定する
モデル品質ドリフト 推定実行時間の精度とトレーニング精度を比較し、精度の低下を測定します。
出力ドリフト モデルの信頼区間の変化を測定する
出力メタデータ・ドリフト LLM出力テキストのメタデータの分布の変化を測定します。
予測ドリフト LLMの予測クラスにおける分布の変化を測定します。

公平性評価指標

公平性評価指標は、モデルが偏った結果を生み出しているかどうかを判断するのに役立ちます。 これらの指標を使用して、あるモデルが、あるグループに対して別のグループよりも好ましい結果をより多く提供する傾向があるかどうかを特定することができます。 Watsonx.governance 以下の公平性評価指標をサポートしています

表 3. 公平性評価指標の説明
メトリック 説明
平均絶対オッズ差 モニタリンググループと参照グループ間の偽陽性率と真陽性率の平均の差を比較する
平均オッズ差 モニタリンググループと参照グループにおける偽陽性率と偽陰性率の差を測定する
差別的影響 モニタリング対象グループの良好な結果の割合と、参照グループの良好な結果の割合を比較する
エラー率の差 貴社のモデルによって不正確にスコア付けされた取引の割合
偽のディスカバリー率の差 正の結果となった全取引に占める割合としての、誤って正と判定された取引の件数
偽陰性率の差 貴社のモデルによって正しく評価された取引が、誤って負として評価された割合
偽の除外率の差 否定的な結果となった全取引に占める割合としての、偽陰性取引の件数
偽陽性率の差 モデルによって正しくないスコアが付けられたネガティブな取引の割合。
影響スコア 好ましい結果を得るためにモニタリングされたグループが選択される割合と、好ましい結果を得るために参照グループが選択される割合を比較する。
統計パリティーの差 モニタリングされたグループと参照グループの良好な結果の割合を比較する。

生成型AIの品質評価指標

生成型AIの品質評価指標は、 foundation model がタスクをどれだけうまく実行できるかを測定するのに役立ちます。 Watsonx.governance 以下の生成型AIの品質評価指標をサポートしています

表 4. 生成型AIの品質評価指標の説明
メトリック 説明
BLEU(バイリンガル評価代行) 機械翻訳の訳文と参照訳の訳文を比較し、参照テキストと予測の類似性を測定する
完全一致突き合わせ モデル予測文字列と参照文字列を比較し、一致する頻度を測定します。
METEOR(明示的順序付き翻訳評価メトリクス) 機械翻訳で生成されたテキストが、参照翻訳のテキストの構造とどの程度一致しているかを測定する
可読性 文の長さや単語の複雑性などの特性を測定することで、モデルの出力がどの程度読みにくいかを判断する
ROUGE(要約評価のためのリコール志向代役) 生成された要約や翻訳が、参照用出力とどの程度一致しているかを測定する。
SARI(参照および入力文に対するシステム出力) 予測された文の出力と参照文の出力とを比較し、モデルが文を生成する際に使用する単語の品質を測定する
文の類似性 文章埋め込みから意味情報を取得し、テキスト間の類似度を測定する
テキスト品質 SuperGLUE のデータセットに対して、モデルの予測値とグランドトゥルースデータに対する F1 スコア、精度、再現性を測定することで、モデルの出力を評価する

Watsonx.governance また、生成型AIの品質評価指標として、以下の異なるカテゴリーもサポートしています

回答の品質評価基準

回答品質の評価基準を使用して、モデル回答の品質を評価することができます。 回答の品質評価指標は、LLMを裁判官モデルとして使用して算出されます。 LLM-as-a-judgeモデルを使用して評価基準を計算するには、モデルを呼び出すスコアリング関数を作成します。 詳細については、 IBM watsonx.governance for RAG を使用した回答品質と検索品質メトリックの計算」タスクノートブックを参照してください。

以下の回答品質メトリクスを計算できます

表 5. 回答品質評価指標の説明
メトリック 説明
回答の関連性 モデル出力の回答がモデル入力の質問にどの程度関連しているかを測定する
類似点を回答 モデルのパフォーマンスの質を判断するために、回答または生成されたテキストが基準回答または参照回答とどの程度類似しているかを測定する
忠実さ モデル出力がモデルの文脈においてどの程度根拠に基づいているかを測定し、モデル出力に最も貢献している重要な文を示すために、文脈からの帰属情報を提供します。
失敗した要求 全質問数に対する回答できなかった質問数の割合を測定する

コンテンツ分析指標

以下のコンテンツ分析メトリクスを使用して、モデル入力またはコンテキストに対するモデル出力を評価することができます

テーブル6。 コンテンツ分析評価指標の説明
メトリック 説明
抽象性 生成されたテキスト出力に含まれる、ソースコンテンツに含まれないn-gramの比率を測定する。 foundation model
圧縮 元のテキストの単語数と foundation model 出力の単語数の比率を計算することで、入力テキストと比較した要約の短縮率を測定します
カバレッジ foundation model の出力がモデル入力から生成されている度合いを、出力テキストのうち入力にも含まれているものの割合を計算することで測定する
密度 foundation model 出力の要約がモデル入力からどの程度抽出されているかを、原文からの直接的な抽出とよく似た抽出断片の平均を計算することで測定する
反復性 foundation model 出力で繰り返されるn-gramの割合を、繰り返されるn-gramの数とモデル出力のn-gramの総数を計算することで測定します

データ安全性指標

以下のデータ安全性指標を使用して、モデルの入力または出力に有害な情報や機密情報が含まれているかどうかを確認することができます

テーブル7。 データ安全性評価指標の説明
メトリック 説明
HAP モデルの入力または出力データに、憎悪、虐待、冒涜を含む有害な内容が含まれているかどうかを測定します。
PII Watson 自然言語処理エンティティ抽出モデルを使用して、モデルの入力または出力データに個人を特定できる情報が含まれているかどうかを測定します

複数のラベル/クラスのメトリック

多ラベル/多クラス予測のモデル性能を測定するには、以下の多ラベル/クラス指標を使用できます

表 8. マルチラベル/クラス評価指標の説明
メトリック 説明
マクロ F1 スコア F1 スコアを各クラスごとに個別に計算し、その平均を算出します
マクロの適合率 各クラスごとに個別に計算された精度スコアを集計し、平均を計算します
マクロの再現率 各クラスごとに個別に計算された想起得点の平均値
マイクロ F1 スコア すべてのクラスにわたるすべての真陽性、偽陽性、偽陰性を集計し、 F1 スコアを算出する
マイクロの適合率 すべてのクラスにわたるすべての真の陽性および偽陽性を集約し、精度を計算する
マイクロの再現率 すべてのクラスにおけるすべての真陽性と偽陽性を集計し、再現率を計算する

検索品質の評価基準

検索品質の評価指標を使用して、検索システムが関連性の高い文脈をランク付けする品質を測定することができます。 検索品質の評価指標は、LLMを裁判官に見立てたモデルで算出されます。 LLM-as-a-judgeモデルを使用して評価基準を計算するには、モデルを呼び出すスコアリング関数を作成します。 詳細については、 IBM watsonx.governance for RAG を使用した回答品質と検索品質メトリックの計算」タスクノートブックを参照してください。

以下の検索品質指標を計算できます

表9. 検索品質評価指標の説明
メトリック 説明
平均精度 関連コンテキストの精度スコアの平均を計算することで、関連コンテキストのすべてが上位にランク付けされているかどうかを評価する
コンテキスト関連性 モデルが取得した文脈が、プロンプトで指定された質問とどの程度関連しているかを測定します
ヒット率 取得したコンテキストの中に、少なくとも1つは関連するコンテキストがあるかどうかを測定する。
正規化割引累積利益 取得したコンテキストのランキング品質を測定する
PII Watson 自然言語処理エンティティ抽出モデルを使用して、モデルの入力または出力データに個人を特定できる情報が含まれているかどうかを測定します
逆順位 最初の関連文脈の相互ランク
検索精度 取得されたコンテクストの総数から、関連するコンテクストの数を測定する

モデル健康モニター評価指標

モデルヘルスモニター評価基準は、モデルの動作とパフォーマンスを理解するのに役立ちます。 デプロイメントがトランザクションを処理する効率性を判断することで、モデルの動作とパフォーマンスを理解することができます。 モデルの健康評価メトリクスは、本番環境での機械学習モデル評価および生成型AI 資産 デプロイメントに対してデフォルトで有効になっています。 Watsonx.governance 以下のモデルヘルスモニター評価指標をサポートしています

表 10. モデルヘルスモニター評価指標の説明
メトリック 説明
ペイロード・サイズ デプロイメントがスコアリングリクエストを処理する際に生成されるトランザクションレコードの合計、平均、最小、最大、中央値のペイロードサイズ(キロバイト(KB)単位)
レコード スコアリングリクエスト全体で処理されるトランザクションレコードの合計数、平均数、最小数、最大数、中央値
評価要求 デプロイメントが受け取るスコアリングリクエストの数
ユーザー デプロイメントにスコアリングリクエストを送信するユーザーの数

Watsonx.governance また、以下の異なるカテゴリーのモデルヘルスモニター評価指標もサポートしています

トークン数

以下のトークンカウントメトリクスは、 デプロイメントに対するスコアリングリクエストで処理されたトークンの数を計算します

表 11. モデルヘルスモニタートークンカウント評価メトリックの説明
メトリック 説明
入力トークンの数 評価中の複数のスコアリングリクエストにおける入力トークン数の合計、平均、最小、最大、中央値を計算します
出力トークン・カウント 評価中の採点リクエスト全体における出力トークン数の合計、平均、最小、最大、中央値を計算します

スループットとレイテンシ

モデルヘルスモニター評価では、スコアリングリクエストとトランザクションレコードをミリ秒(ms)単位で処理するのにかかる時間を追跡することで、レイテンシを計算します。 スループットは、1秒あたりに処理されるスコアリングリクエスト数とトランザクション記録を追跡することで算出されます。

評価期間中のスループットとレイテンシを測定するために、以下の指標が算出されます

表 12. モデルヘルスモニターのスループットとレイテンシのメトリックの説明
メトリック 説明
APIの待ち時間 デプロイメントスコアリングリクエストを処理するのにかかった時間(ミリ秒単位)。
APIスループット デプロイメントで1秒間に処理されたスコアリングリクエストの数
レコードの待ち時間 デプロイメントによりレコードを処理するのにかかる時間(ミリ秒単位)
記録処理量 デプロイメントで1秒間に処理されたレコード数

Python SDK評価指標

The Python SDK is a Python library that you can use to programatically monitor, manage, and govern machine learning models and generative AI assets. Python SDK を使用して、評価指標の計算を自動化することができます。 Python SDKは、パフォーマンス測定に役立つアルゴリズムも計算します。 詳細は 、「 Python SDK によるメトリクスの計算 」を参照してください。

以下のメトリクスは、現在、 Python SDK バージョン 3.0.39 以降でのみご利用いただけます

表 13. Python SDK評価指標の説明
メトリック 説明
敵対的頑健性 プロンプト注入や脱獄などの敵対的攻撃に対するモデルとプロンプトテンプレートの頑健性を測定します
キーワードの包含 foundation model の出力と参照または基準値の間の名詞と代名詞の類似度を測定する
漏洩リスクの早期発見 流出したプロンプトテンプレートとオリジナルのプロンプトテンプレートとの類似度を計算することで、プロンプトテンプレートの漏洩リスクを測定する
質問の堅牢性 モデル入力問題の英語のスペルミスを検出する

次のメトリックカテゴリーは、 Python SDK でのみ利用可能です

コンテンツ検証指標

コンテンツ検証メトリクスは、生成されたLLM出力テキストを分析および検証するために、文字列ベースの関数を使用します。 コンテンツ検証メトリクスを生成するには、LLMから生成されたテキストのリストを入力する必要があります。

入力にトランザクションレコードが含まれていない場合、メトリクスはコンテンツ検証の成功した割合を測定し、その割合を検証の総数と比較します。 入力にトランザクションレコードが含まれている場合、メトリクスは、検証の総数と比較したコンテンツ検証の成功の割合を測定し、指定された record_id で検証結果を計算します。

以下のコンテンツ検証指標を計算できます

表 14. コンテンツ検証評価指標の説明
メトリック 説明
すべて含む 予測の行が指定されたキーワードをすべて含んでいるかどうかを測定する
次のいずれかを含む 予測の行に指定キーワードのいずれかが含まれているかどうかを測定する
メールが含まれています 予測の各行に電子メールが含まれているかどうかを測定する
Contains_JSON 予測の行にJSON構文が含まれているかどうかを測定します
リンクを含んでいます 予測の行にリンクが含まれているかどうかを測定する
含まない 予測結果の行に指定キーワードが含まれていないかどうかを測定する
文字列を含む 予測結果の各行に指定の文字列が含まれているかどうかを判定する
有効なリンクが含まれています 予測の行に有効なリンクが含まれているかどうかを測定する
次で終わる 予測の行が指定された部分文字列で終わっているかどうかを測定する
等しい 予測の行が指定された部分文字列と一致しているかどうかを測定する
ファジー・マッチ 予測がキーワードに曖昧に一致するかどうかを測定する
メールは 予測の行に有効なメールアドレスが含まれているかどうかを測定する
IS JSON 予測の行に有効なJSON構文が含まれているかどうかを測定する
長さが次の値より大きい 予測における各行の長さが指定された最大値よりも大きいかどうかを測定する
長さが次の値より小さい 予測における各行の長さが指定された最大値以下であるかどうかを測定する
無効なリンクはありません 予測の行に無効なリンクがないかどうかを測定する
正規表現 予測の行に指定の正規表現が含まれているかどうかを測定する
次で始まる 予測の行が指定された部分文字列で始まっているかどうかを測定する

親トピック :AIモデルの評価