評価メトリック
評価指標は、AIモデルのパフォーマンスを継続的に監視し、AIのライフサイクル全体を通じて洞察を提供するために役立ちます。 watsonx.governance を使用すると、これらの指標を活用して規制要件へのコンプライアンスを確実にし、リスクを軽減するための改善策を特定することができます。
Watsonx.governance で評価を実行し、自動監視による指標を生成することで、AIガバナンスの目標達成に役立つ実行可能な洞察を得ることができます。 これらの指標は、以下の目標達成に役立てることができます
- コンプライアンスの徹底 :閾値が超過された際にアラートが発せられるため、進化する規制や組織のポリシーへの準拠を自動的に追跡できます。
- 透明性を推進する :モデルの動作、パフォーマンス、結果の説明可能性について明確な洞察を提供するための詳細な文書を作成する。
- リスクの軽減 :継続的な評価と積極的なリスク評価により、バイアスや精度の低下などの問題を検知し、対処します。
- プライバシーとセキュリティを保護 :個人識別情報(PII)の公開などのセキュリティ脆弱性を監視し、ガードレールを強化して機密データの悪用を防止します。
モデルのパフォーマンスに関する洞察を得るために使用できる評価基準は、有効にする評価の種類によって決まります。 各評価タイプでは、分析して洞察を得るための異なる指標が生成されます。
また、 ibm-watsonx-gov
ノートブックのランタイム環境でメトリックを計算したり、評価のために IBM Analytics Engine に対して Spark ジョブとしてオフロードしたりするための Python SDK。 Python SDKは、機械学習モデルをプログラムで監視、管理、制御するために使用できる Python ライブラリです。 一部の指標は、 Python SDK でのみ利用できる場合があります。 詳細は、「 Python SDK によるメトリクスの計算 」を参照してください。
ドリフト評価指標
ドリフト評価指標は、モデルの精度とデータの整合性の低下を検知し、モデルが時間の経過とともに結果をどの程度正確に予測できるかを判断するのに役立ちます。 Watsonx.governance 機械学習のための以下のドリフト評価指標をサポートしています。 models.:
メトリック | 説明 |
---|---|
正確度の低下 | トレーニングデータと比較した実行時のモデルの精度低下を推定します |
データ整合性の低下 | トレーニングデータ内のトランザクションパターンと実行中のトランザクションを比較し、不整合を特定する |
ドリフト v2 評価指標
Drift v2 の評価指標は、モデルの一貫した結果を確保するために、データの経時的な変化を測定するのに役立ちます。 これらの指標を使用して、モデル出力の変化、予測の正確さ、入力データの分布を特定することができます。 Watsonx.governance 次のドリフト メトリクスをサポートしています。 v2
メトリック | 説明 |
---|---|
埋め込みドリフト | 基準データと比較した際に異常値となるレコードの割合を検出する |
フィーチャー・ドリフト | 重要な特徴の値分布の変化を測定する |
入力メタデータのドリフト | LLM入力テキストのメタデータの分布の変化を測定する |
モデル品質ドリフト | 推定実行時間の精度とトレーニング精度を比較し、精度の低下を測定します。 |
出力ドリフト | モデルの信頼区間の変化を測定する |
出力メタデータ・ドリフト | LLM出力テキストのメタデータの分布の変化を測定します。 |
予測ドリフト | LLMの予測クラスにおける分布の変化を測定します。 |
公平性評価指標
公平性評価指標は、モデルが偏った結果を生み出しているかどうかを判断するのに役立ちます。 これらの指標を使用して、あるモデルが、あるグループに対して別のグループよりも好ましい結果をより多く提供する傾向があるかどうかを特定することができます。 Watsonx.governance 以下の公平性評価指標をサポートしています
メトリック | 説明 |
---|---|
平均絶対オッズ差 | モニタリンググループと参照グループ間の偽陽性率と真陽性率の平均の差を比較する |
平均オッズ差 | モニタリンググループと参照グループにおける偽陽性率と偽陰性率の差を測定する |
差別的影響 | モニタリング対象グループの良好な結果の割合と、参照グループの良好な結果の割合を比較する |
エラー率の差 | 貴社のモデルによって不正確にスコア付けされた取引の割合 |
偽のディスカバリー率の差 | 正の結果となった全取引に占める割合としての、誤って正と判定された取引の件数 |
偽陰性率の差 | 貴社のモデルによって正しく評価された取引が、誤って負として評価された割合 |
偽の除外率の差 | 否定的な結果となった全取引に占める割合としての、偽陰性取引の件数 |
偽陽性率の差 | モデルによって正しくないスコアが付けられたネガティブな取引の割合。 |
影響スコア | 好ましい結果を得るためにモニタリングされたグループが選択される割合と、好ましい結果を得るために参照グループが選択される割合を比較する。 |
統計パリティーの差 | モニタリングされたグループと参照グループの良好な結果の割合を比較する。 |
生成型AIの品質評価指標
生成型AIの品質評価指標は、 基盤モデルがタスクをどの程度うまく実行できるかを測定するのに役立ちます。 Watsonx.governance 以下の生成AIの品質評価指標をサポートしています
メトリック | 説明 |
---|---|
BLEU (バイリンガル評価代行) | 機械翻訳の訳文と参照訳の訳文を比較し、参照テキストと予測の類似性を測定する |
完全一致突き合わせ | モデル予測文字列と参照文字列を比較し、一致する頻度を測定します。 |
METEOR (明示的順序付き翻訳評価基準) | 機械翻訳で生成されたテキストが、参照翻訳のテキストの構造とどの程度一致しているかを測定する |
可読性 | 文の長さや単語の複雑性などの特性を測定することで、モデルの出力がどの程度読みにくいかを判断する |
ROUGE (要約評価のためのリコール志向代役) | 生成された要約や翻訳が、参照用出力とどの程度一致しているかを測定する。 |
SARI (参照および入力文に対するシステム出力) | 予測された文の出力と参照文の出力とを比較し、モデルが文を生成する際に使用する単語の品質を測定する |
文の類似性 | 文章埋め込みから意味情報を取得し、テキスト間の類似度を測定する |
テキスト品質 | SuperGLUE のデータセットに対して、モデルの予測値とグランドトゥルースデータに対する F1 スコア、精度、再現性を測定することで、モデルの出力を評価する |
Watsonx.governance また、生成型AIの品質評価指標として、以下の異なるカテゴリーもサポートしています
回答の品質評価基準
回答品質の評価基準を使用して、モデル回答の品質を評価することができます。 回答の品質評価指標は、LLMを裁判官モデルとして使用して算出されます。 LLM-as-a-judgeモデルを使用して評価基準を計算するには、モデルを呼び出すスコアリング関数を作成します。 詳細については、 IBM watsonx.governance for RAG を使用した回答品質と検索品質メトリックの計算」タスクノートブックを参照してください。
以下の回答品質メトリクスを計算できます
メトリック | 説明 |
---|---|
回答の関連性 | モデル出力の回答がモデル入力の質問にどの程度関連しているかを測定する |
類似点を回答 | モデルのパフォーマンスの質を判断するために、回答または生成されたテキストが基準回答または参照回答とどの程度類似しているかを測定する |
忠実さ | モデル出力がモデルの文脈においてどの程度根拠に基づいているかを測定し、モデル出力に最も貢献している重要な文を示すために、文脈からの帰属情報を提供します。 |
失敗した要求 | 全質問数に対する回答できなかった質問数の割合を測定する |
コンテンツ分析指標
以下のコンテンツ分析メトリクスを使用して、モデル入力またはコンテキストに対するモデル出力を評価することができます
メトリック | 説明 |
---|---|
抽象性 | 基盤モデルソースコンテンツに含まれない生成テキスト出力におけるn-gramの比率を測定する |
圧縮 | 原文の単語数と基盤モデル単語数の比率を計算することで、入力テキストと比較した要約の短縮率を測定する |
カバレッジ | 基盤モデルの出力がモデル入力から生成されている度合いを、出力テキストのうち入力にも含まれているものの割合を計算することで測定する |
密度 | 基盤モデル要約が、モデル入力からどの程度抽出されているかを測定する。原文からの直接的な抽出とよく似た抽出断片の平均を計算することで行う |
反復性 | 基盤モデル繰り返されるn-gramの割合を、繰り返されるn-gramの数とモデル出力のn-gramの総数を計算することで測定する |
データ安全性指標
以下のデータ安全性指標を使用して、モデルの入力または出力に有害な情報や機密情報が含まれているかどうかを確認することができます
メトリック | 説明 |
---|---|
HAP | モデルの入力または出力データに、憎悪、虐待、冒涜を含む有害な内容が含まれているかどうかを測定します。 |
PII | Watson 自然言語処理エンティティ抽出モデルを使用して、モデルの入力または出力データに個人を特定できる情報が含まれているかどうかを測定します |
複数のラベル/クラスのメトリック
多ラベル/多クラス予測のモデル性能を測定するには、以下の多ラベル/クラス指標を使用できます
メトリック | 説明 |
---|---|
マクロ F1 スコア | 各クラスごとに個別に計算された F1 スコアの平均値 |
マクロの適合率 | 各クラスごとに個別に計算された精度スコアの平均値 |
マクロの再現率 | 各クラスごとに個別に計算された想起得点の平均値 |
マイクロ F1 スコア | 精度と再現率の調和平均を計算する |
マイクロの適合率 | 全クラスに対する正解予測数の割合を、全予測数で割ったもの。 |
マイクロの再現率 | 全クラスにおける正解予測数と真のサンプル数の比率。 |
検索品質の評価基準
検索品質の評価指標を使用して、検索システムが関連性の高い文脈をランク付けする品質を測定することができます。 検索品質の評価指標は、LLMを裁判官に見立てたモデルで算出されます。 LLM-as-a-judgeモデルを使用して評価基準を計算するには、モデルを呼び出すスコアリング関数を作成します。 詳細については、 IBM watsonx.governance for RAG を使用した回答品質と検索品質メトリックの計算」タスクノートブックを参照してください。
以下の検索品質指標を計算できます
メトリック | 説明 |
---|---|
平均精度 | 関連コンテキストの精度スコアの平均を計算することで、関連コンテキストのすべてが上位にランク付けされているかどうかを評価する |
コンテキスト関連性 | モデルが取得した文脈が、プロンプトで指定された質問とどの程度関連しているかを測定します |
ヒット率 | 取得したコンテキストの中に、少なくとも1つは関連するコンテキストがあるかどうかを測定する。 |
正規化割引累積利益 | 取得したコンテキストのランキング品質を測定する |
逆順位 | 最初の関連文脈の相互ランク |
検索精度 | 取得されたコンテクストの総数から、関連するコンテクストの数を測定する |
モデル健康モニター評価指標
モデルヘルスモニター評価基準は、モデルの動作とパフォーマンスを理解するのに役立ちます。 デプロイメントがトランザクションを処理する効率性を判断することで、モデルの動作とパフォーマンスを理解することができます。 モデルの健康評価メトリクスは、本番環境での機械学習モデル評価および生成型AI 資産 デプロイメントに対してデフォルトで有効になっています。 Watsonx.governance 以下のモデルヘルスモニター評価指標をサポートしています
メトリック | 説明 |
---|---|
ペイロード・サイズ | デプロイメントがスコアリングリクエストを処理する際に生成されるトランザクションレコードの合計、平均、最小、最大、中央値のペイロードサイズ(キロバイト(KB)単位) |
レコード | スコアリングリクエスト全体で処理されるトランザクションレコードの合計数、平均数、最小数、最大数、中央値 |
評価要求 | デプロイメントが受け取るスコアリングリクエストの数 |
ユーザー | デプロイメントにスコアリングリクエストを送信するユーザーの数 |
Watsonx.governance また、以下の異なるカテゴリーのモデルヘルスモニター評価指標もサポートしています
トークン数
以下のトークンカウントメトリクスは、 デプロイメントに対するスコアリングリクエストで処理されたトークンの数を計算します
メトリック | 説明 |
---|---|
入力トークンの数 | 評価中の複数のスコアリングリクエストにおける入力トークン数の合計、平均、最小、最大、中央値を計算します |
出力トークン・カウント | 評価中の採点リクエスト全体における出力トークン数の合計、平均、最小、最大、中央値を計算します |
スループットとレイテンシ
モデルヘルスモニター評価では、スコアリングリクエストとトランザクションレコードをミリ秒(ms)単位で処理するのにかかる時間を追跡することで、レイテンシを計算します。 スループットは、1秒あたりに処理されるスコアリングリクエスト数とトランザクション記録を追跡することで算出されます。
評価期間中のスループットとレイテンシを測定するために、以下の指標が算出されます
メトリック | 説明 |
---|---|
APIの待ち時間 | デプロイメントスコアリングリクエストを処理するのにかかった時間(ミリ秒単位)。 |
APIスループット | デプロイメントで1秒間に処理されたスコアリングリクエストの数 |
レコードの待ち時間 | デプロイメントによりレコードを処理するのにかかる時間(ミリ秒単位) |
記録処理量 | デプロイメントで1秒間に処理されたレコード数 |
品質評価指標
品質評価は、モデルのパフォーマンスの良し悪しに基づいて、正しい結果を導くモデルの能力を測定するのに役立ちます。 Watsonx.governance 以下の品質評価指標をサポートしています
メトリック | 説明 |
---|---|
正解性 | モデル予測の正確さを、結果の総数における正しい結果の割合を計算することで測定します。 |
PR 曲線下面積 | モデルが正しく正のクラスを特定し、すべての正のクラスを見つけられるバランスをどれだけうまく取れているかを測定します |
ROC 曲線下面積 | モデルがクラス間の違いをどれだけ正確に識別できるかを測定します。 |
ブライアースコア | 予測確率と目標値の間の平均二乗誤差を測定する。 |
F1-Measure | 評価指標 適合率と再現率の調和平均 |
:NONE. | モデルが2つのクラスをどれだけうまく区別できるかを測定する |
ラベルの傾き | ラベル分布の非対称性を測定する |
対数損失 | 対数尤度の平均(信頼度) |
マシューズ相関係数 | 真陽性、偽陽性、真陰性、偽陰性を考慮した2値分類および多値分類の精度 |
平均絶対誤差 | モデル予測とターゲット値の絶対差の平均 |
平均絶対パーセント誤差 | 予測値と実際値の平均パーセンテージ誤差の差を測定する |
平均二乗誤差 | モデル予測値と目標値の差の二乗平均 |
ピアソンの相関係数 | モデル予測値とターゲット値の間の線形関係を測定する。 |
精度 | 正のクラスの予測における正しい予測の割合 |
因子寄与率 | 説明された分散とターゲット分散の比率。 説明された分散は、ターゲット分散と予測誤差の分散の差です。 |
再呼び出し | 正のクラスの正しい予測の割合 |
平均平方二乗誤差 (RMSE) | モデル予測とターゲット値の差を二乗した平均の平方根 |
R 2 乗 | 予測誤差の目標分散と分散の差の比率 |
Spearman の相関係数 | モデル予測値とターゲット値の関係における単調性を測定する。 |
調整平均絶対誤差率 | 予測値と実測値の差の割合誤差の対称平均を測定する |
正検出率 | 正のクラスの予測における正しい予測の割合 |
加重偽陽性率 | 正のクラスにおける誤った予測の割合 |
加重 F1 値 | クラス確率に等しい重みを用いた F1-measure の加重平均 |
加重適合率 | クラス確率に等しい重み付け精度の加重平均 |
加重再現率 | クラス確率に等しい重み付けをした想起の加重平均 |
親トピック :AIモデルの評価