評価メトリック

最終更新: 2025年3月27日

評価メトリック

評価指標は、AIモデルのパフォーマンスを継続的に監視し、AIのライフサイクル全体を通じて洞察を提供するために役立ちます。 watsonx.governance を使用すると、これらの指標を活用して規制要件へのコンプライアンスを確実にし、リスクを軽減するための改善策を特定することができます。

Watsonx.governance で評価を実行し、自動監視による指標を生成することで、AIガバナンスの目標達成に役立つ実行可能な洞察を得ることができます。これらの指標は、以下の目標達成に役立てることができます

コンプライアンスの徹底 ：閾値が超過された際にアラートが発せられるため、進化する規制や組織のポリシーへの準拠を自動的に追跡できます。
透明性を推進する ：モデルの動作、パフォーマンス、結果の説明可能性について明確な洞察を提供するための詳細な文書を作成する。
リスクの軽減 ：継続的な評価と積極的なリスク評価により、バイアスや精度の低下などの問題を検知し、対処します。
プライバシーとセキュリティを保護 ：個人識別情報（PII）の公開などのセキュリティ脆弱性を監視し、ガードレールを強化して機密データの悪用を防止します。

モデルのパフォーマンスに関する洞察を得るために使用できる評価基準は、有効にする評価の種類によって決まります。各評価タイプでは、分析して洞察を得るための異なる指標が生成されます。

また、 ibm-watsonx-gov ノートブックのランタイム環境でメトリックを計算したり、評価のために IBM Analytics Engine に対して Spark ジョブとしてオフロードしたりするための Python SDK。 Python SDKは、機械学習モデルをプログラムで監視、管理、制御するために使用できる Python ライブラリです。一部の指標は、 Python SDK でのみ利用できる場合があります。詳細は、「 Python SDK によるメトリクスの計算」を参照してください。

ドリフト評価指標

ドリフト評価指標は、モデルの精度とデータの整合性の低下を検知し、モデルが時間の経過とともに結果をどの程度正確に予測できるかを判断するのに役立ちます。 Watsonx.governance 機械学習のための以下のドリフト評価指標をサポートしています。 models.:

表 1. ドリフト評価指標の説明
メトリック	説明
正確度の低下	トレーニングデータと比較した実行時のモデルの精度低下を推定します
データ整合性の低下	トレーニングデータ内のトランザクションパターンと実行中のトランザクションを比較し、不整合を特定する

ドリフト v2 評価指標

Drift v2 の評価指標は、モデルの一貫した結果を確保するために、データの経時的な変化を測定するのに役立ちます。これらの指標を使用して、モデル出力の変化、予測の正確さ、入力データの分布を特定することができます。 Watsonx.governance 次のドリフトメトリクスをサポートしています。 v2

表 2. ドリフト v2 評価指標の説明
メトリック	説明
フィーチャー・ドリフト	重要な特徴の値分布の変化を測定する
モデル品質ドリフト	推定実行時間の精度とトレーニング精度を比較し、精度の低下を測定します。
出力ドリフト	モデルの信頼区間の変化を測定する

公平性評価指標

公平性評価指標は、モデルが偏った結果を生み出しているかどうかを判断するのに役立ちます。これらの指標を使用して、あるモデルが、あるグループに対して別のグループよりも好ましい結果をより多く提供する傾向があるかどうかを特定することができます。 Watsonx.governance 以下の公平性評価指標をサポートしています

表 3. 公平性評価指標の説明
メトリック	説明
平均絶対オッズ差	モニタリンググループと参照グループ間の偽陽性率と真陽性率の平均の差を比較する
平均オッズ差	モニタリンググループと参照グループにおける偽陽性率と偽陰性率の差を測定する
差別的影響	モニタリング対象グループの良好な結果の割合と、参照グループの良好な結果の割合を比較する
エラー率の差	貴社のモデルによって不正確にスコア付けされた取引の割合
偽のディスカバリー率の差	正の結果となった全取引に占める割合としての、誤って正と判定された取引の件数
偽陰性率の差	貴社のモデルによって正しく評価された取引が、誤って負として評価された割合
偽の除外率の差	否定的な結果となった全取引に占める割合としての、偽陰性取引の件数
偽陽性率の差	モデルによって正しくないスコアが付けられたネガティブな取引の割合。
影響スコア	好ましい結果を得るためにモニタリングされたグループが選択される割合と、好ましい結果を得るために参照グループが選択される割合を比較する。
統計パリティーの差異	モニタリングされたグループと参照グループの良好な結果の割合を比較する。

モデル健康モニター評価指標

モデルヘルスモニター評価基準は、モデルの動作とパフォーマンスを理解するのに役立ちます。デプロイメントがトランザクションを処理する効率性を判断することで、モデルの動作とパフォーマンスを理解することができます。モデルの健康状態評価のメトリクスは、本番環境での機械学習モデルの評価にデフォルトで有効になっています。 Watsonx.governance 以下のモデルヘルスモニター評価指標をサポートしています

表 12. モデルヘルスモニター評価指標の説明
メトリック	説明
ペイロード・サイズ	デプロイメントがスコアリングリクエストを処理する際に生成されるトランザクションレコードの合計、平均、最小、最大、中央値のペイロードサイズ（キロバイト（KB）単位）
レコード	スコアリングリクエスト全体で処理されるトランザクションレコードの合計数、平均数、最小数、最大数、中央値
評価要求	デプロイメントが受け取るスコアリングリクエストの数
ユーザー	デプロイメントにスコアリングリクエストを送信するユーザーの数

スループットとレイテンシ

モデルヘルスモニター評価では、スコアリングリクエストとトランザクションレコードをミリ秒（ms）単位で処理するのにかかる時間を追跡することで、レイテンシを計算します。スループットは、1秒あたりに処理されるスコアリングリクエスト数とトランザクション記録を追跡することで算出されます。

評価期間中のスループットとレイテンシを測定するために、以下の指標が算出されます

表 12. モデルヘルスモニターのスループットとレイテンシのメトリックの説明
メトリック	説明
APIの待ち時間	デプロイメントスコアリングリクエストを処理するのにかかった時間（ミリ秒単位）。
APIスループット	デプロイメントで1秒間に処理されたスコアリングリクエストの数

品質評価指標

品質評価は、モデルのパフォーマンスの良し悪しに基づいて、正しい結果を導くモデルの能力を測定するのに役立ちます。 Watsonx.governance 以下の品質評価指標をサポートしています

表 13. 品質評価指標の説明
メトリック	説明
正解性	モデル予測の正確さを、結果の総数における正しい結果の割合を計算することで測定します。
PR 曲線下面積	モデルが正しく正のクラスを特定し、すべての正のクラスを見つけられるバランスをどれだけうまく取れているかを測定します
ROC 曲線下面積	モデルがクラス間の違いをどれだけ正確に識別できるかを測定します。
ブライアースコア	予測確率と目標値の間の平均二乗誤差を測定する。
F1-Measure	評価指標適合率と再現率の調和平均
:NONE.	モデルが2つのクラスをどれだけうまく区別できるかを測定する
ラベルの傾き	ラベル分布の非対称性を測定する
対数損失	対数尤度の平均（信頼度）
マシューズ相関係数	真陽性、偽陽性、真陰性、偽陰性を考慮した2値分類および多値分類の精度
平均絶対誤差	モデル予測とターゲット値の絶対差の平均
平均絶対パーセント誤差	予測値と実際値の平均パーセンテージ誤差の差を測定する
平均二乗誤差	モデル予測値と目標値の差の二乗平均
ピアソンの相関係数	モデル予測値とターゲット値の間の線形関係を測定する。
精度	正のクラスの予測における正しい予測の割合
分散説明率	説明された分散とターゲット分散の比率。説明された差異とは、ターゲット差異と予測誤差の差異の間の差異です。
再呼び出し	正のクラスの正しい予測の割合
平均平方二乗誤差	モデル予測とターゲット値の差を二乗した平均の平方根
R 2 乗	予測誤差の目標分散と分散の差の比率
Spearman の相関係数	モデル予測値とターゲット値の関係における単調性を測定する。
調整平均絶対誤差率	予測値と実測値の差の割合誤差の対称平均を測定する
真陽性率	正のクラスの予測における正しい予測の割合
過重偽陽性率	正のクラスにおける誤った予測の割合
加重 F1 値	クラス確率に等しい重みを用いた F1-measure の加重平均
加重適合率	クラス確率に等しい重み付け精度の加重平均
加重再現率	クラス確率に等しい重み付けをした想起の加重平均