出力ドリフト評価指標
出力ドリフト指標は、モデル信頼度分布の変化を測定します。
メトリックの詳細Copy link to section
出力ドリフトは、データ分布の変化を評価するドリフトの評価指標です。 v2
範囲Copy link to section
出力ドリフトメトリックは、機械学習モデルと生成型AI 資産を評価します。
AI 資産の種類:
- 機械学習モデル
- プロンプト・テンプレート
スコアと価値Copy link to section
出力ドリフトのメトリックスコアは、モデルをトレーニングした時点からモデルの出力が変化する量を表します。
- 最高得点 : 0.0
- 比率:
- 0時:モデル出力に変更なし
- 0以上:モデル出力の変化が増加
評価プロセスCopy link to section
回帰モデルの場合、出力ドリフトは、トレーニングデータとペイロードデータの予測分布の変化を測定することで算出されます。 分類モデルの場合、出力ドリフトは、トレーニングデータとペイロードデータのクラス確率の分布の変化を測定することで、各クラス確率について計算されます。 多分類モデルでは、加重平均を測定することで、出力ドリフトが各クラス確率ごとに集約されます。
計算Copy link to section
出力ドリフトの測定値を算出するために、以下の数式が使用されます
総変動距離は、次の式で示されるように、2つの確率分布、ベースライン(B)と生産(P)が同じトランザクションに割り当てる確率の最大差を測定します
2つの分布が等しい場合、それらの間の総変動距離は0になります。
総変動距離の計算には、以下の式が使用されます
𝑥は、
のドメイン全体にわたる等間隔のサンプルの集合であり、ベースラインと生産データの最小値の合計から最大値の合計までの範囲です。
は、2つの連続した𝑥サンプル間の差分です。
𝑥サンプルにおける生産データの密度関数値です。
𝑥サンプルにおけるベースラインデータの密度関数値です。
の分母は、生産データとベースラインデータの密度関数プロットの総面積を表します。 これらの合計は、ドメイン空間における積分の近似値であり、両方の項は1、合計は2であるべきです。
重複係数は、2つの確率分布の交差部分の総面積を測定することで算出されます。 分布間の非類似性を測定するには、交差または重複領域を1から減算してドリフト量を算出します。 重複係数の算出には、以下の公式が使用されます
𝑥は、
のドメイン全体にわたる等間隔のサンプルの集合であり、ベースラインと生産データの最小値の合計から最大値の合計までの範囲です。
は、2つの連続した𝑥サンプル間の差分です。
𝑥サンプルにおける生産データの密度関数値です。
𝑥サンプルにおけるベースラインデータの密度関数値です。
親トピック: 評価基準