資料の 英語版 に戻る

機能ドリフト評価指標

最終更新: 2025年2月26日
機能ドリフト評価指標

機能ドリフト評価基準は、重要な機能における値の分布の変化を測定します。

メトリックの詳細

Feature driftは、機械学習モデルにおけるデータ分布の変化を評価する v2 評価指標です。

範囲

機能ドリフトメトリックは、機械学習モデルのみを評価します。

AI 資産の種類:機械学習モデル

スコアと価値

機能ドリフト指標スコアは、重要な機能における値の分布の変化を示します。

  • 最高得点 : 0.0
  • 比率:
    • 0時:価値分布に変化なし
    • 0以上:価値分布の変化が増加

評価プロセス

連続値と離散値の確率分布を測定することで、カテゴリおよび数値の特徴についてドリフトが計算されます。 数値的特徴の離散値を特定するために、各特徴の離散値の総数と各特徴の値の総数を比較するために2進対数が使用されます。

計算

離散的な数値の特徴を特定するために、以下の2進対数式が使用されます

2進対数表記が表示されます

distinct_values_counttotal_count の2進対数の値よりも小さい場合、その特徴は離散的であると識別されます。

Jensen Shannon Distanceは、ある確率分布が2番目の確率分布とどの程度異なるかを測定する、正規化されたKullback-Leibler(KL)発散の形式です。 Jensen Shannon Distanceは対称的なスコアであり、常に有限の値を持つ。

2つの確率分布、ベースライン(B)と生産(P)の間のジェンセン・シャノンの距離を計算するには、以下の式を使用します

Jensen Shannonの距離公式が表示されます

重複係数は、2つの確率分布の交差部分の総面積を測定することで算出されます。 分布間の非類似性を測定するには、交差または重複領域を1から差し引いてドリフト量を算出します。

重複係数の算出には、以下の公式が使用されます

重なり係数式が表示されます

  • 𝑥は、 アクサンツルフは表示されます のドメイン全体にわたる等間隔のサンプルの集合であり、ベースラインと生産データの最小値の合計から最大値の合計までの範囲です。

  • d(x)の記号が表示されます は、2つの連続した𝑥サンプル間の差分です。

  • 式の説明 𝑥サンプルにおける生産データの密度関数値です。

  • 式の説明 𝑥サンプルにおけるベースラインデータの密度関数値です。

総変動距離は、次の式で示されるように、2つの確率分布、ベースライン(B)と生産(P)が同じトランザクションに割り当てる確率の最大差を測定します

確率分布式が表示されます

2つの分布が等しい場合、それらの間の総変動距離は0になります。

総変動距離の計算には、以下の式が使用されます

総変動距離の計算式が表示されます

  • 𝑥は、 アクサンツルフは表示されます のドメイン全体にわたる等間隔のサンプルの集合であり、ベースラインと生産データの最小値の合計から最大値の合計までの範囲です。

  • d(x)の記号が表示されます は、2つの連続した𝑥サンプル間の差分です。

  • 式の説明 𝑥サンプルにおける生産データの密度関数値です。

  • 式の説明 𝑥サンプルにおけるベースラインデータの密度関数値です。

式の説明 の分母は、生産データとベースラインデータの密度関数プロットの総面積を表します。 これらの合計は、ドメイン空間における積分の近似値であり、両方の項は1で、合計は

親トピック: 評価基準