コサイン距離
コサイン距離は、埋め込みベクトル間の差を測定する。 余弦距離の測定には、次の式が使われる:
余弦距離の範囲は、同一のベクトルを示す0から、ベクトル間に相関がないことを示す1、正反対のベクトルを示す2の間である。
ユークリッド距離
ユークリッド距離は、ユークリッド空間における埋め込みベクトル間の最短距離である。 ユークリッド距離の測定には次の式が使われる:
ユークリッド距離の範囲は、完全に同一のベクトルを示す0から無限大の間である。 しかし、単位長さに正規化されたベクトルでは、ユークリッド距離の最大値はとなる。
ドリフト v2 評価を構成して、時間の経過に伴うデータの変化を測定し、モデルの結果の一貫性を確保することができます。 ドリフト v2 評価を使用して、モデル出力の変化、予測の精度、および入力データの分布を特定します。
以下のセクションでは、ドリフト v2 評価を構成する方法について説明します。
ドリフト v2 評価の構成
モデル評価の準備の際にペイロードデータを記録しておけば、ドリフトv2評価を設定することで、データの変更がモデルの結果にどのように影響するかを把握することができます。
ドリフト・アーカイブの計算
モデルの特徴のデータ分布を決定するために、トレーニングデータの分析に使用する方法を選択する必要があります。 トレーニングデータを接続し、そのサイズが500MB以下であれば、driftv2アーカイブを計算することができます。
トレーニングデータを接続しない場合、またはデータのサイズが500MBを超える場合は、ノートブックでdriftv2アーカイブを計算することを選択する必要があります。 また、画像や テキストモデルを評価したい場合は、ノートブックでdriftv2アーカイブを計算する必要があります。
スコアリングやdriftv2アーカイブの計算に使用するトレーニングデータの最大サンプルサイズを設定することで、トレーニングデータのサイズの制限を指定することができます。 non-watsonx.aiRuntime 以外のデプロイメントでは、driftv2アーカイブの計算には、モデルのスコアリング エンドポイントに対するトレーニング データのスコアリングに関連するコストがかかります。
ドリフトしきい値の設定
評価結果の問題を特定するために、各指標にしきい値を設定する必要があります。 設定した値により、メトリック・スコアがしきい値に違反した場合に表示されるアラートが 「洞察」ダッシュボード に作成されます。 0 から 1 の範囲の値を設定する必要があります。 違反を回避するには、メトリック・スコアをしきい値より小さくする必要があります。
重要なフィーチャーを選択する
表形式モデルの場合のみ、フィーチャーの重要度が計算され、フィーチャーのドリフトがモデルに与える影響を判断します。 フィーチャーの重要度を計算するには、モデルから、モデルの結果に最も大きな影響を与える重要なフィーチャーと最も重要なフィーチャーを選択します。
SHAPの説明を設定すると、グローバルな説明を使って重要な機能が自動的に検出される。
JSON ファイルをアップロードすることで、重要な機能のリストをアップロードすることもできます。 JSONファイルをアップロードするために使用できるサンプルスニペットが提供されています。 詳しくは、 機能の重要度のスニペットを参照してください。
サンプル・サイズの設定
サンプルサイズは、評価中に評価されるトランザクション数を処理するために提供される。 評価したいトランザクションの最低数を示す最小サンプル・サイズを設定する必要があります。 また、評価したいトランザクションの最大数を示す最大サンプルサイズを設定することもできます。
サポートされるドリフト v2 メトリック
ドリフトv2の評価を有効にすると、評価するモデルのタイプに応じたメトリクスで評価結果のサマリーを表示できます。
ドリフトv2の評価結果は、Insightsダッシュボードで確認することができます。 詳細については、ドリフトv2の結果を確認するを参照。
ドリフト v2 評価では、以下の指標がサポートされます。
出力ドリフト
出力ドリフトは、モデルの信頼度分布の変化を測定する。
仕組み
モデルをトレーニングした時点から、モデルの出力がどれだけ変化したかを測定します。 回帰モデルの場合、出力ドリフトは、訓練データとペイロードデータにおける予測値の分布の変化を測定することによって計算される。 分類モデルの場合、出力ドリフトは、訓練データとペイロードデータにおけるクラス確率の分布の変化を測定することにより、各クラス確率について計算される。 多クラス分類モデルの場合、出力ドリフトは加重平均を測定することにより、各クラス確率について集約される。計算
出力ドリフトの計算には以下の公式を使用する:
モデル品質ドリフト
モデル品質ドリフトは、推定された実行時精度とトレーニング精度を比較し、精度の低下を測定する。
- 動作方法:
ドリフト検出モデルは、ドリフトv2評価の設定時にペイロードデータを処理し、グランドトゥルースなしでモデルが正確な予測を生成するかどうかを予測するために構築されます。 ドリフト検出モデルは、モデルからの入力特徴量およびクラス確率を使用して、独自の入力特徴量を作成します。
- 計算を行います。
モデルの品質ドリフトを計算するには、以下の式を使用する:
モデルの精度は、学習データにおいて正しく予測されたトランザクションの割合を測定することにより、base_accuracy
として計算されます。 評価中に、トランザクションがドリフト検出モデルに対してスコアリングされ、モデルによって正しく予測される可能性があるトランザクションの量が測定されます。 これらのトランザクションは、predicted_accuracy
を計算するために処理されたトランザクションの総数と比較される。 predicted_accuracy
base_accuracy
より小さい場合、モデルの品質ドリフトスコアが生成される。
フィーチャー・ドリフト
特徴ドリフトは、重要な特徴の値分布の変化を測定する。
- 動作方法:
ドリフトは、連続値および離散値の確率分布を測定することにより、カテゴリーおよび数値の特徴について計算される。 数値特徴の離散値を識別するために、各特徴の明確な値の数と各特徴の値の総数を比較するために、二項対数が使用される。 離散的な数値特徴を識別するために、以下の 2 項対数式を使用する:
distinct_values_count
が total_count
の 2 進対数より小さい場合、特徴量は離散として識別されます。
- 計算を行います。
フィーチャードリフトを計算するには、以下の式を使用する:
ドリフト v2 評価指標の計算には、以下の数式が使用されます。
全変動距離
全変動距離は、次の式に示すように、2 つの確率分布 (ベースライン (B) と生産 (P)) が同じトランザクションに割り当てる確率の最大差を測定します。
2 つの分布が等しい場合、それらの間の全変動距離は 0 になります。
合計変動距離を計算するには、以下の式を使用します。
↪Ll_165 は、 の領域にまたがる一連の等距離サンプルであり、ベースラインと生産データの組み合わせの最小値から、ベースラインと生産データの組み合わせの最大値までの範囲である。
は、連続する2つの𝑥サンプル間の差である。
はǔ標本における生産データの密度関数の値である。
は、ǔサンプルにおけるベースラインデータの密度関数の値である。
分母は、生産データとベースラインデータの密度関数プロット下の総面積を表す。 これらの合計は、領域空間上の統合の近似値であり、これらの項は両方とも 1 で、合計は 2 でなければなりません。
オーバーラップ係数
オーバーラップ係数は、2 つの確率分布間の交点の合計面積を測定することによって計算されます。 分布間の非類似度を測定するために、1 から交点またはオーバーラップ領域を減算してドリフトの量を計算します。 オーバーラップ係数の計算には、以下の式が使用されます。
↪Ll_165 は、 の領域にまたがる一連の等距離サンプルであり、ベースラインと生産データの組み合わせの最小値から、ベースラインと生産データの組み合わせの最大値までの範囲である。
は、連続する2つの𝑥サンプル間の差である。
はǔ標本における生産データの密度関数の値である。
は、ǔサンプルにおけるベースラインデータの密度関数の値である。
ジェンセン・シャノン距離
Jensen Shannon Distance は、1 つの確率分布が 2 番目の確率分布とどの程度異なるかを測定する Kullback-Leibler (KL) Divergence の正規化された形式です。 Jensen Shannon Distance は対称スコアであり、常に有限値を持ちます。
以下の式は、ベースライン (B) と生産 (P) の 2 つの確率分布の Jensen Shannon 距離を計算するために使用されます。
はKL発散である。
親トピック: モデル評価の構成