精度評価指標の低下
精度の低下メトリックは、トレーニングデータと比較した実行時のモデルの精度の低下を推定します。
メトリックの詳細
ドロップイン精度は、時間の経過とともにモデルが結果を予測する精度を評価する指標です。
有効範囲 (Scope)
精度指標の低下は、機械学習モデルのみを評価します。
- AI 資産の種類:機械学習モデル
- 機械学習の問題タイプ :
- 2 項分類
- マルチクラス分類
スコアと価値
精度メトリックスコアの低下は、トレーニングデータでモデルが正しく評価できなかったトランザクションと同様のトランザクションが増加していることを示します。
値の範囲 : 0.0-1.0
評価プロセス
ドリフト・モニターの動作は、実動前環境と実動環境で異なります。
実稼働前環境では、ラベル付きテスト・データをアップロードすると、フィードバック・テーブルとペイロード・テーブルにデータが追加されます。 ラベル付きデータは、ペイロード・テーブルにアノテーションとして追加されます。 正確度は、ペイロード・テーブルのラベル付きデータ列と予測列を使用して計算されます。
本番環境では、モデルのトレーニングとテストに使用されたデータに基づいてドリフト検出モデルが作成されます。 例えば、テスト・データでモデルの正確度が 90% であった場合、10% のテスト・データについては誤った予測を示していることになります。 データポイントを受け入れ、そのデータポイントがモデルが不正確(10%)または正確(90%)に予測したデータに類似しているかどうかを予測する二値分類モデルが構築されます。
ドリフト検出モデルが作成された後、実行時に、クライアントモデルが受信するすべてのデータを使用して、このモデルが評価されます。 例えば、クライアントモデルが過去3時間で1000件のレコードを受信した場合、ドリフト検出モデルはそれらの同じ1000件のデータポイントで実行されます。 それらのレコードのうち、トレーニング時にモデルの予測が誤っていた 10% のレコードに類似しているレコード件数を計算します。 200 件のレコードが 10% に類似していれば、モデルの正確度は 80% になる可能性があることになります。 トレーニング時のモデルの正確度は 90% であったので、モデルの正確度には 10% のドリフトがあることになります。
精度指標の低下を計算するために、各取引はモデル予測が正確かどうかを推定するために分析されます。 モデルの予測が不正確な場合、トランザクションはドリフトとしてマークされます。 推定精度は、分析されたトランザクション総数に対するドリフトしていないトランザクションの割合として計算されます。 「基本正確度」は、テスト・データのモデルの正確度です。 精度のずれの程度は、基準精度と推定精度の差として算出されます。 ドリフトしたトランザクションはすべて計算され、次に、精度のドリフトに対する各特徴の寄与度の類似性に基づいてトランザクションがグループ化されます。 各クラスタにおいて、精度の低下に寄与した重要な特徴が推定され、その特徴の影響は、大きい、ある程度、小さいに分類されます。
次のステップ
ドリフトが検出された後にその影響を緩和するには、問題を修正した新しいバージョンのモデルを構築する必要があります。 そのための良い足掛かりとなるのが、ドリフトの理由として強調表示されているデータ・ポイントです。 ドリフトしたトランザクションを手動でラベル付けし、そのデータを使用してモデルを再学習させた後、新しいデータを予測モデルに導入します。
親トピック: 評価基準