ドリフト評価は、モデルの精度とデータの一貫性の低下を検出する。 モデルの正確度が低下するのは、モデルがトレーニング・データで正しく評価しなかったトランザクションに類似したトランザクションが増加した場合です。
ドリフト評価の例
ドリフトを設定する場合は、許容可能な精度のドリフト幅を指定する必要があります。 ドリフトは、トレーニング時のモデル正確度と比較して正確度の低下として測定されます。 例えば、トレーニング時のモデルの正確度が 90% で、実行時のモデルの推定正確度が 80% である場合、モデルは 10% ドリフトしたと見なされます。 ユース・ケースに応じて、モデル所有者はさまざまな量のドリフトを許容できます。 各モデル評価に対して、精度のドリフト幅を指定することができます。 モデルのドリフトが指定されたしきい値を下回ると、アラートが生成されます。
データが500MBを超えない場合は、オンラインでモデルをトレーニングすることができます。 そうでない場合は、ノートブックを使用してモデルを訓練する必要があります。
始める前に
ドリフト検出を構成してからでないと、モデルを分析できません。 ユーザー・インターフェースを使用するか、ノートブック内でコードを実行することで、ドリフト検出モデルをオンラインでトレーニングできます。 ドリフト構成は、構造化データに対してのみサポートされます。 分類モデルはデータ・ドリフトと正確度ドリフトの両方をサポートし、回帰モデルはデータ・ドリフトのみをサポートします。
ドリフト・モニターを構成するための要件は以下のとおりです。
- Machine Learningプロバイダはwatsonx.aiRuntime でなければなりません
- トレーニング・データのサイズは 500MB 未満でなければなりません
- トレーニングデータは、IBM Cloud Object StorageDb22にホストされている必要がある。
トレーニング・データをアップロードし、ドリフト検出の 「モデルの詳細」 を設定するには、以下のようにします。
- 「トレーニング・データのアップロード (Upload training data)」 をクリックし、ラベル付きデータを含むファイルをアップロードします。
詳しくは、「 モデルの詳細の提供」を参照してください。
このプロセスを通じて、あなたのモデルは分析され、最も論理的な結果に基づいて推奨がなされます。 ドリフト検出を適切に機能させるには、トレーニング・データ内の予測列のデータ・タイプがペイロード・データ内の同じ列のデータ・タイプと一致している必要があります。 一致するストリング・タイプまたは数値タイプを予測列とラベル列に割り当ててください。 データ・タイプを確認するには、「Model details」>「Model output details」>「編集」をクリックします。 こうした選択により、以下の構成手順のための正確な情報を取得できます。 何らかの理由でデータ・タイプを変更する必要がある場合は、変更を有効にするために評価を再デプロイする必要があります。
「ドリフト」タブの一連のページで、以下の情報を指定する必要があります。
アラートのしきい値
分類タイプのモデルにのみ必要:モデルの精度の変化の度合いをトレーニング時の精度と比較する。 時間の経過に伴う変化がどの程度なら許容範囲と言えるかを示すアラートしきい値を設定してください (5% が最低ライン)。
サンプル・サイズ
評価データ・セットで最小限の数のレコードが得られるまでドリフトの測定を行わないようにするために、最小サンプル・サイズを設定します。 この設定により、サンプル・サイズが小さすぎて結果にゆがみが生じることがなくなります。 ドリフト検査が実行されるたびに、最小サンプル・サイズを使用して計算対象のレコードの数が決定されます。
ドリフト評価の構成手順
IBM watsonx.aiRuntime を使用している場合は、ドリフト検出を設定できます。
構成プロセスを開始するには、 「ドリフト」 タブの 「ドリフト・モデル」 ボックスで、 「編集」 アイコンをクリックします。
トレーニングオプションを選択し、画面の指示に従って必要な情報を入力してください。 終了したら、選択内容の要約が確認のために表示されます。 変更が必要な場合は、該当するセクションの「編集」アイコンをクリックします。 それ以外の場合は、作業内容を保存します。
再訓練なしでドリフトを構成するステップ
追加の処理を行わずにパラメーターを更新するようにドリフト・モデルをリトレーニングせずにドリフト評価を再構成します。 最小サンプル・サイズとしきい値を更新すると、処理コストを増やすことなく、現在の訓練済みのモデルで追加のデータを生成できます。 安定した基礎データで、しきい値をさまざまに変えてドリフト絶対値を調べたい場合に、集中的な CPU の使用を回避する 1 つの方法です。
注: ドリフト・モデルがリトレーニングを必要とするのは、トレーニング・データまたはスキーマが変更された場合のみです。
構成プロセスを開始するには、 「ドリフト」 タブの 「ドリフトしきい値」 ボックスまたは 「サンプル・サイズ」 ボックスで、 「編集」 をクリックします。 現在の設定を更新して保存します。
ノートブックを使用してドリフトを構成するステップ
以下の状況では、ノートブックを使用してドリフトを構成できます。
- ドリフト評価を設定するために、トレーニングデータを共有したくない
- ドリフト評価でサポートされている2つのトレーニング・データ・ロケーションであるDb2またはIBM Cloud Object Storage上のトレーニング・データを共有する手段はありません。
Db2 または IBM Cloud Object Storage に訓練データが保管されていない場合は、この方法が便利です。 ノートブックを使用して、訓練データをデータ・フレームに読み込む必要があります。 ダウンロードできる専用ノートブックは、ドリフト評価を設定するためにアップロードできる専用出力を作成する。
ドリフト検出モデルを生成するには、 ibm-wos-utils>=5.0.1.0
パッケージおよび sci-kit learn バージョン 1.3.2をインストールするセルを実行します。 モデルを作成するには、scikit-learn バージョン 1.3.2 が必要です。
サンプルノートブックを使用して、ドリフト検出モデルを生成するノートブックを作成します。 ドリフト検出モデルが .tar.gz ファイルに変換されます。
構成プロセスを開始するには、 「ドリフト」 タブの 「ドリフト・モデル」 ボックスで、 「編集」 をクリックします。 「Train in a data science notebook」オプションを使用します。 圧縮されたドリフト検出モデルをドロップ・ゾーンにドラッグできます。
プロンプトに従って必要な情報を入力します。 終了したら、選択内容の要約が確認のために表示されます。 変更する必要がある場合は、そのセクションの 「編集」 をクリックします。 それ以外の場合は、作業内容を保存します。
もっと見る
親トピック: モデル評価の構成