ドリフトの構成 v2 評価
ドリフトv2の評価を設定することで、経時的なデータの変化を測定し、モデルの一貫した結果を確認することができます。 ドリフトv2評価は、モデル出力の変化、予測精度、入力データの分布を確認するために使用します。
以下のセクションでは、ドリフト v2 評価を構成する方法について説明します。
機械学習モデルのdriftv2評価の設定Copy link to section
モデル評価の準備時にペイロードデータを記録しておけば、機械学習モデルに対してドリフトv2評価を設定し、データの変化がモデルの結果にどのように影響するかを理解するのに役立ちます。
ドリフト・アーカイブの計算Copy link to section
モデルの特徴のデータ分布を決定するために、トレーニングデータの分析に使用する方法を選択する必要があります。 トレーニングデータを接続し、そのサイズが500MB以下であれば、driftv2アーカイブを計算することができます。
トレーニングデータを接続しない場合、またはデータのサイズが500MBを超える場合は、ノートブックでdriftv2アーカイブを計算することを選択する必要があります。 また、画像や テキストモデルを評価したい場合は、ノートブックでdriftv2アーカイブを計算する必要があります。
スコアリングやdriftv2アーカイブの計算に使用するトレーニングデータの最大サンプルサイズを設定することで、トレーニングデータのサイズの制限を指定することができます。 non-watsonx.aiRuntime 以外のデプロイメントでは、driftv2アーカイブの計算には、モデルのスコアリング エンドポイントに対するトレーニング データのスコアリングに関連するコストがかかります。
ドリフトしきい値の設定Copy link to section
評価結果の問題を特定するために、各指標にしきい値を設定する必要があります。 設定した値により、メトリック・スコアがしきい値に違反した場合に表示されるアラートが 「洞察」ダッシュボード に作成されます。 0 から 1 の範囲の値を設定する必要があります。 違反を回避するには、メトリック・スコアをしきい値より小さくする必要があります。
重要なフィーチャーを選択するCopy link to section
表形式モデルの場合のみ、フィーチャーのドリフトがモデルに与える影響を判断するために、フィーチャーの重要度が計算されます。 フィーチャーの重要度を計算するには、モデルから、モデルの結果に最も大きな影響を与える重要なフィーチャーと最も重要なフィーチャーを選択します。
SHAPの説明を設定すると、グローバルな説明を使って重要な機能が自動的に検出される。
JSON ファイルをアップロードすることで、重要な機能のリストをアップロードすることもできます。 JSONファイルをアップロードするために使用できるサンプルスニペットが提供されています。 詳しくは、 機能の重要度のスニペットを参照してください。
サンプル・サイズの設定Copy link to section
サンプルサイズは、評価中に評価されるトランザクション数をどのように処理するかを理解するために使用される。 評価したいトランザクションの最低数を示す最小サンプル・サイズを設定する必要があります。 また、評価したいトランザクションの最大数を示す最大サンプルサイズを設定することもできます。
生成AIモデルのためのドリフトv2評価の設定Copy link to section
プロンプト・テンプレートを評価すると、以下のタスク・タイプのドリフト v2 評価結果の要約を確認できます。
- テキストの要約
- テキストの分類
- コンテンツの生成
- エンティティー抽出
- 質問への回答
- 取得拡張世代 (RAG)
ドリフトしきい値の設定Copy link to section
独自の設定でドリフト v2 評価を構成するために、各メトリックの最小サンプル・サイズと最大サンプル・サイズを設定できます。 最小サンプル・サイズまたは最大サンプル・サイズは、評価するモデル・トランザクションの最小数または最大数を示します。
また、ベースライン・データを構成したり、各メトリックのしきい値を設定したりすることもできます。 しきい値は、評価の要約ページでアラートを作成します。このアラートは、評価指標スコアがしきい値に違反した場合に表示されます。 0 から 1 の範囲の値を設定する必要があります。 違反を回避するには、メトリック・スコアをしきい値より小さくする必要があります。
ドリフト・アーカイブの計算Copy link to section
Watsonx.governance は、ペイロード・レコードを使用して、ドリフト v2 評価のベースラインを確立します。 ベースライン・データとして計算するレコード数を構成する必要があります。 ノートブック を使用して、評価を構成するためのドリフト v2 ベースライン・データ・アーカイブを生成できます。
埋め込みを計算するCopy link to section
エンベッディング・ドリフト・メトリクスを計算するには、テスト・データとともにエンベッディングを提供する必要があります。 notebooksを使えば、エンベッディングを生成し、永続化することができます。
親トピック :AIモデルの評価