モデル評価の構成

最終更新: 2024年10月25日

モデル評価の構成

モデルのパフォーマンスに関する洞察を得るために、評価を設定することができます。

以下のタイプの評価を設定できる：

品質
ラベル付きテスト・データと一致する正しい結果をモデルがどの程度正確に予測するかを評価します。
公平性
あるグループに対して別のグループよりも好ましい結果を提供するバイアスのある結果をモデルが生成するかどうかを評価します。
ドリフト
最近の取引とトレーニングデータを比較することで、モデルの精度とデータの一貫性がどのように変化するかを評価します。
Drift v2
モデル出力の変化、予測の正確度、および入力データの分布を評価します。
モデルの正常性
モデル・デプロイメントによるトランザクションの処理効率を評価します。
生成AI品質のみ
foundation modelがどの程度タスクを実行するかを測定します

従来の機械学習モデルを評価する場合、カスタム評価とメトリックを作成して、モデルのパフォーマンスについてより多様な洞察を生成することもできます。

評価ごとに、モデルのパフォーマンスに関する洞察を得るために分析できるメトリックが生成されます。

評価を設定する際、以下のデフォルトのスケジュール間隔で評価を継続的に実行することを選択できます：

評価	オンライン購読のデフォルト・スケジュール	一括購読のデフォルトスケジュール
品質	1 時間	1 週間
フェアネス	1 時間	1 週間
ドリフト	3 時間	1 週間
ドリフト v2	1 日	該当なし
説明可能性	1 週間	1 週間
モデルの正常性	1 時間	該当なし
生成 AI の品質	1 時間	該当なし

親トピック: Watson OpenScale

トピックは役に立ちましたか?

0/1000