モデルのパフォーマンスに関する洞察を得るために、デプロイメント・スペースで watsonx.governance 評価を構成します。 評価を構成するときに、評価結果を分析し、スペース内のトランザクション・レコードを直接モデル化することができます。
watsonx.governance は、パフォーマンスの測定とモデル予測の理解に役立つように、モデル・デプロイメントを評価します。 モデル評価を構成すると、 watsonx.governance は、評価ごとに、検討可能なさまざまな洞察を提供するメトリックを生成します。 また、 watsonx.governance は、評価中に処理されたトランザクションをログに記録して、モデル予測の決定方法を理解できるようにします。 詳しくは、 Watson OpenScaleを参照してください。
watsonx.governance のインスタンスがプロビジョンされている場合は、オンライン・デプロイメントをシームレスに作成し、公平性、品質、ドリフト、および説明性についてデプロイメント結果をモニターすることができます。
標準的なシナリオは、以下の順序に従います。
- デプロイメント・スペースを作成し、 watsonx.governance インスタンスをそのスペースに関連付けて、すべてのモニター機能を有効にします。 要件に応じて、スペースのタイプ (例えば、実動または実動前) を選択できます。
- トレーニング済みの機械学習モデルと入力 (ペイロード) データをデプロイメント・スペースにプロモートし、モデルのオンライン・デプロイメントを作成します。
- デプロイメントの「テスト」タブで、入力データを指定し、予測を取得します。
- 「評価」タブで、デプロイメントの品質、公平性、説明性をモニターするように評価を構成します。 Watson OpenScale がモデル、トレーニング・データ、ペイロード・データ、および評価結果を保管するためのリポジトリーに接続できるように、必要なモデルの詳細をすべて指定します。
- 公平性のモニターを構成して、モデルがバイアスのない結果を生成していることを確認します。 公平性をモニターするフィールドを選択し、参照グループと比較してモニター対象グループの予測を測定するしきい値を設定します。 例えば、モデルを評価して、性別に基づく偏りのない予測が提供されていることを確認できます。
- 「フィードバック・データ」と呼ばれるラベル付きテスト・データに基づいてモデルによって生成された正しい結果の数に基づいてモデル・パフォーマンスを判別するために、品質のモニターを構成します。 メトリック値が許容範囲外である場合に追跡する品質しきい値を設定します。
- デプロイメントが最新かつ一貫性のあるものになるように、ドリフトのモニターを構成します。 特徴量のドリフトがモデルに与える影響を判別するには、特徴量の重要度を使用します。 例えば、重要な特徴量の少量のドリフトは、あまり重要ではない特徴量の中で中程度の量のドリフトよりも、モデルに大きな影響を与える可能性があります。
- デプロイメントの結果をモニターして説明可能性を確認し、モデルが予測を決定する原因となった要因を理解することができます。 ニーズに最も適した説明方法を選択してください。 例えば、詳細な説明のために SHAP (Shapley Additive EXplanations) メソッドを選択したり、より迅速な説明のために LIME (Local Interpretable Model-Agnostic 説明) メソッドを選択したりすることができます。
- 最後に、モデル評価を検査して、いくつかの入力に小さな変更を加えると別の決定が行われる領域を見つけることができます。 シナリオをテストして、入力を変更することでモデルのパフォーマンスを改善できるかどうかを判別します。
以下のセクションでは、デプロイメント・スペースで watsonx.governance 評価を構成し、モデルの洞察を確認する方法について説明します。
スペース内のモデルを評価するための準備
watsonx.governance インスタンスに関連付けられているデータベースがない場合は、評価を実行する前にデータベースを関連付ける必要があります。 データベースを関連付けるには、 「データベースが必要」 ダイアログ・ボックスで 「データベースの関連付け」 をクリックしてデータベースに接続する必要もあります。 データベースを関連付けるには、プロジェクトおよび watsonx.governance インスタンスの 管理者 役割が割り当てられている必要があります。
スペースでの Watson OpenScale 評価の構成
Watson OpenScale インスタンスを関連付けたら、デプロイメントを選択して 「評価」 タブと 「トランザクション」 タブを表示できます。これらのタブを使用して、評価を構成し、モデルの洞察を確認することができます。 スペース内でモデル評価の構成を開始するには、 「 OpenScale 評価設定の構成」 を選択して、一連のガイド付きステップを提供するウィザードを開くことができます。
オンライン・デプロイメントは、デプロイメント・スペースでのみ評価できます。
モデルの詳細の指定
モデル評価を構成するには、モデルの詳細を指定して、 watsonx.governance がモデルのセットアップ方法を理解できるようにする必要があります。 トレーニング・データとモデル出力に関する詳細を指定する必要があります。
詳しくは、「 モデルの詳細の提供」を参照してください。
説明可能性の構成
watsonx.governance で説明可能性を構成して、トランザクションのモデルによって予測される結果に寄与する特徴量を明らかにし、どのような変更が異なる結果になるかを予測することができます。 特定のモデル・トランザクションの要因の影響を分析するようにローカルの説明を構成し、モデルの結果に影響を与える一般的な要因を分析するようにグローバルの説明を構成することができます。
詳しくは、 説明性の構成を参照してください。
公平性評価の構成
公平性評価を構成して、モデルがさまざまなグループに対してバイアスのある結果を生成するかどうかを決定できます。 公平性評価を構成するには、好ましい結果を表すことが期待される参照グループと、使用する公平性指標を指定できます。 また、参照グループと比較する特徴量を選択して、バイアスの有無を評価することもできます。
詳しくは、 公平性評価の構成を参照してください。
品質評価の構成
品質評価を構成して、モデルがどの程度正確な結果を予測するかを理解できます。 品質評価を構成するには、各メトリックのしきい値を指定して、モデル品質がいつ低下するかを watsonx.governance が識別できるようにする必要があります。
詳しくは、 品質評価の構成を参照してください。
ドリフト v2 評価の構成
時間の経過に伴うデータの変化を測定するようにドリフト v2 評価を構成して、モデルの一貫性のある結果が得られるようにすることができます。 ドリフト v2 評価を構成するには、 watsonx.governance がモデル出力の変化、予測の精度、および入力データの分布を識別できるようにするしきい値を設定する必要があります。 watsonx.governance が値の分布の変化を測定できるようにするには、重要な機能も選択する必要があります。
詳しくは、 ドリフト v2 評価の構成を参照してください。
ドリフト評価の構成
ドリフト評価を構成して、 watsonx.governance がモデルの正確度とデータ整合性の低下を検出できるようにすることができます。 ドリフト評価を構成するには、 watsonx.governance がモデルの正確度と整合性のベースラインを確立できるようにしきい値を設定する必要があります。
詳しくは、 ドリフト評価の構成を参照してください。
評価の実行
評価を構成した後、ウィザードを閉じて評価を実行できます。 評価を実行するには、 「評価」 タブの 「アクション」 メニューで 「今すぐ評価」 を選択して、 モデル・トランザクションを送信する必要があります。
評価結果の確認
「評価」 タブで評価結果を分析して、モデルのパフォーマンスに関する洞察を得ることができます。 評価結果を分析するには、評価セクションの矢印 をクリックするか、 「アクション」 メニューを使用してモデルに関する詳細を表示します。
詳しくは、 評価結果の確認を参照してください。
モデル・トランザクションの検討
「トランザクション」 タブでモデル・トランザクションを分析して、モデルがどのように結果を予測し、どのような変化がさまざまな結果を引き起こす可能性があるかを予測することができます。 トランザクションを分析するために、モデル予測の決定方法に関する詳細を示す説明を表示することを選択できます。
詳しくは、 モデル・トランザクションの説明を参照してください。
親トピック: 予測デプロイメントの管理