機械翻訳トピック英語版に切り替えることができます。

この資料の最も正確で最新のバージョンについては、英語 (オリジナル) バージョンを参照してください。 IBM は、自動 (機械) 翻訳されたコンテンツの使用による損害または損失に対して責任を負いません。

スペース内のデプロイメントの評価

最終更新: 2024年7月29日

スペース内のデプロイメントの評価

モデルのパフォーマンスに関する洞察を得るために、デプロイメント・スペースで watsonx.governance 評価を構成します。評価を構成するときに、評価結果を分析し、スペース内のトランザクション・レコードを直接モデル化することができます。

watsonx.governance は、パフォーマンスの測定とモデル予測の理解に役立つように、モデル・デプロイメントを評価します。モデル評価を構成すると、 watsonx.governance は、評価ごとに、検討可能なさまざまな洞察を提供するメトリックを生成します。また、 watsonx.governance は、評価中に処理されたトランザクションをログに記録して、モデル予測の決定方法を理解できるようにします。詳しくは、 Watson OpenScaleを参照してください。

watsonx.governance のインスタンスがプロビジョンされている場合は、オンライン・デプロイメントをシームレスに作成し、公平性、品質、ドリフト、および説明性についてデプロイメント結果をモニターすることができます。

スペース内のモデル・デプロイメントの評価

標準的なシナリオは、以下の順序に従います。

デプロイメント・スペースを作成し、 watsonx.governance インスタンスをそのスペースに関連付けて、すべてのモニター機能を有効にします。要件に応じて、スペースのタイプ (例えば、実動または実動前) を選択できます。
トレーニング済みの機械学習モデルと入力 (ペイロード) データをデプロイメント・スペースにプロモートし、モデルのオンライン・デプロイメントを作成します。
デプロイメントの「テスト」タブで、入力データを指定し、予測を取得します。
「評価」タブで、デプロイメントの品質、公平性、説明性をモニターするように評価を構成します。 Watson OpenScale がモデル、トレーニング・データ、ペイロード・データ、および評価結果を保管するためのリポジトリーに接続できるように、必要なモデルの詳細をすべて指定します。
公平性のモニターを構成して、モデルがバイアスのない結果を生成していることを確認します。公平性をモニターするフィールドを選択し、参照グループと比較してモニター対象グループの予測を測定するしきい値を設定します。例えば、モデルを評価して、性別に基づく偏りのない予測が提供されていることを確認できます。
「フィードバック・データ」と呼ばれるラベル付きテスト・データに基づいてモデルによって生成された正しい結果の数に基づいてモデル・パフォーマンスを判別するために、品質のモニターを構成します。メトリック値が許容範囲外である場合に追跡する品質しきい値を設定します。
デプロイメントが最新かつ一貫性のあるものになるように、ドリフトのモニターを構成します。特徴量のドリフトがモデルに与える影響を判別するには、特徴量の重要度を使用します。例えば、重要な特徴量の少量のドリフトは、あまり重要ではない特徴量の中で中程度の量のドリフトよりも、モデルに大きな影響を与える可能性があります。
デプロイメントの結果をモニターして説明可能性を確認し、モデルが予測を決定する原因となった要因を理解することができます。ニーズに最も適した説明方法を選択してください。例えば、詳細な説明のために SHAP (Shapley Additive EXplanations) メソッドを選択したり、より迅速な説明のために LIME (Local Interpretable Model-Agnostic 説明) メソッドを選択したりすることができます。
最後に、モデル評価を検査して、いくつかの入力に小さな変更を加えると別の決定が行われる領域を見つけることができます。シナリオをテストして、入力を変更することでモデルのパフォーマンスを改善できるかどうかを判別します。

以下のセクションでは、デプロイメント・スペースで watsonx.governance 評価を構成し、モデルの洞察を確認する方法について説明します。

スペース内のモデルを評価するための準備

watsonx.governance インスタンスに関連付けられているデータベースがない場合は、評価を実行する前にデータベースを関連付ける必要があります。データベースを関連付けるには、 「データベースが必要」 ダイアログ・ボックスで 「データベースの関連付け」 をクリックしてデータベースに接続する必要もあります。データベースを関連付けるには、プロジェクトおよび watsonx.governance インスタンスの 管理者 役割が割り当てられている必要があります。

watsonx.governance データベースとプロジェクトの関連付け

スペースでの Watson OpenScale 評価の構成

Watson OpenScale インスタンスを関連付けたら、デプロイメントを選択して 「評価」 タブと 「トランザクション」 タブを表示できます。これらのタブを使用して、評価を構成し、モデルの洞察を確認することができます。スペース内でモデル評価の構成を開始するには、 「 OpenScale 評価設定の構成」 を選択して、一連のガイド付きステップを提供するウィザードを開くことができます。

評価の構成を開始するための「評価」タブの表示ボタン

オンライン・デプロイメントは、デプロイメント・スペースでのみ評価できます。

モデルの詳細の指定

モデル評価を構成するには、モデルの詳細を指定して、 watsonx.governance がモデルのセットアップ方法を理解できるようにする必要があります。トレーニング・データとモデル出力に関する詳細を指定する必要があります。

モデルの詳細を指定して評価設定を構成します

詳しくは、「モデルの詳細の提供」を参照してください。

説明可能性の構成

watsonx.governance で説明可能性を構成して、トランザクションのモデルによって予測される結果に寄与する特徴量を明らかにし、どのような変更が異なる結果になるかを予測することができます。特定のモデル・トランザクションの要因の影響を分析するようにローカルの説明を構成し、モデルの結果に影響を与える一般的な要因を分析するようにグローバルの説明を構成することができます。

説明性設定の構成

詳しくは、説明性の構成を参照してください。

公平性評価の構成

公平性評価を構成して、モデルがさまざまなグループに対してバイアスのある結果を生成するかどうかを決定できます。公平性評価を構成するには、好ましい結果を表すことが期待される参照グループと、使用する公平性指標を指定できます。また、参照グループと比較する特徴量を選択して、バイアスの有無を評価することもできます。

公平性評価の構成

詳しくは、公平性評価の構成を参照してください。

品質評価の構成

品質評価を構成して、モデルがどの程度正確な結果を予測するかを理解できます。品質評価を構成するには、各メトリックのしきい値を指定して、モデル品質がいつ低下するかを watsonx.governance が識別できるようにする必要があります。

品質評価の構成

詳しくは、品質評価の構成を参照してください。

ドリフト v2 評価の構成

時間の経過に伴うデータの変化を測定するようにドリフト v2 評価を構成して、モデルの一貫性のある結果が得られるようにすることができます。ドリフト v2 評価を構成するには、 watsonx.governance がモデル出力の変化、予測の精度、および入力データの分布を識別できるようにするしきい値を設定する必要があります。 watsonx.governance が値の分布の変化を測定できるようにするには、重要な機能も選択する必要があります。

driftv2 評価の構成