クイック・スタート: 機械学習モデルの評価

資料の英語版に戻る

最終更新: 2024年11月28日

クイック・スタート: 機械学習モデルの評価

このチュートリアルでは、どの申込者が住宅ローンに適格かを予測するモデルを評価する方法を学習します。モデルの品質、公平性、および説明可能性を評価する必要があります。

必須のサービス: watsonx.aiランタイム; watsonx.aiスタジオ; Watson OpenScale

基本的なワークフローには、以下のタスクが含まれます：

プロジェクトを開きます。プロジェクトは、データやモデルを操作するために他のユーザーとコラボレーションできる場所です。
モデルを作成します。以下のいずれかの方法を使用して、モデルを作成できます。
- Jupyterノートブックを作成し、Pythonコードを追加します。
- AutoAI エクスペリメントを作成します。
モデルをデプロイします。
以下のいずれかの方法を使用して、 Watson OpenScale モニターを構成します。
- Jupyter ノートブックを作成します。
- UI を使用して、デプロイメントを Watson OpenScale ダッシュボードに追加します。

Watson OpenScale について読む

Watson OpenScale は、AI モデルからの結果を追跡および測定し、モデルが作成された場所や実行されている場所に関係なく、それらの結果が公平かつ説明可能で、準拠していることを確認するのに役立ちます。また、Watson OpenScale は、AI モデルを実稼働環境で使用する場合に、正確度のドリフトを検出して修正することができます。

Watson OpenScaleの詳細を読む

機械学習モデルの評価に関する動画を見る

ビデオを見るこのチュートリアルのステップをプレビューするには、このビデオをご覧ください。ビデオに表示されるユーザー・インターフェースには若干の違いがある可能性があります。このビデオは、作成されたチュートリアルのコンパニオンとなることを目的としています。

このビデオは、この資料の概念とタスクを学習するための視覚的な方法を提供します。

機械学習モデルの評価に関するチュートリアルを試す

このチュートリアルでは、以下のタスクを実行します：

タスク 1: サンプル・プロジェクトの作成
タスク 2: モデルのデプロイ
作業 3: ノートブックを実行してモニターをセットアップする
タスク 4: モデルの評価
タスク 5: 品質についてモデル・モニターを監視する
作業 6: 公平性についてモデル・モニターを監視する
作業 7: ドリフトのモデル・モニターを監視する
作業 8: 説明可能性についてモデル・モニターを監視する

このチュートリアルを完了するためのヒント

このチュートリアルを正常に完了するためのヒントを以下に示します。

ビデオ・ピクチャー・イン・ピクチャーの使用

ヒント: ビデオを開始します。チュートリアルをスクロールすると、ビデオはピクチャー・イン・ピクチャー・モードに移動します。ピクチャー・イン・ピクチャーを最適に使用するために、ビデオの目次を閉じます。ピクチャー・イン・ピクチャー・モードを使用すると、このチュートリアルのタスクを実行する際にビデオに従うことができます。追跡する各タスクのタイム・スタンプをクリックします。

以下のアニメーション・イメージは、ビデオ・ピクチャー・イン・ピクチャーおよび目次機能の使用方法を示しています。

ピクチャー・イン・ピクチャーおよび章の使用方法

コミュニティーでのヘルプの利用

このチュートリアルでヘルプが必要な場合は、Cloud Pak for DataCommunityディスカッションフォーラムで質問したり、回答を見つけることができます。

ブラウザー・ウィンドウのセットアップ

このチュートリアルを最適に実行するには、1 つのブラウザー・ウィンドウで Cloud Pak for Data を開き、このチュートリアル・ページを別のブラウザー・ウィンドウで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。 2 つのブラウザー・ウィンドウを横並びに配置して、見やすくすることを検討してください。

横並びのチュートリアルと UI

ヒント: ユーザー・インターフェースでこのチュートリアルを実行しているときにガイド・ツアーが表示された場合は、 「後で実行することもあります」をクリックします。

タスク 1: サンプル・プロジェクトの作成

チュートリアル・ビデオのプレビューこのタスクをプレビューするには、00:06から始まるビデオを見てください。

このチュートリアルでは、機械学習モデルとノートブックを含むサンプル・プロジェクトを使用して、モニターを構成します。サンプルに基づいてプロジェクトを作成するには、以下の手順を実行します。

Resource hub のEvaluate an ML model sample projectにアクセスします。
「プロジェクトの作成」をクリックします。
プロジェクトを Cloud Object Storage インスタンスに関連付けるように求められたら、リストから Cloud Object Storage インスタンスを選択してください。
「作成」 をクリックします。
プロジェクトのインポートが完了するまで待ってから、 「新規プロジェクトの表示」 をクリックして、プロジェクトと資産が正常に作成されたことを確認します。
「アセット」 タブをクリックして、サンプル・プロジェクト内のアセットを表示します。

進捗状況を確認する

以下の画像は、サンプル・プロジェクトを示しています。これで、チュートリアルを開始する準備ができました。

タスク 2: モデルのデプロイ

モデルをデプロイする前に、モデルを新しいデプロイメント・スペースにプロモートする必要があります。デプロイメント・スペースは、入力データや環境などのサポート・リソースを編成したり、予測やソリューションを生成するためのモデルや機能をデプロイしたり、デプロイメントの詳細を表示または編集したりするのに役立ちます。

タスク 2a: デプロイメント・スペースへのモデルのプロモート

チュートリアル・ビデオのプレビューこのタスクをプレビューするには、00:49から始まるビデオを見てください。

以下のステップに従って、モデルを新規デプロイメント・スペースにプロモートします。

「資産」 タブで、 「住宅ローン承認予測モデル」 をクリックしてモデルを表示します。
モデルページで、配置スペースへのプロモートのアイコン「」をクリックします。
ターゲット・スペースの場合は、 新規デプロイメント・スペースの作成を選択してください。
1. デプロイメントスペース名には、先頭や末尾にスペースを入れずに、表示されている通りの名前をコピーして貼り付けます：Golden Bank Preproduction Space
2. リストからストレージ・サービスを選択します。
3. プロビジョンされた機械学習サービスをリストから選択します。
4. 「作成」 をクリックします。
5. 「閉じる」をクリックします。
ターゲット・スペースの場合は、 ゴールデン・バンク・プレプロダクション・スペース が選択されていることを確認します。
プロモート後にスペース内のモデルに移動 オプションをチェックします。
プロモートをクリックします。

進捗状況を確認する

以下の図は、デプロイメント・スペース内のモデルを示しています。これで、モデル・デプロイメントを作成する準備ができました。

タスク 2b: モデルのオンライン・デプロイメントの作成

チュートリアル・ビデオのプレビューこのタスクをプレビューするには、 01:30から始まるビデオをご覧ください。

モデルのオンライン・デプロイメントを作成するには、以下の手順を実行します。

デプロイメント・スペースが開いたら、 新規デプロイメントをクリックしてください。
1. デプロイメント・タイプの場合は、 オンラインを選択してください。
2. 名前には、先頭に空白や末尾にスペースを入れずに、表示されているとおりにデプロイメント名をコピーして貼り付けます：Mortgage Approval Model Deployment
3. 「作成」 をクリックします。
モデルのデプロイメントが完了するまで待ちます。モデルが正常にデプロイされたら、デプロイメントを表示してスコアリング・エンドポイントを確認し、オプションでモデルをテストします。

進捗状況を確認する

以下の図は、モデルのデプロイメントを示しています。これで、ノートブックを実行してモニターを構成する準備ができました。

タスク 3: ノートブックを実行してモニターをセットアップする

チュートリアル・ビデオのプレビューこのタスクをプレビューするには、01:55から始まるビデオをご覧ください。

サンプル・プロジェクトに含まれるノートブックを実行してください：

モデルとデプロイメントを取り出します。
Watson OpenScaleを構成します。
機械学習サービスのサービス・プロバイダーとサブスクリプションを作成します。
品質モニターを構成します。
公平性モニターを構成します。
説明性を構成します。

サンプル・プロジェクトに含まれているノートブックを実行するには、以下のステップを実行します。このノートブックは、モデルのモニターをセットアップします。これは、ユーザー・インターフェースを使用して構成することもできます。ただし、ノートブックを使用してセットアップするほうが、手っ取り早く、ミスも少ないです。ノートブックで、各セル内のコードについて説明しているコメントを少し読んでください。

ナビゲーションメニュー「」から、「プロジェクト」 > 「すべてのプロジェクトを表示」を選択します。
「ML モデルの評価」 プロジェクトを開きます。
Assets」タブをクリックし、「Notebooks」に移動します。
'
monitor-wml-model-with-watson-openscale ノートブックを開きます。
ノートブックが読み取り専用モードになっているので、編集アイコン「」をクリックして、ノートブックを編集モードにします。
リソース・ハブからプロジェクトをインポートした場合、このノートブックの最初のセルには、プロジェクト・アクセス・トークンが含まれています。このノートブックにプロジェクト・アクセス・トークンを持つ最初のセルが含まれていない場合、トークンを生成するには、 「詳細」 メニューから 「プロジェクト・トークンの挿入」を選択します。このアクションは、プロジェクト・トークンを含む新規セルをノートブックの最初のセルとして挿入します。
Provide yourIBM CloudAPI keyセクションでは、API キーを使用してwatsonx.aiRuntime API に認証情報を渡す必要があります。保存された API キーがまだない場合は、以下の手順に従って API キーを作成します。
1. IBM Cloudコンソールの API キーのページにアクセスします。
2. 「IBM Cloud API キーの作成」をクリックします。既存の API キーがある場合は、このボタンに 「作成」というラベルを付けることができます。
3. 名前および説明を入力します。
4. 「作成」 をクリックします。
5. API キーをコピーします。
6. 将来使用するために API キーをダウンロードします。
7. ノートブックに戻り、 ibmcloud_api_key フィールドに API 鍵を貼り付けます。
イン・ザ・ 3. モデルおよびデプロイメントの セクションで、 space_name、 model_name、および deployment_name 変数に割り当てられている値を確認します。
ノートブックのすべてのセルを実行するには、 「セル」>「すべて実行」 をクリックします。あるいは、各セルの横にある実行アイコン「」をクリックして、ノートブックをセルごとに実行し、各セルとその出力を調べることもできます。
ノートブックの完了には 1 分から 3 分かかります。例えば「In [1]」のように、アスタリスク「In [*]」を数値に変更することで、セルごとに進行状況セルをモニターできます。
ノートブックの実行中にエラーが発生した場合は、以下のトラブルシューティングのヒントを試してください。
- 「カーネル」>「再始動」&「出力のクリア」 をクリックしてカーネルを再始動してから、ノートブックを再実行します。
- 既存の Watson OpenScale デプロイメントを削除し、新規サービス・インスタンスをプロビジョンします。
- 指定された成果物の名前を正確にコピー・アンド・ペーストし、先頭または末尾にスペースを付けずに、デプロイメント・スペースとデプロイメント名を作成したことを確認します。

進捗状況を確認する

以下のイメージは、実行が完了したときのノートブックを示しています。ノートブックによってモデルのモニターがセットアップされるため、 Watson OpenScaleでデプロイメントを表示できるようになりました。

タスク 4: モデルの評価

チュートリアル・ビデオのプレビューこのタスクをプレビューするには、03:35から始まるビデオをご覧ください。

以下の手順に従ってホールドアウト・データをダウンロードし、そのデータを使用して Watson OpenScaleでモデルを評価します。

ナビゲーション・トレールで 「ML モデルの評価 (Evaluate an ML model)」 プロジェクトをクリックします。
「アセット」 タブで、 「データ」>「データ・アセット」をクリックします。
GoldenBank_HoldoutData.csvデータ資産のオーバーフローメニュー「クリックし、「ダウンロード」を選択します。モデルが必要に応じて機能していることを検証するには、モデルのトレーニングから除外されたラベル付きデータのセットが必要です。この CSV ファイルには、そのホールドアウト・データが含まれています。
Watson OpenScale を起動します。
1. ナビゲーションメニュー「」から、「サービス」＞「サービスインスタンス」を選択する。
2. Watson OpenScale インスタンスをクリックして、サービス・インスタンス・ページを開きます。プロンプトが出されたら、 Cloud Pak for Dataの登録に使用したのと同じ資格情報を使用してログインします。
  
  注: インスタンスの名前は、`watsonx.governance-xx` のように異なる場合があります。
3. Watson OpenScale サービス・インスタンス・ページで、 「 Watson OpenScaleをクリックします。
洞察ダッシュボードで、 Mortgage Approval Model Deployment タイルをクリックしてください。
アクション メニューから、 今すぐ評価を選択してください。
インポート・オプションのリストから、 CSV ファイルからを選択してください。
プロジェクトからダウンロードした Golden Bank_HoldoutData.csv データ・ファイルをサイド・パネルにドラッグします。
「アップロードして評価」 をクリックし、評価が完了するまで待ちます。

進捗状況を確認する

以下の図は、 Watson OpenScaleでのデプロイされたモデルの評価結果を示しています。これで、モデルを評価したので、モデルの品質を監視する準備ができました。

タスク 5: 品質のモデル・モニターの監視

チュートリアル・ビデオのプレビューこのタスクをプレビューするには、04:40から始まるビデオをご覧ください。

Watson OpenScale 品質モニターは、モデルの品質を評価するための一連のメトリックを生成します。これらの品質メトリックを使用して、モデルの予測結果の精度を判別できます。ホールドアウト・データを使用する評価が完了したら、以下の手順に従ってモデルの品質または正確度を確認します。

品質セクションで、設定アイコン「」をクリックする。ここでは、このモニターに対して構成されている品質しきい値が 70% であること、および使用されている品質の測定値が ROC 曲線の下の領域であることが分かります。
「モデル要約に移動」 をクリックして、モデルの詳細画面に戻ります。
品質セクションで、詳細アイコン「」をクリックすると、モデル品質の詳細結果が表示されます。ここには、いくつかの品質メトリック計算と、正しいモデル決定と誤検出および検出漏れを示す混同行列が表示されます。 ROC 曲線の下の計算領域は 0.9 以上であり、これは 0.7 しきい値を超えているため、モデルは品質要件を満たしています。
ナビゲーション・トレールで 「住宅ローン承認モデルのデプロイメント」 をクリックして、モデルの詳細画面に戻ります。

進捗状況を確認する

以下の画像は、 Watson OpenScaleの品質の詳細を示しています。モデルの品質を確認したので、モデルの公平性を確認できます。

タスク 6: 公平性についてのモデル・モニターの監視

チュートリアル・ビデオのプレビューこのタスクをプレビューするには、05:41から始まるビデオをご覧ください。

Watson OpenScale 公平性モニターは、モデルの公平性を評価するための一連の指標を生成します。公平性メトリックを使用して、モデルがバイアスのある結果を生成するかどうかを判別できます。モデルの公平性を確認するには、以下の手順を実行します。

公平性セクションで、設定アイコン「」をクリックする。ここでは、性別に関係なく応募者が公平に扱われていることを確認するために、モデルがレビューされていることがわかります。女性は、公平性が測定されているモニター対象グループとして識別され、公平性のしきい値は少なくとも 80% になります。公平性モニターは、公平性を判別するために異なる影響方式を使用します。差別的影響は、モニター対象グループの好ましい結果の割合を、参照グループの好ましい結果の割合と比較します。
「モデル要約に移動」 をクリックして、モデルの詳細画面に戻ります。
公平性セクションで、詳細アイコン「」をクリックすると、モデルの公平性の詳細結果が表示される。ここでは、自動的に承認される男性および女性の応募者の割合と、100% を超える公平性スコアが表示されます。そのため、モデルのパフォーマンスは、必要な公平性しきい値の 80% をはるかに超えています。
識別されたデータ・セットをメモします。公平性指標が最も正確であることを確実にするために、 Watson OpenScale は摂動を使用して、保護された属性と関連するモデル入力のみが変更され、他の特徴量は変更されていない結果を判別します。摂動により、特徴量の値が参照グループからモニター対象グループに (またはその逆に) 変更されます。これらの追加のガードレールは、「平衡型」データ・セットが使用されている場合に公平性を計算するために使用されますが、ペイロードまたはモデルのトレーニング・データのみを使用して公平性の結果を表示することもできます。モデルは公正に動作しているため、このメトリックの詳細を追加する必要はありません。
「Mortgage Approval Model Deployment」 ナビゲーション・トレールをクリックして、モデルの詳細画面に戻ります。

進捗状況を確認する

以下の画像は、 Watson OpenScaleでの公平性の詳細を示しています。これで、モデルの公平性が確認されたので、モデルの説明可能性を確認できます。

タスク 7: ドリフトのモデル・モニターの監視

チュートリアル・ビデオのプレビューこのタスクをプレビューするには、07:25から始まるビデオをご覧ください。

Watson OpenScale ドリフト・モニターは、時間の経過に伴うデータの変化を測定して、モデルの一貫性のある結果を確保します。ドリフト評価を使用して、モデル出力の変化、予測の精度、および入力データの分布を特定します。モデルのドリフトを監視するには、以下の手順を実行します。

ドリフトセクションで、設定アイコン「」をクリックする。ここにドリフトしきい値が表示されます。出力ドリフトは、モデルの確信度分布の変化を測定します。モデル品質ドリフトは、推定実行時間の正確度をトレーニングの正確度と比較することで、正確度の低下を測定します。特徴量ドリフトは、重要な特徴量の値分布の変化を測定します。構成には、選択されたフィーチャーの数と最も重要なフィーチャーも表示されます。
「モデル要約に移動」 をクリックして、モデルの詳細画面に戻ります。
ドリフトセクションで、詳細アイコン「」をクリックすると、モデルのドリフト詳細結果が表示されます。時系列グラフを使用して、各評価指標スコアの経時変化の履歴を表示できます。値を小さくする方が良いため、この場合、結果は構成で設定されている上限しきい値を超えます。次に、スコアの出力と特徴量のドリフトの計算方法に関する詳細を表示します。また、各特徴量の詳細を表示して、 Watson OpenScale が生成するスコアにそれらの特徴量がどのように寄与するかを理解することもできます。
「Mortgage Approval Model Deployment」 ナビゲーション・トレールをクリックして、モデルの詳細画面に戻ります。

進捗状況を確認する

以下の画像は、 Watson OpenScaleのドリフトの詳細を示しています。モデルのドリフトを確認したので、モデルの説明可能性を確認できます。

タスク 8: 説明可能性についてモデル・モニターを監視する

チュートリアル・ビデオのプレビューこのタスクをプレビューするには、08:46から始まるビデオをご覧ください。

また、モデルがどのように決定されたかを理解することも重要です。この理解は、ローン承認に関係する人に意思決定を説明し、その意思決定が有効であることをモデル所有者に保証するために必要です。これらの決定を理解するには、以下のステップに従って、モデルの説明可能性を確認します。

左のナビゲーション・パネルで、'Explain a transaction' アイコン ' をクリックする。
トランザクションのリストを表示するには、 「住宅ローン承認モデルのデプロイメント」 を選択します。
任意のトランザクションについて、 アクション 列の下の説明をクリックしてください。ここに、この決定の詳細な説明が表示されます。モデルへの最も重要な入力と、最終結果に対する各入力の重要度が表示されます。青い棒はモデルの決定をサポートする傾向のある入力を表し、赤い棒は別の決定につながった可能性のある入力を示します。例えば、申請者が承認されるのに十分な収入を持っているが、それらの申請者の信用履歴と高い負債が一緒になって、申請を拒否するモデルが作成されているとします。この説明を検討して、モデルの決定の基礎について満足するようにしてください。
(オプション) モデルがどのように決定したかについてさらに詳しく知りたい場合は、 「検査」 タブをクリックします。 「検査」 機能を使用して、少数の入力に対する小さな変更によって異なる決定が行われる可能性がある感度の領域を判別するために意思決定を分析します。また、実際の入力の一部を代替値でオーバーライドして、それらが結果に影響するかどうかを確認することで感度をテストできます。

進捗状況を確認する

以下の画像は、 Watson OpenScaleでのトランザクションの説明性を示しています。モデルが正確で、すべての応募者を公平に扱っていると判断しました。これで、モデルをそのライフサイクルの次のフェーズに進めることができます。

次のステップ

以下の追加チュートリアルを試して、モデルの作成と評価に関する実践的な経験を積むことができます。

その他のリソース

詳しくは、ビデオを参照してください。
Cloud Pak for Data as a Service の概要

親トピック: クイック・スタート・チュートリアル