0 / 0
資料の 英語版 に戻る
評価結果のレビュー
最終更新: 2024年10月25日
評価結果のレビュー

評価を設定すると、評価結果を分析してモデルのパフォーマンスに関する洞察を得ることができます。 ダッシュボードには、パフォーマンスの詳細を確認したり、アラートに関する情報を共有したり、レポートを印刷したりするためのツールが用意されています。

インサイトダッシュボードで確認できる詳細には、以下のようなものがあります:

  • 品質結果を確認して、デプロイされたモデルがトランザクションを正しく分析したかどうかを判別するのに役立つコンフュージョン・マトリックスを確認します。
  • ドリフト結果を表示して、正確度の低下、データ整合性の低下、またはその両方の原因となっているトランザクションを確認します。
  • モデルの正常性評価結果を検査します。この結果には、異なるディメンションに相関するスコアカード・タイルを使用して、前回の評価中に生成された評価指標の要約が表示されます。

モデル・デプロイメント評価グラフが、モデルが設定されたしきい値を満たす方法の詳細を示す評価ごとに表示されます。

「洞察」ダッシュボードで結果を表示するには、以下のようにします。

  1. Watson Openscale で、 「アクティビティー」 アイコン アクティビティー・アイコン をクリックして Insights ダッシュボードを開きます。

  2. 結果を表示するデプロイメント・モデル・タイルを選択します。 前回の評価結果が表示されます。

  3. 評価セクションの矢印 ナビゲーション矢印 をクリックすると、指定した 「時間フレーム」 設定および 「日付範囲」 設定内の評価結果のデータ可視化が表示されます。 選択した時間フレームの最後の評価も、関連付けられたデータ範囲の間に表示されます。

  4. 以下のいずれかの分析オプションを選択して、モデルに関する詳細を表示するには、 「アクション」 メニューを使用します。

    • すべての評価: 実動前モデルの場合、評価の履歴を表示して、時間の経過とともに結果がどのように変化するかを把握します。
    • 比較: モデルをマトリックス・グラフと比較します。このグラフでは、モデルのどのバージョンが実動に対応しているか、または追加のトレーニングが必要になる可能性があるかを判別するのに役立つ主要なメトリックが強調表示されます。
    • モデル情報の表示: モデルに関する詳細を表示して、デプロイメント環境がどのようにセットアップされているかを理解します。
    • レポート PDF のダウンロード: すべてのメトリックと、それらがどのようにスコアリングされたかについての説明を提供するモデル要約レポートを生成します。
    • アラートのセットアップ: しきい値違反に関するアラートを E メール・アドレスに送信します。

「アクション」 メニューを使用して、モデル評価のデータを管理することもできます。 詳しくは、 モデル・トランザクションの送信を参照してください。

時系列チャートでは、集計された評価がデータポイントとして表示され、特定の時間の結果を表示するために選択することができます。 デフォルトの集計動作により、時系列チャートにカーソルを置いたときに表示される各データポイントのタイムスタンプが、最新の評価のタイムスタンプと一致しない。

以下のセクションでは、モデル評価の結果を分析する方法について説明します:

公平性の結果の検討

公正な結果を確認するために、以下のタイプのデータセットに対する計算が提供されている:

  • 均衡: 均衡計算には、選択した時間に受信した評価要求が含まれます。 評価に必要な最小数のレコードが満たされなかった場合、計算には、前の時間からのレコードもさらに含まれます。 モニター対象特徴量の値が変更されたときにモデルの応答をテストするために使用される、摂動および合成されたより多くのレコードが含まれます。
  • ペイロード: 選択された時間にモデルが受信した実際の評価要求。
  • トレーニング: モデルのトレーニングに使用されるトレーニング・データ・レコード。
  • バイアス緩和済み: ランタイムと摂動済みのデータを処理した後のバイアス緩和アルゴリズムの出力。

モニター対象グループごとの公平性指標のデータ可視化

グラフを使用して、バイアスが発生しているグループを観察し、それらのグループの期待される結果のパーセンテージを確認できます。 また、参照グループの予期される結果のパーセンテージも表示できます。これは、すべての参照グループにおける予期される結果の平均です。 グラフは、データ範囲内のモニター対象グループの予期される結果のパーセンテージと参照グループの結果のパーセンテージの比率を比較することにより、バイアスの存在を示します。

グラフでは、バイアス識別の分析が行われたペイロード・テーブルのデータにおける属性の個別値ごとの参照値とモニター対象値の分布も表示されます。 ペイロード・データの分布は、属性の個別の値ごとに表示されます。 このデータを使用して、バイアスの量を、モデルによって受信されるデータの量と相関させることができます。 また、期待される結果を持つグループのパーセンテージを確認して、結果に偏りがあり、参照グループの期待される結果のパーセンテージが増加したバイアスの原因を特定することもできます。

品質結果を見直す

品質結果を確認するために、混乱マトリックスが表示され、導入したモデルがトランザクションを誤って分析していないかどうかを判断するのに役立ちます。 バイナリ分類モデルの場合、取引記録は偽陽性または偽陰性として分類され、マルチクラスモデルでは誤ったクラス割り当てとして分類される。 バイナリ分類問題では、ターゲット・カテゴリはpositiveまたはnegativeレベルのいずれかに割り当てられる。 混同行列は、正しく分析された正と負のトランザクションの割合も表示する。 正しさを識別するために、このマトリックスでは、取引のカテゴリーを緑と青の色調で強調し、最も正しいカテゴリーと最も正しくないカテゴリーのレベルを示している。 Predicted value(予測値)およびActual value(実績値)メニューを使用して、分析するトランザク ションのカテゴリーを指定することができます。

品質メトリクスの詳細表

ドリフトの結果の確認

ドリフト評価の場合、正確度の低下、データ整合性の低下、またはその両方の原因となっているトランザクションを表示できます。 また、識別されたトランザクションの数、および正確度またはデータ整合性の低下の原因となっているモデルの機能を表示することもできます。

モデル・ドリフト・トランザクション・ページが表示されます

詳しくは、 ドリフト・トランザクションの確認を参照してください。

ドリフト v2 の結果の確認

ドリフトv2の評価結果を確認する際、折りたたみ可能なタイルが表示され、それを開くことでメトリクスの詳細を確認することができます。 時系列グラフを使用して、時間の経過とともに各評価指標スコアがどのように変化するかの履歴を表示したり、スコアの出力と特徴量のドリフトがどのように計算されるかの詳細を表示したりできます。 また、各機能の詳細を見ることで、生成されるスコアにどのように貢献しているかを理解することもできる。

ドリフト v2 の評価結果が表示されます

モデルの正常性の結果の確認

モデルの健全性評価結果をレビューする際、前回の評価で生成されたメトリクスの要約が、異なるディメンションに相関するスコアカード・タイルとともに提供されます。 複数のディメンションを持つメトリックの場合、タイル上のドロップダウン・メニューをクリックして、分析するメトリックを選択できます。 時間の経過とともにメトリックがどのように変化するかを分析するために、各カテゴリーの省略表示可能なタイルをクリックして、時系列グラフを表示できます。

モデルの正常性メトリックが表示されます

詳しくは、 モデルの正常性評価メトリックを参照してください。

親トピック モデルの洞察を見直す

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細