品質評価では、フィードバックデータと呼ばれるラベル付きテストデータを使用して、モデルがどの程度うまく機能するかに基づいて、モデルが正しい結果を提供する能力を測定します。
品質評価を使用したモデルの正確度の測定
品質評価は、モデルがどの程度正確な結果を予測しているかをモニターします。 モデルの品質が低下している状況を把握できるので、モデルを適切に再訓練できます。 モデルを評価するには、 フィードバック・データを指定します。フィードバック・データは、結果が判明している場所にラベル付けされたデータです。 品質評価では、一連の標準データ・サイエンス・メトリックを使用して、ラベル付けされたデータ・セット内の実際の結果に一致する結果をモデルがどの程度予測しているかを評価します。
モデルの評価に使用するメトリックの許容品質しきい値を設定できます。 評価の対象として検討するサンプル・サイズ (フィードバック・データの行数) を設定することもできます。
始める前に: フィードバック・データの提供
フィードバック・データは、実際に観察された結果が記載された回答シートを提供するようなものです。 モニターは、回答が不明であるかのようにモデルを実行してから、予測された結果を実際の結果と比較し、品質メトリックに基づいて正確度スコアを提供することができます。
機械学習モデルにフィードバック・データを提供するには、Endpointsページを開き、以下のいずれかを行う必要がある:
- 「フィードバック・データのアップロード (Upload feedback data)」 をクリックし、ラベル付きデータを含むファイルをアップロードします。
- 「エンドポイント」 タブをクリックし、フィードバック・データ・ソースに接続するエンドポイントを指定します。
詳しくは、 フィードバック・データの管理を参照してください。
品質しきい値の設定
評価のためにフィードバック・データが使用可能になったら、モニター設定を構成します。 既知の結果と比較して、モデルの許容可能なパフォーマンスのしきい値を設定します。
しきい値を設定するには、 「品質」 タブで 「編集」 アイコンをクリックして 「品質しきい値」 ボックスに値を入力し、サンプル・サイズの値を編集します。
品質アラートのしきい値
許容可能な正確度のレベルを表す値を選択します。 例えば、自動セットアップで提供されるサンプルの German Credit Risk モデル では、「ROC 曲線下面積」メトリックのアラートは 95%に設定されています。 モデルの測定された品質がその値を下回ると、アラートがトリガーされます。 ROC 未満の面積の標準的な値は 80% です。
品質モニターの標準メトリックについて詳しくは、 品質メトリックの概要を参照してください。
最小と最大のサンプル・サイズ
評価データ・セットで最小限の数のレコードが得られるまで品質の測定を行わないようにするために、最小サンプル・サイズを設定します。 これにより、サンプル・サイズが小さすぎて結果にゆがみが生じることがなくなります。 品質検査が実行されるたびに、最小サンプル・サイズを使用して品質指標計算の対象レコードの数が決定されます。
最大サンプル・サイズは、データ・セットの評価に必要な時間とリソースの管理を向上させるのに役立ちます。 このサイズを超えた場合は、最新のレコードだけが評価されます。 例えば、 German Credit Risk モデル のサンプルでは、最小サンプル・サイズは 50 に設定されており、最小サンプルであるため、最大サイズは指定されていません。
サポートされている品質指標
品質評価を有効にすると、モデルがどの程度結果を予測するかを判断するのに役立つメトリクスを生成することができます。
品質評価の結果は、評価サマリーページで見ることができます。 結果を表示するには、モデル・デプロイメント・タイルを選択し、 「品質」 評価セクションの矢印 をクリックして、最後の評価の品質メトリックの要約を表示します。 詳しくは、 品質結果の確認を参照してください。
ROC 曲線下面積
- 説明: フォールバック率に対する感度を計算するための、再現率曲線および誤検出率曲線の下の面積
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: 混同行列
PR 曲線下面積
- 説明: 適合率と再現率を示す曲線の下の領域です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
「適合率再呼び出し」の下の領域には、両方の Precision + Recall
の合計が表示されます。
n
AveP = ∑ P(k)∆r(k)
k=1
適合率 (P) は、真陽性 (Tp) と偽陽性 (Fp) の合計数に対する真陽性の数と定義されます。
number of true positives
Precision = ______________________________________________________
(number of true positives + number of false positives)
再現率 (R) は、真陽性 (Tp) と偽陰性 (Fn) の合計数に対する真陽性の数と定義されます。
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
正解率
- 説明: 正確な予測の比率
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類と多項分類
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: 混同行列
- 正確度の理解:
正確度は、アルゴリズムのタイプによって異なる意味を持つ場合があります。多項分類: 正確度は、クラスが全体として正確に予測された回数を測定してから、その値をデータ・ポイント数で正規化することによって求められます。 詳しくは、Apache Spark 資料の Multi-class classification を参照してください。
二項分類: 二項分類アルゴリズムでは、正確度は ROC 曲線の下側の面積として測定されます。 詳しくは、Apache Spark 資料の Binary classification を参照してください。
回帰: 回帰アルゴリズムは、決定係数 ( R2) を使用して測定されます。 詳しくは、Apache Spark 資料の Regression model evaluation を参照してください。
真陽性率
- 説明: 肯定クラスの予測での正しい予測の比率です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
真陽性率は、以下の数式で計算されます。
number of true positives
TPR = _________________________________________________________
(number of true positives + number of false negatives)
偽陽性率
- 説明: 肯定クラスでの正しくない予測の比率です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
フォールス・ポジティブ率は、フォールス・ポジティブの総数をフォールス・ポジティブとトゥルー・ネガティブの合計で除算した商です。
number of false positives
False positive rate = ______________________________________________________
(number of false positives + number of true negatives)
再呼び出し
- 説明: 肯定クラスでの正しい予測の比率です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: 混同行列
- 演算を実行する:
再現率 (R) は、真陽性 (Tp) と偽陰性 (Fn) の合計数に対する真陽性の数と定義されます。
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
精度
- 説明: 肯定クラスの予測での正しい予測の比率です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
適合率 (P) は、真陽性 (Tp) と偽陽性 (Fp) の合計数に対する真陽性の数と定義されます。
number of true positives
Precision = __________________________________________________________
(number of true positives + the number of false positives)
F1-Measure
- 説明: 適合率と再現率の調和平均です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
F1-measure は、加重調和平均または適合率と再現率の平均です。
(precision * recall)
F1 = 2 * ____________________
(precision + recall)
:NONE.
- 説明: Gini 係数は、モデルが 2 つのクラスをどの程度区別しているかを測定します。 これは、ROC 曲線とグラフ・プロットの対角線の間の面積の 2 倍として計算されます。 ジニ係数値が 0 の場合、モデルは判別能力を示さず、値 1 は完全な判別を示します。
- デフォルトのしきい値:
- 下限 = 80%
- 問題タイプ: 二項分類
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
ジニ係数メトリックは、以下の式で計算されます。
Gini = 2 * Area under ROC - 1
対数損失
- 説明: ターゲット・クラス確率の対数の平均 (確信度)。 これは、予想対数尤度とも呼ばれます。
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類と多項分類
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: なし
- 計算を行います。
バイナリー・モデルの場合、対数は以下の数式で計算されます。
-(y log(p) + (1-y)log(1-p))
p は真ラベル、y は予測される確率です
多項モデルの場合、対数損失は以下の数式で計算されます。
M
-SUM Yo,c log(Po,c)
c=1
M > 2、p は真ラベル、y は予測される確率です
分散説明率
- 説明: 分散説明率とは、説明された差異とターゲット差異の比率を表します。 説明された差異とは、ターゲット差異と予測誤差の差異の間の差異です。
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 回帰
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: なし
- 計算を行います。
説明された分散の比率は、数値を平均化してから、数値ごとに平均値を減算し、結果を二乗することによって計算されます。 次に、正方形を作成します。
sum of squares between groups
Proportion explained variance = ________________________________
sum of squares total
平均絶対誤差
- 説明: モデル予測とターゲット値の絶対差の平均
- デフォルトのしきい値: 上限 = 80%
- 問題タイプ: 回帰
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: なし
- 計算を行います。
平均絶対誤差 (MAE) は、すべての絶対誤差を合計し、その合計を誤差数で除算して算出されます。
SUM | Yi - Xi |
Mean absolute errors = ____________________
number of errors
平均二乗誤差
- 説明: モデル予測とターゲット値の差を二乗した平均
- デフォルトのしきい値: 上限 = 80%
- 問題タイプ: 回帰
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: なし
- 計算を行います。
最も単純な形式の平均二乗誤差は、次の式で表されます。
SUM (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors = ____________________________
number of errors
R 2 乗
- 説明: ターゲット分散と、ターゲット分散に対する予測誤差の間の差異の比率です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 回帰
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: なし
- 計算を行います。
R 2 乗メトリックは、以下の式で定義されます。
explained variation
R-squared = _____________________
total variation
平均平方二乗誤差
- 説明: モデル予測とターゲット値の差を二乗した平均の平方根
- デフォルトのしきい値: 上限 = 80%
- 問題タイプ: 回帰
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: なし
- 計算を行います。
平均二乗誤差の平方根は、(予測から観測値を減算した値) 2 乗の平均値の平方根に等しくなります。
___________________________________________________________
RMSE = √(forecasts - observed values)*(forecasts - observed values)
重み付き真陽性率
- 説明: 加重クラス TPR の加重平均は、クラス確率と同等です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 多項分類
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
真陽性率は、以下の数式で計算されます。
number of true positives
TPR = _________________________________________________________
number of true positives + number of false negatives
重み付き誤検出率
- 説明: 肯定クラスでの正しくない予測の比率です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 多項分類
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
加重偽陽性率は、重みづけデータを使用した FPR の応用形です。
number of false positives
FPR = ______________________________________________________
(number of false positives + number of true negatives)
加重再現率
- 説明: 加重再現率の加重平均は、クラス確率と同等です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 多項分類
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
加重再現率 (wR) は、重みづけデータで使用する真陽性 (Tp) と偽陰性 (Fn) の合計数に対する真陽性の数と定義されます。
number of true positives
Recall = ______________________________________________________
number of true positives + number of false negatives
加重適合率
- 説明: 加重適合率の加重平均は、クラス確率と同等です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 多項分類
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
適合率 (P) は、真陽性 (Tp) と偽陽性 (Fp) の合計数に対する真陽性の数と定義されます。
number of true positives
Precision = ________________________________________________________
number of true positives + the number of false positives
加重 F1 値
- 説明: 加重 F1 値の加重平均は、クラス確率と同等です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 多項分類
- グラフ値: 時間フレーム内の最終値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
加重 F1 値は、重みづけデータを使用して算出されます。
precision * recall
F1 = 2 * ____________________
precision + recall
過去のデータを用いた品質評価の設定
また、品質評価を構成して、以前のタイム・ウィンドウから過去のスコア・フィードバック・データを使ってメトリクスを生成することもできます。 スコアリングされた過去のフィードバック・データを使って評価を構成するには、PythonSDKを使用して、開始日と終了日を持つ単一の時間ウィンドウでメトリクスを計算するパラメータを指定します:
parameters = {
"start_date": "2024-08-05T11:00:18.0000Z",
"end_date": "2024-08-05T14:00:18.0000Z"
}
run_details = wos_client.monitor_instances.run(monitor_instance_id=quality_monitor_instance_id, parameters = run_parameters, background_mode=False).result
もっと見る
親トピック: モデル評価の構成