品質評価を使って、モデルの性能に基づいて、正しい結果を提供するモデルの能力を測定することができます。
品質評価では、モデルの品質がいつ低下するかを特定することで、モデルがどれだけ正確な結果を予測しているかを測定し、モデルを適切に再トレーニングできるようにします。 モデルを評価するには、 フィードバック・データを指定します。フィードバック・データは、結果が判明している場所にラベル付けされたデータです。 品質評価では、評価指標を使用して、ラベル付けされたデータ・セット内の実際の結果と一致する結果をモデルがどの程度正確に予測しているかを評価します。
以下のセクションでは、品質評価の構成方法について説明します。
機械学習モデルの品質評価の設定
始める前に: フィードバック・データの提供
フィードバック・データは、実際に観察された結果が記載された回答シートを提供するようなものです。 モニターは、回答が不明であるかのようにモデルを実行してから、予測された結果を実際の結果と比較し、品質メトリックに基づいて正確度スコアを提供することができます。
モデルの評価に使用するフィードバック・データを提供するには、 「エンドポイント」 ページをクリックして、以下のいずれかを実行します。
- 「フィードバック・データのアップロード (Upload feedback data)」 をクリックし、ラベル付きデータを含むファイルをアップロードします。
- 「エンドポイント」 タブをクリックし、フィードバック・データ・ソースに接続するエンドポイントを指定します。
詳しくは、 フィードバック・データの管理を参照してください。
品質しきい値の設定
評価のためにフィードバック・データが使用可能になったら、モニター設定を構成します。 既知の結果と比較して、モデルの許容可能なパフォーマンスのしきい値を設定します。
しきい値を設定するには、 「品質」 タブで 「編集」 アイコンをクリックして 「品質しきい値」 ボックスに値を入力し、サンプル・サイズの値を編集します。
品質アラートのしきい値
許容可能な正確度のレベルを表す値を選択します。 例えば、自動セットアップで提供されるサンプルの German Credit Risk モデル では、「ROC 曲線下面積」メトリックのアラートは 95%に設定されています。 モデルの測定された品質がその値を下回ると、アラートがトリガーされます。 ROC 未満の面積の標準的な値は 80% です。
最小と最大のサンプル・サイズ
評価データ・セットで最小限の数のレコードが得られるまで品質の測定を行わないようにするために、最小サンプル・サイズを設定します。 これにより、サンプル・サイズが小さすぎて結果にゆがみが生じることがなくなります。 品質検査が実行されるたびに、最小サンプル・サイズを使用して品質指標計算の対象レコードの数が決定されます。
最大サンプル・サイズは、データ・セットの評価に必要な時間とリソースの管理を向上させるのに役立ちます。 このサイズを超えた場合は、最新のレコードだけが評価されます。 例えば、 German Credit Risk モデル のサンプルでは、最小サンプル・サイズが 50 に設定されており、小さいサンプルであるため、最大サイズが指定されていません。
生成AIモデルの品質評価の設定
プロンプト・テンプレートを評価するときに、テキスト分類タスク・タイプの品質評価結果の要約を確認できます。
要約には、デフォルト設定で計算されたメトリックのスコアと違反が表示されます。
独自の設定を使用して品質評価を構成するには、最小サンプル・サイズを設定し、各メトリックのしきい値を設定します。 最小サンプル・サイズは、評価するモデル・トランザクション・レコードの最小数を示し、しきい値は、メトリック・スコアがしきい値に違反した場合にアラートを作成します。 違反を回避するには、評価指標スコアがしきい値より高くなければなりません。 評価指標値が高いほど、スコアが高いことを示します。
サポートされている品質指標
品質評価を有効にすると、モデルがどの程度結果を予測するかを判断するのに役立つメトリクスを生成することができます。 メトリックしきい値として設定された値によって、メトリック・スコアを解釈する方法が決まります。 低いしきい値で構成されたメトリックの場合、スコアが高いほど結果が良好であることを示します。 上限しきい値を使用して構成されたメトリックの場合、スコアが低いほど結果が良好であることを示します。
品質評価では、以下のメトリックが生成されます。
ROC 曲線下面積
- 対応モデル機械学習
- 説明: フォールバック率に対する感度を計算するための、再現率曲線および誤検出率曲線の下の面積
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: 混同行列
PR 曲線下面積
- 対応モデル機械学習
- 説明: 適合率と再現率を示す曲線の下の領域です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
「適合率再呼び出し」の下の領域には、両方の Precision + Recall
の合計が表示されます。
n
AveP = ∑ P(k)∆r(k)
k=1
適合率 (P) は、真陽性 (Tp) の数に偽陽性 (Fp) の数を加えたものに対する真陽性の数として定義されます。
number of true positives
Precision = ______________________________________________________
(number of true positives + number of false positives)
再現率 (R) は、真陽性 (Tp) の数に偽陰性 (Fn) の数を加えたものに対する真陽性の数として定義されます。
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
正確性
- 対応モデル機械学習と生成AI
- 説明: 正確な予測の比率
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類と多項分類
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: 混同行列
- 正確度の理解:
正確度は、アルゴリズムのタイプによって異なる意味を持つ場合があります。多項分類: 正確度は、クラスが全体として正確に予測された回数を測定してから、その値をデータ・ポイント数で正規化することによって求められます。 詳しくは、Apache Spark 資料の Multi-class classification を参照してください。
二項分類: 二項分類アルゴリズムでは、正確度は ROC 曲線の下側の面積として測定されます。 詳しくは、Apache Spark 資料の Binary classification を参照してください。
回帰: 回帰アルゴリズムは、決定係数 ( R2) を使用して測定されます。 詳しくは、Apache Spark 資料の Regression model evaluation を参照してください。
正検出率
- 対応モデル機械学習
- 説明: 肯定クラスの予測での正しい予測の比率です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
真陽性率は、以下の数式で計算されます。
number of true positives
TPR = _________________________________________________________
(number of true positives + number of false negatives)
偽陽性率
- 対応モデル機械学習
- 説明: 肯定クラスでの正しくない予測の比率です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
フォールス・ポジティブ率は、フォールス・ポジティブの総数をフォールス・ポジティブとトゥルー・ネガティブの合計で除算した商です。
number of false positives
False positive rate = ______________________________________________________
(number of false positives + number of true negatives)
ブライア・スコア
- 対応モデル機械学習
- 説明: 予測確率と目標値の平均二乗差を測定します。 スコアが高いほど、モデルの予測確率が対象値と一致していないことを示します。
- デフォルトのしきい値:
- 上限 = 80%
- 問題タイプ: 二項分類
- 計算を行います。
より明るいスコア・メトリックは、以下の式で計算されます。
BrierScore = 1/N * sum( (p - y)^2 )
Where y = actual outcome, and p = predicted probability
:NONE.
- 対応モデル機械学習
- 説明: Gini 係数は、モデルが 2 つのクラスをどの程度区別しているかを測定します。 これは、ROC 曲線とグラフ・プロットの対角線の間の面積の 2 倍として計算されます。 ジニ係数値が 0 の場合、モデルは判別能力を示さず、値 1 は完全な判別を示します。
- デフォルトのしきい値:
- 下限 = 80%
- 問題タイプ: 二項分類
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
ジニ係数メトリックは、以下の式で計算されます。
Gini = 2 * Area under ROC - 1
ラベル・スキュー
- 対応モデル生成AIと機械学習
- 説明: ラベル分布の非対称性を測定します。 歪度が0の場合、データセットは完全にバランスが取れており、-1より小さいか1より大きい場合、分布は非常に偏っており、その間のものは中程度に偏っている。
- デフォルトのしきい値:
- 下限 = -0.5
- 上限 = 0.5
- 問題タイプ: 二項分類と多項分類
- グラフ値: 時間フレーム内の最後の値
マシューズ相関係数
- 対応モデル生成AIと機械学習
- 説明: 真陽性と偽陰性を考慮して、二項分類と多項分類の品質を測定します。 クラスのサイズが異なる場合でも使用できる均衡測度。 -1と+1の間の相関係数値。 係数の+1は完全な予測を表し、0は平均的なランダム予測、-1は逆予測を表す。
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類と多項分類
- グラフ値: 時間フレーム内の最後の値
- 使用可能なメトリックの詳細: 混同行列
平均絶対パーセント誤差
- 対応モデル:機械学習
- デフォルトのしきい値:上限値 = 0.2
- 問題タイプ: 回帰
- 説明:予測値と実測値の誤差の平均パーセンテージを測定します
- 計算を行います。
平均絶対パーセンテージ誤差は以下の式で計算される:
A
が実際の値で、P
が予測値である。
調整平均絶対誤差率
- 対応モデル機械学習
- デフォルトのしきい値:上限値 = 0.2
- 問題タイプ: 回帰
- 説明:予測値と実際の値の差のパーセント誤差の対称平均を測定する
- 計算を行います。
対称平均絶対誤差は以下の式で計算される:
A
が実際の値で、P
が予測値である。
ピアソン相関係数
- 対応モデル機械学習
- デフォルトのしきい値:下限 = 80
- 問題タイプ: 回帰
- Description: pearson correlation coefficient (pearson) メトリックは、モデルの予測値と目標値の間の線形関係を測定します。 pearson metricは、-1と+1の間の相関係数値を計算する。 -1または+1の相関値は、正確な線形関係が存在することを示し、0の値は相関がないことを示す。 正の相関は変数が同時に増加することを示し、負の相関はある変数が増加すると別の変数が減少することを示す。 高い正の値は、モデルが目標値に近い値を予測していることを示す。
Spearman の相関係数
- 対応モデル機械学習
- デフォルトのしきい値:下限 = 80
- 問題タイプ: 回帰
- グラフ値: 時間フレーム内の最後の値
- Description: spearman rank-order correlation coefficient (spearman) メトリックは、モデルの予測値と目標値の間の関係の単調性を測定します。 spearman メトリックは、-1と+1の間の相関係数値を計算する。 -1または+1の相関値は、正確な単調関係が存在することを示し、0の値は相関がないことを示す。 正の相関は変数が同時に増加することを示し、負の相関はある変数が増加すると別の変数が減少することを示す。
再呼び出し
- 対応モデル機械学習
- 説明: 肯定クラスでの正しい予測の比率です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
再現率 (R) は、真陽性 (Tp) の数に偽陰性 (Fn) の数を加えたものに対する真陽性の数として定義されます。
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
精度
- 対応モデル機械学習
- 説明: 肯定クラスの予測での正しい予測の比率です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
適合率 (P) は、真陽性 (Tp) の数に偽陽性 (Fp) の数を加えたものに対する真陽性の数として定義されます。
number of true positives
Precision = __________________________________________________________
(number of true positives + the number of false positives)
F1-Measure
- 対応モデル機械学習
- 説明: 適合率と再現率の調和平均です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
F1-measure は、加重調和平均または適合率と再現率の平均です。
(precision * recall)
F1 = 2 * ____________________
(precision + recall)
対数損失
- 対応モデル機械学習
- 説明: ターゲット・クラス確率の対数の平均 (確信度)。 これは、予想対数尤度とも呼ばれます。
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 二項分類と多項分類
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: なし
- 計算を行います。
バイナリー・モデルの場合、対数は以下の数式で計算されます。
-(y log(p) + (1-y)log(1-p))
p は真ラベル、y は予測される確率です
多項モデルの場合、対数損失は以下の数式で計算されます。
M
-SUM Yo,c log(Po,c)
c=1
M > 2、p は真ラベル、y は予測される確率です
因子寄与率
- 対応モデル機械学習
- 説明: 分散説明率とは、説明された差異とターゲット差異の比率を表します。 説明された分散は、ターゲット分散と予測誤差の分散の差です。
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 回帰
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: なし
- 計算を行います。
説明された分散の比率は、数値を平均化してから、数値ごとに平均値を減算し、結果を二乗することによって計算されます。 次に、正方形を作成します。
sum of squares between groups
Proportion explained variance = ________________________________
sum of squares total
平均絶対誤差
- 対応モデル機械学習
- 説明: モデル予測とターゲット値の絶対差の平均
- デフォルトのしきい値: 上限 = 80%
- 問題タイプ: 回帰
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: なし
- 計算を行います。
平均絶対誤差 (MAE) は、すべての絶対誤差を合計し、その合計を誤差数で除算して算出されます。
SUM | Yi - Xi |
Mean absolute errors = ____________________
number of errors
平均二乗誤差
- 対応モデル機械学習
- 説明: モデル予測とターゲット値の差を二乗した平均
- デフォルトのしきい値: 上限 = 80%
- 問題タイプ: 回帰
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: なし
- 計算を行います。
最も単純な形式の平均二乗誤差は、次の式で表されます。
SUM (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors = ____________________________
number of errors
R 2 乗
- 対応モデル機械学習
- 説明: ターゲット分散と、ターゲット分散に対する予測誤差の間の差異の比率です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 回帰
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: なし
- 計算を行います。
R 2 乗メトリックは、以下の式で定義されます。
explained variation
R-squared = _____________________
total variation
平均平方二乗誤差 (RMSE)
- 対応モデル機械学習
- 説明: モデル予測とターゲット値の差を二乗した平均の平方根
- デフォルトのしきい値: 上限 = 80%
- 問題タイプ: 回帰
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: なし
- 計算を行います。
平均二乗誤差の平方根は、(予測から観測値を減算した値) 2 乗の平均値の平方根に等しくなります。
___________________________________________________________
RMSE = √(forecasts - observed values)*(forecasts - observed values)
重み付き真陽性率
- 対応モデル機械学習と生成AI
- 説明: 加重クラス TPR の加重平均は、クラス確率と同等です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 多項分類
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
真陽性率は、以下の数式で計算されます。
number of true positives
TPR = _________________________________________________________
number of true positives + number of false negatives
重み付き誤検出率
- 対応モデル機械学習と生成AI
- 説明: 肯定クラスでの正しくない予測の比率です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 多項分類
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
加重偽陽性率は、重みづけデータを使用した FPR の応用形です。
number of false positives
FPR = ______________________________________________________
(number of false positives + number of true negatives)
加重再現率
- 対応モデル機械学習と生成AI
- 説明: 加重再現率の加重平均は、クラス確率と同等です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 多項分類
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
加重再現率 (wR) は、重みづけデータで使用する真陽性 (Tp) と偽陰性 (Fn) の合計数に対する真陽性の数と定義されます。
number of true positives
Recall = ______________________________________________________
number of true positives + number of false negatives
加重適合率
- 対応モデル機械学習と生成AI
- 説明: 加重適合率の加重平均は、クラス確率と同等です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 多項分類
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
適合率 (P) は、真陽性 (Tp) の数に偽陽性 (Fp) の数を加えたものに対する真陽性の数として定義されます。
number of true positives
Precision = ________________________________________________________
number of true positives + the number of false positives
加重 F1 値
- 対応モデル機械学習と生成AI
- 説明: 加重 F1 値の加重平均は、クラス確率と同等です
- デフォルトのしきい値: 下限 = 80%
- 問題タイプ: 多項分類
- グラフ値: 時間フレーム内の最後の値
- 使用可能な指標の詳細: 混同行列
- 計算を行います。
加重 F1 値は、重みづけデータを使用して算出されます。
precision * recall
F1 = 2 * ____________________
precision + recall
過去のデータによる品質評価の設定
また、品質評価を構成して、以前のタイム・ウィンドウから過去のスコア・フィードバック・データを使ってメトリクスを生成することもできます。 スコアリングされた過去のフィードバックデータを使って評価を構成するには、PythonSDKを使用して、開始日と終了日を持つ単一の時間ウィンドウでメトリクスを計算するパラメータを指定します:
parameters = {
"start_date": "2024-08-05T11:00:18.0000Z",
"end_date": "2024-08-05T14:00:18.0000Z"
}
run_details = wos_client.monitor_instances.run(monitor_instance_id=quality_monitor_instance_id, parameters = run_parameters, background_mode=False).result
詳細情報
親トピック: モデル評価の構成