0 / 0
Go back to the English version of the documentation
质量评估
Last updated: 2024年11月26日
质量评估

质量评估根据模型在使用被称为反馈数据的标记测试数据时的表现,来衡量模型提供正确结果的能力。

使用质量评估来测量模型准确性

质量评估可监视模型预测准确结果的情况。 它可识别模型质量何时下降,以便您可以相应地重新训练模型。 要评估模型,请提供 反馈数据,这是已知结果的标注数据。 质量评估使用一组标准数据科学指标来评估模型预测结果的效果与标记数据集中的实际结果相匹配的程度。

您可以为用于评估模型的度量设置可接受的质量阈值。 您还可以设置要考虑用于评估的样本大小 (即反馈数据的行数)。

开始之前: 提供反馈数据

反馈数据就像提供了一份包含实际观察结果的答卷。 监视器可以像不知道答案一样运行模型,然后将预测结果与实际结果进行比较,并根据质量指标提供准确性评分。

要为机器学习模型提供反馈数据,必须打开端点页面并执行以下操作之一:

  • 单击 上载反馈数据 ,然后上载带有标签数据的文件。
  • 单击 端点 选项卡,并指定连接到反馈数据源的端点。

有关详细信息,请参阅 管理反馈数据

设置质量阈值

在反馈数据可用于评估后,配置监视器设置。 与已知结果相比,可以设置模型的可接受性能阈值。

要设置阈值,请从 质量 选项卡中单击 编辑 “编辑”图标 图标以输入 质量阈值 框的值,然后编辑样本大小的值。

质量警报阈值

请选择代表可接受准确度级别的值。 例如,在自动设置随附的样本 德国信用风险模型 中, "ROC 下的面积" 指标的警报设置为 95%。 如果模型的测量质量低于该值,那么将触发警报。 ROC 下面积的典型值为 80%。

有关质量监视器的标准度量的详细信息,请参阅 质量度量概述

最小和最大样本大小

通过设置最小样本大小,可以阻止测量质量,直到评估数据集中的记录数达到最小值为止。 这可确保样本大小不会太小,导致影响结果。 每次运行质量检查时,它都会使用最小样本大小来确定用于计算质量指标的记录数。

最大样本大小有助于更好地管理评估数据集所需的时间和资源。 超过此大小后,就只会评估最近的记录。 例如,在 德国信用风险模型 样本中,最小样本大小设置为 50 ,并且未指定最大大小,因为它是小样本。

支持的质量指标

启用质量评估后,您可以生成指标,帮助您确定模型预测结果的准确性。

您可以在评价摘要页面查看质量评价结果。 要查看结果,您可以选择模型部署磁贴,然后单击 质量 评估部分中的箭头 导航箭头 以显示上次评估的质量度量的摘要。 有关更多信息,请参阅 查看质量结果

受试者工作特征曲线下面积

  • 描述: 重新调用和假正率曲线下的区域,用于针对回退率计算敏感度
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:混淆矩阵

PR 曲线下面积

  • 描述:查准率和查全率曲线下面积
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:混淆矩阵
  • 执行数学:

"精确重新调用" 下的区域给出了这两个 Precision + Recall的总计。

       n
AveP = ∑ P(k)∆r(k)
      k=1

查准率 (P) 定义为真正数 (Tp) 除以真正数与假正数之和 (Fp)。

               number of true positives
Precision =   ______________________________________________________

              (number of true positives + number of false positives)

查全率 (R) 定义为真正数 (Tp) 除以真正数与假负数之和 (Fn)。

            number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

准确性

  • 描述:正确预测的比例
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类和多类分类
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:混淆矩阵
  • 了解准确性:
    准确性可能表示不同的事物,具体取决于算法的类型;
    • 多类分类:准确性测量了正确预测任何类别的次数,按数据点数量进行标准化。 有关更多详细信息,请参阅 Apache Spark 文档中的 Multi-class classification

    • 二元分类:对于二元分类算法,准确性测量为受试者工作特征曲线下面积。 请参阅 Apache Spark 文档中的 二元分类,以获取更多详细信息。

    • 回归: 使用 "确定的系数" 或 R2来测量回归算法。 有关更多详细信息,请参阅 Apache Spark 文档中的 Regression model evaluation

真阳性率

  • 描述:正确预测在正类预测中所占的比例
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:混淆矩阵
  • 执行数学:

真正率按以下公式计算:

                  number of true positives
TPR =  _________________________________________________________

        (number of true positives + number of false negatives)

误报率

  • 描述:阳性类别中不正确预测的比例
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:混淆矩阵
  • 执行数学:

假阳性率是假阳性总数除以假阳性和真阴性之和的商。

                        number of false positives
False positive rate =  ______________________________________________________

                       (number of false positives + number of true negatives)

查全率

  • 描述:正确预测在正类中所占的比例
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:混淆矩阵
  • 执行数学:

查全率 (R) 定义为真正数 (Tp) 除以真正数与假负数之和 (Fn)。

                       number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

精度

  • 描述:正确预测在正类预测中所占的比例
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:混淆矩阵
  • 执行数学:

查准率 (P) 定义为真正数 (Tp) 除以真正数与假正数之和 (Fp)。

                           number of true positives
Precision =  __________________________________________________________

             (number of true positives + the number of false positives)

F1-Measure

  • 描述:查准率和查全率的调和均值
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:混淆矩阵
  • 执行数学:

F1-measure 是精度和召回率的加权调和平均值。

          (precision * recall)
F1 = 2 *  ____________________

          (precision + recall)

基尼系数

  • 描述: 基尼系数度量模型如何区分两个类。 它计算为 ROC 曲线与图形图对角线之间的面积的两倍。 如果 gini 系数值为 0 ,那么模型不显示任何判别能力,值 1 表示完全判别。
  • 缺省阈值:
    • 下限 = 80%
  • 问题类型:二元分类
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:混淆矩阵
  • 执行数学:

使用以下公式计算吉尼系数度量:


Gini = 2 * Area under ROC - 1

对数损失

  • 描述:对数目标类别概率(置信度)的平均值。 它也称为“期望的对数似然”。
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类和多类分类
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:无
  • 执行数学:

对于二元模型,对数损失使用以下公式进行计算:

-(y log(p) + (1-y)log(1-p))

其中 p = true 标签,y = 预测概率

对于多类模型,对数损失使用以下公式进行计算:

  M
-SUM Yo,c log(Po,c)
 c=1 

其中 M > 2,p = true 标签,y = 预测概率

可释方差比例

  • 描述:可释方差比例是可释方差与目标方差之比。 可释方差是目标方差与预测误差方差之间的差值。
  • 缺省阈值:下限 = 80%
  • 问题类型:回归
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:无
  • 执行数学:

通过对数字求平均值,然后对每个数字减去平均值并对结果求平方来计算比例解释方差。 然后,弄出正方形。

                                  sum of squares between groups 
Proportion explained variance =  ________________________________

                                      sum of squares total

平均值-绝对误差

  • 描述:模型预测与目标值之间绝对差的平均值
  • 缺省阈值:上限 = 80%
  • 问题类型:回归
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:无
  • 执行数学:

平均绝对误差是通过将所有绝对误差加总并除以误差数量来计算的。

                         SUM  | Yi - Xi | 
Mean absolute errors =  ____________________

                          number of errors

均方误差

  • 描述:模型预测与目标值之间差值平方的平均值
  • 缺省阈值:上限 = 80%
  • 问题类型:回归
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:无
  • 执行数学:

以下公式表示其最简单形式的均方误差。

                         SUM  (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors  =  ____________________________

                             number of errors

R 平方

  • 描述:目标方差与预测误差方差之间的差值占目标方差的比率
  • 缺省阈值:下限 = 80%
  • 问题类型:回归
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:无
  • 执行数学:

R 平方度量在以下公式中定义。

                  explained variation
R-squared =       _____________________

                    total variation

均方根误差

  • 描述:模型预测值与目标值之差的平方求均值后的平方根
  • 缺省阈值:上限 = 80%
  • 问题类型:回归
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:无
  • 执行数学:

均方误差的根等于 (预测减去观察值) 平方的均数的平方根。

          ___________________________________________________________
RMSE  =  √(forecasts - observed values)*(forecasts - observed values)

加权真阳性率

  • 描述:类 TPR 的加权均值,其中权重等于类概率
  • 缺省阈值:下限 = 80%
  • 问题类型:多类分类
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:混淆矩阵
  • 执行数学:

真正率按以下公式计算:

                  number of true positives
TPR =  _________________________________________________________

        number of true positives + number of false negatives

加权假阳性率

  • 描述:阳性类别中不正确预测的比例
  • 缺省阈值:下限 = 80%
  • 问题类型:多类分类
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:混淆矩阵
  • 执行数学:

加权假正率是使用加权数据应用 FPR 的结果。

                   number of false positives
FPR =  ______________________________________________________

       (number of false positives + number of true negatives)

加权查全率

  • 描述:查全率的加权均值,其中权重等于类概率
  • 缺省阈值:下限 = 80%
  • 问题类型:多类分类
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:混淆矩阵
  • 执行数学:

加权查全率 (wR) 定义为真正数 (Tp) 除以真正数 (Tp) 与假负数 (Fn) 之和(与加权数据配合使用)。

                          number of true positives
Recall =   ______________________________________________________

           number of true positives + number of false negatives

加权精度

  • 描述:查准率的加权均值,权重等于类别概率
  • 缺省阈值:下限 = 80%
  • 问题类型:多类分类
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:混淆矩阵
  • 执行数学:

查准率 (P) 定义为真正数 (Tp) 除以真正数与假正数之和 (Fp)。

                            number of true positives
Precision =  ________________________________________________________

             number of true positives + the number of false positives

加权 F1-Measure

  • 描述:F1-measure 的加权均值,权重等于类别概率
  • 缺省阈值:下限 = 80%
  • 问题类型:多类分类
  • 图表值:时间范围中的最后一个值
  • 可用的指标详细信息:混淆矩阵
  • 执行数学:

加权 F1-Measure 是使用加权数据的结果。

           precision * recall
F1 = 2 *  ____________________

           precision + recall

利用历史数据配置质量评估

您还可以配置质量评估,利用以前时间窗口的历史评分反馈数据生成指标。 要使用历史评分反馈数据配置评估,可以使用PythonSDK指定参数,在具有开始和结束日期的单一时间窗口中计算指标:

parameters = {
    "start_date": "2024-08-05T11:00:18.0000Z",
    "end_date": "2024-08-05T14:00:18.0000Z"
}
run_details = wos_client.monitor_instances.run(monitor_instance_id=quality_monitor_instance_id, parameters = run_parameters, background_mode=False).result

了解更多信息

审查机器学习模型的质量结果

父主题: 配置模型评估

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more