配置评估后,您可以分析评估结果,以深入了解模型性能。 仪表板提供用于查看性能详细信息,共享有关警报的信息或打印报告的工具。
您可以从"洞察 "仪表板查看的一些详细信息包括
- 复审质量结果以查看混淆矩阵,该矩阵可帮助您确定已部署的模型是否正确分析了事务。
- 查看漂移结果以查看导致准确性下降和/或数据一致性下降的事务。
- 检查模型运行状况评估结果,您可以在其中查看上次评估期间使用与不同维度相关的记分卡磁贴生成的度量的摘要。
要在 "洞察" 仪表板中查看结果,请执行以下操作:
在 Watson Openscale 中,单击 活动 图标 以打开 Insights 仪表板。
选择要查看结果的部署模型磁贴。 显示上次评估的结果。
单击评估部分中的箭头 以查看您指定的 时间范围 和 日期范围 设置内评估结果的数据可视化。 在关联的数据范围内,还会显示您选择的时间范围的上次评估。
使用 操作 菜单,通过选择以下任何分析选项来查看有关模型的详细信息:
- 所有评估: 对于预生产模型,显示评估历史记录以了解结果随时间变化的情况。
- 比较: 将模型与突出显示关键度量的矩阵图表进行比较,以帮助您确定哪个模型版本可供生产使用,或者哪些模型可能需要更多训练。
- 查看模型信息: 查看有关模型的详细信息,以了解如何设置部署环境。
- 下载报告 PDF: 生成模型摘要报告,其中提供了所有度量以及对其进行评分的原因的说明。
- 设置警报: 将有关阈值违例的警报发送到电子邮件地址。
您还可以使用 操作 菜单来管理模型评估的数据。 有关更多信息,请参阅 发送模型事务。
通过时间序列图表,汇总的评估结果显示为数据点,您可以选择这些数据点来查看特定时间的结果。 由于默认的聚合行为,悬停在时间序列图表上时显示的每个数据点的时间戳与最新评估的时间戳不一致。
以下各节将介绍如何分析模型评估的结果:
复审公平性结果
为帮助您查看公平结果,我们提供了以下类型数据集的计算结果:
- 均衡: 均衡计算包括在所选小时内接收到的评分请求。 如果未满足评估所需的最小记录数,那么此计算还包括前几个小时的更多记录。 包括更多扰动和合成记录,这些记录用于在受监视功能部件的值发生更改时测试模型的响应。
- 有效内容: 模型在所选小时内接收到的实际评分请求数。
- 训练: 用于训练模型的训练数据记录。
- 无偏:除偏算法在处理运行时和扰动数据后的输出。
通过该图表,您可以观察迂到偏差的组,并查看这些组的预期结果百分比。 您还可以查看参考组的预期结果百分比,这是所有参考组的预期结果平均值。 这些图表通过比较数据范围内受监视组的预期结果百分比与参考组的结果百分比的比率来指示存在偏差。
该图表还显示了为识别偏见而分析的有效内容表中数据内,该属性的每个非重复值的参考和受监视值的分布。 将针对属性的每个不同值显示有效内容数据的分布。 您可以使用此数据将偏差量与模型接收的数据量相关联。 您还可以查看具有预期结果的组所占的百分比,以确定偏差的来源,这些偏差导致参考组的预期结果所占的百分比增加。
审查质量结果
为帮助您查看质量结果,会显示一个混淆矩阵,帮助您确定部署的模型是否错误地分析了交易。 对于二元分类模型,交易记录被归类为假阳性或假阴性;对于多类模型,交易记录被归类为不正确的类别分配。 对于二元分类问题,目标类别被分配到positive
或negative
级别。 混淆矩阵还显示了正确分析的正反面交易的百分比。 为了确定正确性,矩阵还用绿色和蓝色来突出交易类别,以表示正确性最高或最低的类别。 您可以使用 "预测值"和 "实际值"菜单指定要分析的交易类别。
查看漂移结果
对于漂移评估,您可以查看导致准确性下降和/或数据一致性下降的事务。 您还可以查看已识别的事务数以及负责降低准确性或数据一致性的模型功能部件。
有关更多信息,请参阅 查看漂移事务。
查看漂移 v2 结果
当您查看漂移v2评估结果时,会显示可折叠的磁贴,您可以打开磁贴查看指标的不同细节。 您可以使用时间序列图表来查看每个度量标准得分随时间变化的历史记录,或者查看如何计算得分输出和特征漂移的详细信息。 您还可以查看每个功能的详细信息,以了解它们对生成分数的贡献。
复审模型运行状况结果
当您查看模型健康状况评估结果时,会通过与不同维度相关联的记分卡磁贴提供上一次评估中生成的指标汇总。 对于具有多个维度的度量,可以单击磁贴上的下拉菜单以选择要分析的度量。 要分析度量值随时间变化的方式,您可以单击每个类别的可折叠磁贴以查看时间序列图表。
有关更多信息,请参阅 模型运行状况评估指标。
母题: 回顾模型见解