模型风险管理解决方案提供模型评估功能,可衡量人工智能模型在整个生命周期内的结果,并执行模型验证,以帮助企业遵守标准和法规。
使用Watson OpenScale进行分析
设置并激活模型风险管理功能后,可以查看和比较样本评估。 您可以下载包含所有质量度量,公平性度量和漂移量级的模型摘要报告。
从“洞察”仪表板,单击模型部署磁贴
从 操作 菜单中,单击下列其中一个分析选项:
- 所有评估:列出所有正在进行和已完成的评估
- 比较:比较任何型号,尤其是同一型号的不同版本,以获得最佳性能
- 下载报告 PDF:生成模型摘要报告,其中提供了所有指标以及对指标评分方式的解释
在 Watson OpenScale 中将新模型部署到生产
将最佳模型推送到生产。 通过从预生产模型导入来创建生产记录。
- 查看模型部署的状态。
- 返回到样本 Notebook 并运行各个单元以将模型发送到生产。
- 现在,您可以查看生产模型部署磁贴。 在常规生产环境中,它最初显示为空,直到收集到足够的数据并经过时间来触发度量值计算。 笔记本会添加数据并运行监视器,以便您可以立即查看结果。
比较模型
在查看模型评估的详细信息时,您可以通过矩阵图对模型进行比较,矩阵图会突出显示关键指标。 使用此功能可确定模型的哪个版本最适合发送到生产,或者哪个模型可能需要处理。
从 操作 菜单中,选择 比较 以生成一个图表,用于比较用于监视模型的度量的评分。
立即评估
从"操作"菜单中选择 "立即评估 "来评估测试数据。 在预生产环境中,您可以使用下列其中一种方法来导入测试数据:
- 上载包含带标签测试数据的 CSV 文件
- 连接到包含 Cloud Object Storage 或 Db2 中的带标签测试数据的 CSV 文件
当您使用其中任一导入方法时,可以控制 Watson OpenScale 是否对测试数据进行评分。
如果您想对数据进行评分,请导入带有特征和标签列的标签测试数据。 对测试数据进行评分,预测值和概率值作为_original_prediction
列和_original_probability
列存储在反馈表中。
如果要导入已评分的测试数据,请选中 导入测试数据 面板中的 Test data includes model output
复选框。 您需要导入具有特征和标签列以及已评分输出的测试数据。 测试数据不重新评分。 预测值和概率值作为 _original_prediction
和 _original_probability
列存储在反馈表中。
注:
您上载的测试数据还可以包含 record_id
/transaction_id
和 record_timestamp
列,当选择了 Test data includes model output
选项时,这些列将添加到有效内容日志记录和反馈表中。
在执行评估之前,请确保通过设置正确的模式来完全启用预订。
运行评估时,可以通过状态指示器查看进度,该指示器会显示评估是否成功完成。
将配置从预生产预订复制到生产预订
为了节省时间,您可以从生产前预订复制配置和模型元数据,并将数据添加到生产预订。 该模型必须与源模型完全匹配,但已部署到生产空间。
上级主题: 模型风险管理和模型监管