0 / 0
Go back to the English version of the documentation
快速入门: 评估机器学习模型
Last updated: 2024年11月28日
快速入门: 评估机器学习模型

学习本教程,了解如何评估预测哪些申请人有资格获得抵押贷款的模型。 您必须评估模型的质量,公平性和可解释性。

必需的服务
watsonx.ai运行时
watsonx.ai工作室
Watson OpenScale

基本工作流程包含以下任务:

  1. 打开项目。 您可以在项目中与他人协作以使用数据和模型。
  2. 构建模型。 您可以使用下列其中一种方法来构建模型:
    • 创建 Jupyter 笔记本并添加 Python 代码。
    • 创建 AutoAI 试验。
  3. 部署模型。
  4. 使用下列其中一种方法来配置 Watson OpenScale 监视器:
    • 创建 Jupyter 笔记本。
    • 使用 UI 将部署添加到 Watson OpenScale 仪表板。

阅读 Watson OpenScale

Watson OpenScale 可跟踪和度量 AI 模型的结果,并帮助确保这些结果保持公平,可解释且合规,无论模型是在何处构建或运行。 Watson OpenScale 还会检测并帮助更正 AI 模型处于生产时的准确性漂移。

阅读有关 Watson OpenScale的更多信息

观看有关评估机器学习模型的视频

观看视频 观看此视频以预览本教程中的步骤。 视频中显示的用户界面可能存在细微差异。 该视频旨在与编写的教程相伴。

此视频提供了一种可视方法来学习本文档中的概念和任务。


尝试有关评估机器学习模型的教程

在本教程中,您将完成以下任务:





完成本教程的提示
以下是成功完成本教程的一些提示。

使用视频图片

提示: 启动视频,然后在滚动教程时,视频将移动到画中画方式。 关闭视频目录以获取最佳图片体验。 您可以使用图片方式,以便在完成本教程中的任务时可以关注视频。 单击要继续执行的每个任务的时间戳记。

以下动画图像显示了如何使用视频图片和目录功能:

如何使用图片和章节

在社区中获取帮助

如果您需要本教程的帮助,可以在Cloud Pak for Data社区讨论区提问或寻找答案。

设置浏览器窗口

为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。

并排教程和 UI

提示: 如果在用户界面中完成本教程时迂到引导式教程,请单击 稍后可能



任务 1: 创建样本项目

预览教程视频 To preview this task, watch the video beginning at 00:06.

本教程使用包含机器学习模型和 Notebook 的样本项目来配置监视器。 执行以下步骤以基于样本创建项目。

  1. 访问资源中心的 "评估 ML 模型 "示例项目

  2. 单击创建项目

  3. 如果提示将项目与 Cloud Object Storage 实例相关联,请从列表中选择 Cloud Object Storage 实例。

  4. 单击创建

  5. 等待项目导入完成,然后单击 查看新项目 以验证是否已成功创建项目和资产。

  6. 单击 资产 选项卡以查看样本项目中的资产。

检查点图标检查您的进度

下图显示了样本项目。 现在,您已准备好开始本教程。

样本项目




任务 2: 部署模型

在可以部署模型之前,需要将模型提升到新的部署空间。 部署空间可帮助您组织支持资源,例如输入数据和环境; 部署模型或函数以生成预测或解决方案; 以及查看或编辑部署详细信息。

任务 2a: 将模型提升到部署空间

预览教程视频 To preview this task, watch the video beginning at 00:49.

遵循以下步骤将模型提升到新的部署空间:

  1. 资产 选项卡中,单击 抵押核准预测模型 以查看模型。

  2. 在模型页面上,单击 "推广到部署空间"图标 "提升到部署空间

  3. 对于 目标空间,选择 创建新的部署空间

    1. 对于部署空间名称,请按所示复制并粘贴名称,不留前导空格或尾部空格:Golden Bank Preproduction Space

    2. 从列表中选择存储服务。

    3. 从列表中选择供应的机器学习服务。

    4. 单击创建

    5. 单击关闭

  4. 对于 目标空间,请确保选择 Golden Bank Preproduction Space

  5. 选中 提升空间后转至空间中的模型 选项。

  6. 单击提升

检查点图标检查您的进度

下图显示了部署空间中的模型。 现在,您已准备好创建模型部署。

部署空间中的模型

任务 2b: 为模型创建联机部署

预览教程视频 To preview this task, watch the video beginning at 01:30.

请遵循以下步骤为模型创建联机部署:

  1. 当部署空间打开时,单击 新建部署

    1. 对于 部署类型,选择 联机

    2. 对于 名称,请按所示复制并粘贴部署名称,不留前导空格或尾部空格:Mortgage Approval Model Deployment

    3. 单击创建

  2. 等待模型部署完成。 成功部署模型后,查看部署以查看评分端点,并 (可选) 测试模型。

检查点图标检查您的进度

下图显示了模型部署。 现在,您已准备好运行 Notebook 来配置监视器。

模型部署




任务 3: 运行 Notebook 以设置监视器

预览教程视频 To preview this task, watch the video beginning at 01:55.


运行示例项目中包含的笔记本,以便

  • 访存模型和部署。
  • 配置 Watson OpenScale。
  • 为机器学习服务创建服务提供者和预订。
  • 配置质量监视器。
  • 配置公平性监视器。
  • 配置可解释性。

执行以下步骤以运行样本项目中包含的 Notebook。 此笔记本为您的模型设置监视器,也可以通过用户界面进行配置。 但是,使用 Notebook 对它们进行设置会更快,更不容易发生错误。 花一些时间阅读 Notebook 中的注释,这些注释说明了每个单元格中的代码。

  1. 导航菜单"导航菜单,选择项目 > 查看所有项目

  2. 打开 评估 ML 模型 项目。

  3. 单击 "资产"选项卡,然后导航至笔记本
    左侧导航

  4. 打开 monitor-wml-model-with-watson-openscale 笔记本。

  5. 由于笔记本处于只读模式,单击 "编辑 编辑图标将笔记本置于编辑模式。

  6. 从资源中心导入项目时,此 Notebook 的第一个单元包含项目访问令牌。 如果此笔记本不包含具有项目访问令牌的第一个单元,那么要生成令牌,请从 更多 菜单中选择 插入项目令牌。 此操作将新单元作为包含项目令牌的 Notebook 中的第一个单元插入。

  7. 在 "提供您的IBM CloudAPI 密钥"部分,您需要使用 API 密钥将您的凭据传递给watsonx.aiRuntime API。 如果您还没有已保存的 API 密钥,请遵循以下步骤来创建 API 密钥。

    1. 访问IBM Cloud控制台 API 密钥页面

    2. 单击创建 IBM Cloud API 键。 如果您有任何现有 API 密钥,那么该按钮可能标记为 创建

    3. 输入名称和描述。

    4. 单击创建

    5. 复制 API 密钥。

    6. 下载 API 密钥以供将来使用。

    7. 返回到 Notebook ,并将 API 密钥粘贴到 ibmcloud_api_key 字段中。

  8. 3 中。 模型和部署 部分,验证分配给 space_namemodel_namedeployment_name 变量的值。

  9. 单击 单元> 全部运行 以运行 Notebook 中的所有单元。 或者,点击每个单元格旁边的运行图标 "运行,逐个单元格运行笔记本,查看每个单元格及其输出结果。

  10. 笔记本需要 1-3 分钟才能完成。 您可以通过将星号 "In [*]" 更改为数字 (例如, "In [1]") 来按单元格监视进度单元格。

  11. 如果在 Notebook 运行期间迂到任何错误,请尝试以下故障诊断提示:

    • 单击 内核> 重新启动并清除输出 以重新启动内核,然后再次运行 Notebook。

    • 删除任何现有 Watson OpenScale 部署,并供应新的服务实例。

    • 通过复制并粘贴指定的工件名称来验证您是否创建了部署空间和部署名称,而指定的工件名称没有前导空格或尾部空格。

检查点图标检查您的进度

下图显示了运行完成时的 Notebook。 笔记本为您的模型设置了监视器,因此您现在可以在 Watson OpenScale中查看部署。

已完成 Notebook 运行




任务 4: 评估模型

预览教程视频 To preview this task, watch the video beginning at 03:35.

执行以下步骤以下载保留数据,并使用该数据在 Watson OpenScale中评估模型:

  1. 单击导航跟踪中的 评估 ML 模型 项目。

    导航跟踪

  2. 资产 选项卡上,单击 数据> 数据资产

  3. 点击 "溢出菜单中的 "溢出菜单,选择 "GoldenBank_HoldoutData.csv数据资产的 "下载。 要验证模型是否按需要工作,您需要一组从模型训练中保留的带标签数据。 此 CSV 文件包含该保留数据。

  4. 启动 Watson OpenScale。

    1. 导航菜单"导航菜单,选择服务 > 服务实例

    2. 单击 Watson OpenScale 实例以打开服务实例页面。 如果出现提示,请使用用于注册 Cloud Pak for Data的相同凭证登录。

      注:您的实例可能具有其他名称,例如 `watsonx.governance-xx`。
    3. 在 Watson OpenScale 服务实例页面上,单击 启动 Watson OpenScale

  5. "洞察" 仪表板上,单击 抵押贷款审批模型部署 磁贴。

  6. 操作 菜单中,选择 立即评估

  7. 从导入选项列表中,选择 从 CSV 文件

  8. 将从项目中下载的 Golden Bank_HoldoutData.csv 数据文件拖入侧面板。

  9. 单击 上载并评估 ,然后等待评估完成。

检查点图标检查您的进度

下图显示了 Watson OpenScale中已部署模型的评估结果。 现在,您已评估模型,准备好观察模型质量。

已评估的模型




任务 5: 观察模型监视器的质量

预览教程视频 To preview this task, watch the video beginning at 04:40.

Watson OpenScale 质量监视器会生成一组度量值,以评估模型的质量。 您可以使用这些质量指标来确定模型预测结果的效果。 当使用保留数据的评估完成时,请遵循以下步骤来观察模型质量或准确性:

  1. 质量部分,点击配置图标 "配置。 在这里,您可以看到为此监视器配置的质量阈值为 70% ,并且所使用的质量测量是 ROC 曲线下的面积。

  2. 单击 转至模型摘要 以返回到模型详细信息屏幕。

  3. 质量部分,单击详细信息图标 "详细信息,查看模型质量的详细结果。 在这里,您可以看到一些质量度量计算和一个混淆矩阵,其中显示了正确的模型决策以及误报和误报。 ROC 曲线下的计算面积为 0.9 或更高,这超过了 0.7 阈值,因此模型满足其质量要求。

  4. 单击导航跟踪中的 抵押核准模型部署 以返回到模型详细信息屏幕。

检查点图标检查您的进度

下图显示了 Watson OpenScale中的质量详细信息。 现在,您已观察到模型质量,可以观察到模型公平性。

质量




任务 6: 观察模型监视器以获取公平性

预览教程视频 To preview this task, watch the video beginning at 05:41.

Watson OpenScale 公平性监视器生成一组度量以评估模型的公平性。 您可以使用公平性指标来确定模型是否产生有偏差的结果。 遵循以下步骤来观察模型公平性:

  1. 公平性部分,点击配置图标 "配置。 在这里,您可以看到正在对该模型进行复审,以确保对申请人进行公平对待,而无论其性别如何。 妇女被确定为受监测群体,正在对其进行公平性衡量,公平性的门槛至少为 80%。 公平性监视器使用不同的影响方法来确定公平性。 不同影响将受监视组的有利结果百分比与参考组的有利结果百分比进行比较。

  2. 单击 转至模型摘要 以返回到模型详细信息屏幕。

  3. 公平性部分,单击详细信息图标 "详细信息,查看模型公平性的详细结果。 在这里,您可以看到正在自动批准的男性和女性申请人的百分比,以及 100% 以上的公平性分数,因此模型性能远远超过所需的 80% 公平性阈值。

  4. 请注意标识的数据集。 为了确保公平性指标最准确, Watson OpenScale 使用扰动来确定仅更改受保护属性和相关模型输入而其他功能保持不变的结果。 扰动将特征的值从参考组更改为受监视组,反之亦然。 当使用 "均衡" 数据集时,这些附加护栏用于计算公平性,但您也可以仅使用有效内容或模型训练数据来查看公平性结果。 由于模型的行为是公平的,因此您无需为此度量输入其他详细信息。

    公平性数据集

  5. 单击 抵押核准模型部署 导航跟踪以返回到模型详细信息屏幕。

检查点图标检查您的进度

下图显示了 Watson OpenScale中的公平性详细信息。 现在,您已观察到模型公平性,可以观察到模型可解释性。

公平性




任务 7: 观察模型监视器以进行漂移

预览教程视频 To preview this task, watch the video beginning at 07:25.

Watson OpenScale 漂移监视器会测量一段时间内数据中的更改,以确保模型的结果一致。 使用漂移评估可识别模型输出中的更改,预测的准确性以及输入数据的分布。 遵循以下步骤来观察模型漂移:

  1. 漂移部分,点击配置图标 "配置。 在这里,您可以看到漂移阈值。 输出漂移测量模型置信度分布中的变化。 模型质量漂移通过将估算的运行时准确性与训练准确性进行比较来度量准确性下降。 特征漂移用于测量重要特征的值分布变化。 该配置还会显示所选功能部件的数量以及最重要的功能部件。

  2. 单击 转至模型摘要 以返回到模型详细信息屏幕。

  3. 漂移部分,点击详细信息图标 "详细信息,查看模型漂移的详细结果。 您可以使用时间序列图表来查看每个度量标准得分随时间变化的历史记录。 值越低越好,因此在这种情况下,结果会高于配置中设置的阈值上限。 然后查看有关如何计算分数输出和特征漂移的详细信息。 您还可以查看有关每个功能部件的详细信息,以了解这些功能部件如何对 Watson OpenScale 生成的评分作出贡献。

  4. 单击 抵押核准模型部署 导航跟踪以返回到模型详细信息屏幕。

检查点图标检查您的进度

下图显示了 Watson OpenScale中的漂移详细信息。 现在,您已观察到模型漂移,可以观察到模型可解释性。

漂移




任务 8: 观察模型监视器以了解可解释性

预览教程视频 To preview this task, watch the video beginning at 08:46.

了解模型是如何做出决定的也很重要。 需要这种理解来向参与贷款审批的人员解释决策,并确保模型所有者的决策有效。 要了解这些决策,请执行以下步骤来观察模型可解释性:

  1. 在左侧导航面板中,单击 "解释交易"图标 "解释事务

  2. 选择 抵押核准模型部署 以查看交易列表。

  3. 对于任何事务,单击 操作 列下的 说明 。 在这里,您将看到此决策的详细说明。 您将看到模型的最重要输入以及每个输入对最终结果的重要性。 蓝色条形表示倾向于支持模型决策的输入,而红色条形显示可能导致另一个决策的输入。 例如,申请人可能有足够的收入可以通过其他方式获得批准,但他们的不良信用历史记录和高额债务共同导致模型拒绝申请。 查看此说明以了解模型决策的基础。

  4. (可选) 如果要进一步深入了解模型如何作出其决策,请单击 检查 选项卡。 使用 检查 功能来分析决策以查找敏感度区域,在这些区域中,对几个输入的少量更改将导致不同的决策,并且您可以通过使用替代方法覆盖某些实际输入来自行测试敏感度,以查看这些更改是否会影响结果。

检查点图标检查您的进度

下图显示了 Watson OpenScale中事务的可解释性。 您已确定该模型是准确的,并且公平对待所有申请人。 现在,您可以将模型推进到其生命周期中的下一个阶段。

可解释性



后续步骤

请尝试以下附加教程,以获取有关构建和评估模型的更多实践经验:

其他资源

父主题: 快速入门教程

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more