0 / 0
Go back to the English version of the documentation
数据监管教程: 使用数据
Last updated: 2025年1月14日
数据监管教程: 使用数据

学习 在完成 "收集高质量数据教程 "和 "保护数据教程 "后,使用本教程处理高质量和受保护的数据,并使用数据结构试验的数据治理用例。 您的目标是评估,共享,塑造和分析数据结构中的数据。

快速入门: 如果尚未为此教程创建样本项目,请访问资源中心中的 数据监管样本项目

教程的故事是, Golden Bank 有几个部门需要访问高质量的客户抵押贷款数据。 作为数据分析人员,您需要搜索和查找正确的数据,了解并信任其内容,然后准备好供其他数据分析人员和数据科学家使用。

以下动画图像提供了在本教程结束时将完成的内容的快速预览,您将在其中查看目录资产,手动扩充资产并创建关系,可视化数据以及过滤数据以提高质量。 单击该图像以查看更大的图像。

动画图像

预览教程

在本教程中,您将完成以下任务:

观看视频观看视频,预览本教程的步骤。 视频中显示的用户界面可能存在细微差异。 该视频旨在与编写的教程相伴。

此视频提供了一种可视方法来学习本文档中的概念和任务。





完成本教程的提示
以下是成功完成本教程的一些提示。

使用视频图片

提示: 启动视频,然后在滚动教程时,视频将移动到画中画方式。 关闭视频目录以获取最佳图片体验。 您可以使用图片-图片方式,以便在完成本教程中的任务时可以关注视频。 单击要继续执行的每个任务的时间戳记。

以下动画图像显示了如何使用视频图片和目录功能:

如何使用图片和章节

在社区中获取帮助

如果您需要本教程的帮助,可以在Cloud Pak for Data社区讨论区提问或寻找答案。

设置浏览器窗口

为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。

并排教程和 UI

提示: 如果在用户界面中完成本教程时迂到引导式教程,请单击 稍后可能



设置先决条件

完成必备教程

预览教程视频 To preview this task, watch the video beginning at 00:39.

完成 整理高质量数据保护数据 教程:

  • 整理高质量数据 教程,用于导入和扩充数据资产并将其发布到目录中。
  • 保护数据 教程,用于创建数据保护规则和屏蔽流以保护数据。

基本 高级 标准除非另有说明,否则此信息适用于IBM Knowledge Catalog所有版本。




任务 1: 了解数据资产

预览教程视频 To preview this task, watch the video beginning at 01:12.

目录中的数据资产远远超过指向数据的指针。 它们包含有关数据格式和含义的信息以及有关数据值的统计信息。 执行以下步骤以了解数据资产的价值:

  1. 导航菜单"导航菜单,选择目录 > 查看所有目录

  2. 打开 抵押贷款审批目录

    特色资产部分显示了最近添加的资产和评分较高的资产,这些资产由目录合作者进行评分和审查。

  3. 单击 隐藏特色资产 以关闭该部分。

  4. 搜索 mortgage

  5. 单击 抵押权人申请人信任 以查看该目录资产。 概述 选项卡和侧面板提供有关资产的基本信息,例如描述,评级,标记,资产所在位置,业务术语,数据类和相关项。

  6. 单击 概要文件 选项卡。 概要文件信息可帮助您了解数据的内容,质量和易用性。

  7. 滚动到右侧以找到 ZIP_CODE 列。

  8. 自动分配给 ZIP_CODE 列的数据类是 Commercial and Government Entity。 请注意,自动分配的数据类可能有所不同。 由于值为邮政编码,因此您可以轻松地将此列重新分类。 单击下拉列表以查看其他可能的数据类及其置信度级别。 选择 美国邮政编码

  9. 单击 资产 选项卡以查看数据预览。

  10. 返回到 概述 选项卡以查看有关列的更多元数据。 在列的列表中,搜索 JOBMENT_STATUS 列以查看包含已分配业务术语的元数据。

检查点图标 查看进度

下图显示了目录中的抵押权人-申请人-信任资产。 您已探索 IBM Knowledge Catalog 在元数据扩充期间自动添加到数据资产的信息类型。 在下一个任务中,您将手动扩充此数据资产。

抵押权人-申请人-信任资产




任务 2: 扩充资产并创建关系

预览教程视频 要预览此任务,请观看从 02:49 开始的视频。

您可以通过向资产添加信息来使资产更有价值。 例如,您可以添加资产的意见,更新资产属性以及创建关系以链接资产。 遵循以下步骤来扩充资产和创建关系:

  1. 对于 抵押权申请人 目录资产,单击 复审 选项卡。 对此资产进行评级和评论,以便其他人可以轻松找到该资产。

    1. 选择 5 星星 作为评级。

    2. 对于复审,复制并粘贴以下文本:

      This contains high quality customer data from the mortgage system.
      
    3. 单击提交

  2. 单击 概述 选项卡。

  3. 点击资产名称旁边的编辑图标 编辑 ,即可编辑资产名称。

    1. 将名称更改为:

      MORTGAGE_APPLICANTS_TRUST_PROTECT
      
    2. 单击应用

  4. 在右侧面板的描述部分 ,点击添加图标 添加

    注:

    如果该资产已有描述,您将看到编辑图标 编辑 ,而不是添加图标

    1. 复制并粘贴以下描述:

      Mortgage applicants from the Mortgage System
      
    2. 单击应用

  5. 由于该资产与抵押贷款有关,因此请在 “商业条款” 旁边点击添加图标 添加编辑图标 编辑

    1. 搜索 字段中,输入 loan

      注: 输入搜索项后不需要按 Enter 键。 输入搜索项后,您将立即看到结果列表。
    2. 选择 贷款

    3. 单击保存

  6. 由于该资产包含个人信息,请在分类旁边点击添加图标 添加编辑图标 编辑

    1. 选择 个人可标识信息

    2. 单击保存

  7. 由于此资产与其他抵押资产相关,因此在 相关项旁边,单击 添加相关项> 添加相关资产

    1. 选择 相关,然后单击 下一步

    2. 选择 CREDIT_SCORE抵押权应用程序 资产,然后单击 添加

  8. 单击 抵押权应用程序 以查看该相关资产。

检查点图标 查看进度

下图显示了目录中抵押者资产的 "概述" 选项卡。 通过查看,更新属性以及向资产添加关系,使这些资产更有价值。 在下一个任务中,您将向项目添加扩充资产。

具有相关资产的抵押权人 (抵押权人)




任务 3: 向项目添加扩充数据

预览教程视频 要预览此任务,请观看从 04:09 开始的视频。

数据分析团队需要抵押贷款分析项目中的抵押贷款申请人数据,以优化,可视化,分析和用作模型的训练数据。 执行以下步骤以将扩充后的数据添加到项目:

  1. 点击导航栏中的 “按揭审批目录 ”。
    导航跟踪

  2. MORTGAGE_APPLICANTS_TRUST_PROTECT 目录资产行的末尾,点击 “溢出”菜单 溢出菜单 ,然后选择 “添加到项目 ”。

    1. 目标 下拉列表中,选择 数据监管 项目。

    2. 单击添加

  3. 当显示通知时,单击 转至项目。 如果您错过通知,请执行以下操作:

    1. 点击导航菜单 导航菜单 ,选择项目 > 查看所有项目

    2. 单击 数据监管 项目。

  4. 在项目中,单击 资产 选项卡以查看 抵押权人 数据资产。

检查点图标 查看进度

下图显示了项目中的抵押权人-申请人-保护资产。 现在,您已准备好使数据可视化。

项目中的抵押权人-申请人-信任保护资产




任务 4: 可视化数据

预览教程视频 要预览此任务,请观看从 04:39 开始的视频。

您需要清理和优化抵押贷款申请人数据,以便为您的分析工具和模型做好准备。 确定所需成形方式的快速简便方法是在 Data Refinery中可视化数据。 可视化基于数据的前 5,000 行。 执行以下步骤以可视化数据:

  1. 单击 抵押权申请人-信任保护 数据资产以预览数据。

  2. 单击 准备数据 以在 Data Refinery中打开数据资产,并等待读取和处理数据。

  3. 在 " 关于此资产 " 面板中,单击 X 以关闭该面板。

  4. 在 " 步骤 " 面板中,单击 X 以关闭该面板。

  5. 单击直观显示选项卡。

  6. 对于 要可视化的列,请选择 JOBMENT_STATUS

  7. 单击 可视化数据。 该工具选择一个饼图作为此列的最佳图表类型,按就业状态显示申请人的分布情况。 请注意,建议的图表类型由条形图,字云图和旭日图旁边的蓝色点指示。

  8. 对于 图表类型,选择 气泡图 图表类型。 气泡图是快速可视化特定数据集中的值分布的一种简单方法。

  9. 图表类型 下拉列表中,选择 关系 图表类型。

  10. 此图表类型需要两列。 选择以下列:

    1. 对于第一列,选择 JOBMENT_STATUS

    2. 单击 添加其他列

    3. 对于第二个 ,选择 教育

  11. 通过 关系 图表,您可以选择端点以查看关系。 例如,您可以按教育程度查看申请人的就业状况。

检查点图标 查看进度

下图显示了在 Data Refinery中可视化的抵押权应用程序 (trust_protect) 资产。 现在,您已准备好清理数据。

关系可视化




任务 5: 准备数据以用于分析和 AI

预览教程视频 要预览此任务,请观看从 05:59 开始的视频。

您无法处理没有社会保障号码的申请人,因此需要复审数据并除去没有社会保障号码的任何申请人。 要准备抵押权申请人的 trust_protect 数据,您将:

  • 在 Social_Security_Number 列中查看值的频率。
  • 使用 Social_Security_Number 列中的缺失值对申请人进行过滤。

请遵循以下步骤来准备数据:

  1. 在 Data Refinery中,单击 概要文件 选项卡。

  2. 滚动到右侧以找到 Social_Security_Number 列。 请注意多个缺失值。

  3. 单击 数据 选项卡以过滤掉这些记录。 在屏幕底部的状态栏中, Data Refinery 指示 FULL DATA SET 为 1101 行。

  4. 如果 " 步骤 " 面板不可见,请单击 步骤 以打开该面板。

  5. 单击 新建步骤

    1. 清除 部分中,选择 过滤器

    2. 字段中,选择 Social_Security_Number 列。

    3. 运算符 字段中,选择 不为空

    4. 单击应用。 请注意,在屏幕底部的状态栏中, Data Refinery 现在指示 FULL DATA SET 为 1000 行,因为将过滤掉缺少社会保障号的行。 请注意,新步骤将显示在 " 步骤 " 面板中,其中显示 过滤器 操作。

  6. 单击 概要文件 选项卡。

  7. 滚动到右侧以找到 Social_Security_Number 列。 请注意,缺失值已消失。

  8. 在工具栏中点击保存图标 保存

  9. 从工具栏中点击 “导出”图标 ,然后选择 “将当前数据导出为CSV ”。
    导出为 CSV

    1. MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv 保存到本地文件夹。

    2. 浏览到该文件夹,然后打开 CSV 文件,其中包含 1000 行,并且没有申请人缺少社会保险号。

  10. 返回Cloud Pak for Data ,点击导航栏中的数据治理项目。
    导航跟踪

  11. 单击 所有资产,然后找到名为 MORTGAGE_APPLICANTS_TRUST_PROTECT_flow的新 Data Refinery 流资产。

提示: 您可以将优化后的数据集保存到项目或外部数据源,例如存储原始数据集的 Db2 Warehouse 实例。 有关更多信息,请参阅 在 Data Refinery中创建作业

检查点图标 查看进度

下图显示了您在 Data Refinery中优化的 MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv 文件。 此数据集包含有关提供社会保障号码的抵押贷款申请人的信息。

优化的数据资产



作为 Golden Bank 的数据分析人员,您学会了如何搜索和查找正确的数据,了解和信任其内容,然后准备好供其他数据分析人员和数据研究员使用。

清除(可选)

如果要重新学习 "数据监管" 用例中的教程,请删除以下工件。

工件 如何删除
导入的业务术语 删除治理人工制品
银行类别 删除类别
数据保护规则: 保密信息和 Redact 社会保障号 删除数据保护规则
抵押贷款审批目录 删除目录
数据监管样本项目 删除项目

后续步骤

了解更多信息

父主题: 用例教程