0 / 0
Go back to the English version of the documentation
数据监管教程: 使用数据
Last updated: 2024年11月28日
数据监管教程: 使用数据

学习 在完成 "收集高质量数据教程 "和 "保护数据教程 "后,使用本教程处理高质量和受保护的数据,并使用数据结构试验的数据治理用例。 您的目标是评估,共享,塑造和分析数据结构中的数据。

快速入门: 如果尚未为此教程创建样本项目,请访问资源中心中的 数据监管样本项目

教程的故事是, Golden Bank 有几个部门需要访问高质量的客户抵押贷款数据。 作为数据分析人员,您需要搜索和查找正确的数据,了解并信任其内容,然后准备好供其他数据分析人员和数据科学家使用。

以下动画图像提供了在本教程结束时将完成的内容的快速预览,您将在其中查看目录资产,手动扩充资产并创建关系,可视化数据以及过滤数据以提高质量。 单击该图像以查看更大的图像。

动画图像

预览教程

在本教程中,您将完成以下任务:

观看视频观看视频,预览本教程的步骤。 视频中显示的用户界面可能存在细微差异。 该视频旨在与编写的教程相伴。

此视频提供了一种可视方法来学习本文档中的概念和任务。





完成本教程的提示
以下是成功完成本教程的一些提示。

使用视频图片

提示: 启动视频,然后在滚动教程时,视频将移动到画中画方式。 关闭视频目录以获取最佳图片体验。 您可以使用图片-图片方式,以便在完成本教程中的任务时可以关注视频。 单击要继续执行的每个任务的时间戳记。

以下动画图像显示了如何使用视频图片和目录功能:

如何使用图片和章节

在社区中获取帮助

如果您需要本教程的帮助,可以在Cloud Pak for Data社区讨论区提问或寻找答案。

设置浏览器窗口

为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。

并排教程和 UI

提示: 如果在用户界面中完成本教程时迂到引导式教程,请单击 稍后可能



设置先决条件

完成必备教程

预览教程视频 To preview this task, watch the video beginning at 00:39.

完成 整理高质量数据保护数据 教程:

  • 整理高质量数据 教程,用于导入和扩充数据资产并将其发布到目录中。
  • 保护数据 教程,用于创建数据保护规则和屏蔽流以保护数据。

基本 高级 标准除非另有说明,否则此信息适用于IBM Knowledge Catalog所有版本。




任务 1: 了解数据资产

预览教程视频 To preview this task, watch the video beginning at 01:12.

目录中的数据资产远远超过指向数据的指针。 它们包含有关数据格式和含义的信息以及有关数据值的统计信息。 执行以下步骤以了解数据资产的价值:

  1. 导航菜单"导航菜单,选择目录 > 查看所有目录

  2. 打开 抵押贷款审批目录

  3. "特色资产" 部分显示 最近添加的 资产, 建议的 资产 (根据您过去的使用情况和受欢迎程度,这些资产是来自 AI 和机器学习的建议资产) 以及 高度评级的 资产 (对合作者进行了评级和复审)。

  4. 单击 隐藏特色资产 以关闭该部分。

  5. 搜索 mortgage

  6. 单击 抵押权人申请人信任 以查看该目录资产。 概述 选项卡和侧面板提供有关资产的基本信息,例如描述,评级,标记,资产所在位置,业务术语,数据类和相关项。

  7. 单击 概要文件 选项卡。 概要文件信息可帮助您了解数据的内容,质量和易用性。

  8. 滚动到右侧以找到 ZIP_CODE 列。

  9. 自动分配给 ZIP_CODE 列的数据类是 Commercial and Government Entity。 请注意,自动分配的数据类可能有所不同。 由于值为邮政编码,因此您可以轻松地将此列重新分类。 单击下拉列表以查看其他可能的数据类及其置信度级别。 选择 美国邮政编码

  10. 单击 资产 选项卡以查看数据预览。

  11. 返回到 概述 选项卡以查看有关列的更多元数据。 在列的列表中,搜索 JOBMENT_STATUS 列以查看包含已分配业务术语的元数据。

检查点图标检查您的进度

下图显示了目录中的抵押权人-申请人-信任资产。 您已探索 IBM Knowledge Catalog 在元数据扩充期间自动添加到数据资产的信息类型。 在下一个任务中,您将手动扩充此数据资产。

抵押权人-申请人-信任资产




任务 2: 扩充资产并创建关系

预览教程视频 To preview this task, watch the video beginning at 02:49.

您可以通过向资产添加信息来使资产更有价值。 例如,您可以添加资产的意见,更新资产属性以及创建关系以链接资产。 遵循以下步骤来扩充资产和创建关系:

  1. 对于 抵押权申请人 目录资产,单击 复审 选项卡。 对此资产进行评级和评论,以便其他人可以轻松找到该资产。

    1. 选择 5 星星 作为评级。

    2. 对于复审,复制并粘贴以下文本:

      This contains high quality customer data from the mortgage system.
      
    3. 单击提交

  2. 单击 概述 选项卡。

  3. 点击资产名称旁边的 "编辑图标 "编辑编辑资产名称。

    1. 将名称更改为:

      MORTGAGE_APPLICANTS_TRUST_PROTECT
      
    2. 单击应用

  4. 在右侧面板的描述部分,点击添加图标 "添加

    注:

    如果该资产已有描述,您将看到一个编辑图标 "编辑,而不是添加图标。

    1. 复制并粘贴以下描述:

      Mortgage applicants from the Mortgage System
      
    2. 单击应用

  5. 由于该资产与抵押贷款有关,请在 "业务条款"旁边点击 "添加"图标 "添加"或 "编辑"图标 "编辑"。

    1. 搜索 字段中,输入 loan

      注: 输入搜索项后不需要按 Enter 键。 输入搜索项后,您将立即看到结果列表。
    2. 选择 贷款

    3. 单击保存

  6. 由于该资产包含个人信息,请在 "分类"旁边单击 "添加"图标 "添加或 "编辑"图标 "编辑

    1. 选择 个人可标识信息

    2. 单击保存

  7. 由于此资产与其他抵押资产相关,因此在 相关项旁边,单击 添加相关项> 添加相关资产

    1. 选择 相关,然后单击 下一步

    2. 选择 CREDIT_SCORE抵押权应用程序 资产,然后单击 添加

  8. 单击 抵押权应用程序 以查看该相关资产。

检查点图标检查您的进度

下图显示了目录中抵押者资产的 "概述" 选项卡。 通过查看,更新属性以及向资产添加关系,使这些资产更有价值。 在下一个任务中,您将向项目添加扩充资产。

具有相关资产的抵押权人 (抵押权人)




任务 3: 向项目添加扩充数据

预览教程视频 To preview this task, watch the video beginning at 04:09.

数据分析团队需要抵押贷款分析项目中的抵押贷款申请人数据,以优化,可视化,分析和用作模型的训练数据。 执行以下步骤以将扩充后的数据添加到项目:

  1. 单击导航路径中的 "按揭审批目录"。
    导航跟踪

  2. MORTGAGE_APPLICANTS_TRUST_PROTECT目录资产行末尾,单击溢出菜单 "溢出菜单,然后选择添加到项目

    1. 目标 下拉列表中,选择 数据监管 项目。

    2. 单击添加

  3. 当显示通知时,单击 转至项目。 如果您错过通知,请执行以下操作:

    1. 单击导航菜单"导航菜单,选择项目 > 查看所有项目

    2. 单击 数据监管 项目。

  4. 在项目中,单击 资产 选项卡以查看 抵押权人 数据资产。

检查点图标检查您的进度

下图显示了项目中的抵押权人-申请人-保护资产。 现在,您已准备好使数据可视化。

项目中的抵押权人-申请人-信任保护资产




任务 4: 可视化数据

预览教程视频 To preview this task, watch the video beginning at 04:39.

您需要清理和优化抵押贷款申请人数据,以便为您的分析工具和模型做好准备。 确定所需成形方式的快速简便方法是在 Data Refinery中可视化数据。 可视化基于数据的前 5,000 行。 执行以下步骤以可视化数据:

  1. 单击 抵押权申请人-信任保护 数据资产以预览数据。

  2. 单击 准备数据 以在 Data Refinery中打开数据资产,并等待读取和处理数据。

  3. 在 " 关于此资产 " 面板中,单击 X 以关闭该面板。

  4. 在 " 步骤 " 面板中,单击 X 以关闭该面板。

  5. 单击直观显示选项卡。

  6. 对于 要可视化的列,请选择 JOBMENT_STATUS

  7. 单击 可视化数据。 该工具选择一个饼图作为此列的最佳图表类型,按就业状态显示申请人的分布情况。 请注意,建议的图表类型由条形图,字云图和旭日图旁边的蓝色点指示。

  8. 对于 图表类型,选择 气泡图 图表类型。 气泡图是快速可视化特定数据集中的值分布的一种简单方法。

  9. 图表类型 下拉列表中,选择 关系 图表类型。

  10. 此图表类型需要两列。 选择以下列:

    1. 对于第一列,选择 JOBMENT_STATUS

    2. 单击 添加其他列

    3. 对于第二个 ,选择 教育

  11. 通过 关系 图表,您可以选择端点以查看关系。 例如,您可以按教育程度查看申请人的就业状况。

检查点图标检查您的进度

下图显示了在 Data Refinery中可视化的抵押权应用程序 (trust_protect) 资产。 现在,您已准备好清理数据。

关系可视化




任务 5: 准备数据以用于分析和 AI

预览教程视频 To preview this task, watch the video beginning at 05:59.

您无法处理没有社会保障号码的申请人,因此需要复审数据并除去没有社会保障号码的任何申请人。 要准备抵押权申请人的 trust_protect 数据,您将:

  • 在 Social_Security_Number 列中查看值的频率。
  • 使用 Social_Security_Number 列中的缺失值对申请人进行过滤。

请遵循以下步骤来准备数据:

  1. 在 Data Refinery中,单击 概要文件 选项卡。

  2. 滚动到右侧以找到 Social_Security_Number 列。 请注意多个缺失值。

  3. 单击 数据 选项卡以过滤掉这些记录。 在屏幕底部的状态栏中, Data Refinery 指示 FULL DATA SET 为 1101 行。

  4. 如果 " 步骤 " 面板不可见,请单击 步骤 以打开该面板。

  5. 单击 新建步骤

    1. 清除 部分中,选择 过滤器

    2. 字段中,选择 Social_Security_Number 列。

    3. 运算符 字段中,选择 不为空

    4. 单击应用。 请注意,在屏幕底部的状态栏中, Data Refinery 现在指示 FULL DATA SET 为 1000 行,因为将过滤掉缺少社会保障号的行。 请注意,新步骤将显示在 " 步骤 " 面板中,其中显示 过滤器 操作。

  6. 单击 概要文件 选项卡。

  7. 滚动到右侧以找到 Social_Security_Number 列。 请注意,缺失值已消失。

  8. 从工具栏中点击保存图标 "保存

  9. 从工具栏中单击导出图标,然后选择将当前数据导出为 CSV
    导出为 CSV

    1. MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv 保存到本地文件夹。

    2. 浏览到该文件夹,然后打开 CSV 文件,其中包含 1000 行,并且没有申请人缺少社会保险号。

  10. 返回Cloud Pak for Data,然后单击导航路径中的数据治理项目。
    导航跟踪

  11. 单击 所有资产,然后找到名为 MORTGAGE_APPLICANTS_TRUST_PROTECT_flow的新 Data Refinery 流资产。

提示: 您可以将优化后的数据集保存到项目或外部数据源,例如存储原始数据集的 Db2 Warehouse 实例。 有关更多信息,请参阅 在 Data Refinery中创建作业

检查点图标检查您的进度

下图显示了您在 Data Refinery中优化的 MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv 文件。 此数据集包含有关提供社会保障号码的抵押贷款申请人的信息。

优化的数据资产



作为 Golden Bank 的数据分析人员,您学会了如何搜索和查找正确的数据,了解和信任其内容,然后准备好供其他数据分析人员和数据研究员使用。

清除(可选)

如果要重新学习 "数据监管" 用例中的教程,请删除以下工件。

工件 如何删除
导入的业务术语 删除治理人工制品
银行类别 删除类别
数据保护规则: 保密信息和 Redact 社会保障号 删除数据保护规则
抵押贷款审批目录 删除目录
数据监管样本项目 删除项目

后续步骤

了解更多信息

父主题: 用例教程

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more