0 / 0
Go back to the English version of the documentation
数据治理教程: 整理高质量数据
Last updated: 2024年11月28日
数据治理教程: 整理高质量数据

请学习本教程,以了解如何使用数据光纤网试用的数据监管用例来准备可信数据。 您的目标是通过丰富数据和运行数据质量分析来创建可信数据资产。

快速入门: 如果尚未为此教程创建样本项目,请访问资源中心中的 数据监管样本项目

教程的故事是, Golden Bank 有几个部门需要访问高质量的客户抵押贷款数据。 作为治理团队的数据专员,您必须对公司的数据进行排序和组织,以提供数据使用者可以在自助服务目录中轻松找到的高质量且受保护的数据资产。

以下动画图像提供了在本教程结束时将完成的内容的快速预览,您将在其中从外部数据源导入元数据,使用自动分配的业务术语扩充该数据,查看扩充的数据以及将扩充的数据发布到目录。 单击该图像以查看更大的图像。

动画图像

预览教程

在本教程中,您将完成以下任务:

观看视频 观看此视频以预览本教程中的步骤。 视频中显示的用户界面可能存在细微差异。 该视频旨在与编写的教程相伴。

此视频提供了一种可视方法来学习本文档中的概念和任务。





完成本教程的提示
以下是成功完成本教程的一些提示。

使用视频图片

提示: 启动视频,然后在滚动教程时,视频将移动到画中画方式。 关闭视频目录以获取最佳图片体验。 您可以使用图片-图片方式,以便在完成本教程中的任务时可以关注视频。 单击要继续执行的每个任务的时间戳记。

以下动画图像显示了如何使用视频图片和目录功能:

如何使用图片和章节

在社区中获取帮助

如果您需要本教程的帮助,可以在Cloud Pak for Data社区讨论区提问或寻找答案。

设置浏览器窗口

为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。

并排教程和 UI

提示: 如果在用户界面中完成本教程时迂到引导式教程,请单击 稍后可能



设置先决条件

注册 Cloud Pak for Data as a Service

您必须注册 Cloud Pak for Data as a Service ,并为数据集成用例供应必要的服务。

  • 如果您具有现有的 Cloud Pak for Data as a Service 帐户,那么可以开始使用本教程。 如果您有轻量套餐帐户,那么每个帐户只有一个用户可以运行本教程。
  • 如果您还没有 Cloud Pak for Data as a Service 帐户,请 注册以获取数据光纤网试用

视频图标观看以下视频,了解Cloud Pak for Data 中的数据结构。

此视频提供了一种可视方法来学习本文档中的概念和任务。

验证必需的供应服务

预览教程视频 To preview this task, watch the video beginning at 01:05.

请遵循以下步骤来验证或供应必需的服务:

  1. 导航菜单"导航菜单,选择服务 > 服务实例

  2. 使用 产品 下拉列表来确定 IBM Knowledge Catalog 服务实例是否存在。

  3. 如果需要创建 IBM Knowledge Catalog 服务实例,请单击 添加服务

    1. 选择 IBM Knowledge Catalog

    2. 选择轻量套餐。

    3. 单击创建

  4. 重复这些步骤以验证或供应 Cloud Object Storage 服务。

检查点图标检查您的进度

下图显示了供应的服务实例:

提供的服务

创建样本项目

预览教程视频 To preview this task, watch the video beginning at 01:38.

如果尚未为此教程创建样本项目,请执行以下步骤:

  1. 访问资源中心的数据治理示例项目

  2. 单击创建项目

  3. 如果提示将项目与 Cloud Object Storage 实例相关联,请从列表中选择 Cloud Object Storage 实例。

  4. 单击创建

  5. 等待项目导入完成,然后单击 查看新项目 以验证是否已成功创建项目和资产。

  6. 单击 资产 选项卡以查看项目的资产。

  7. 从 "Banking.csv数据资产行末尾的 "溢出菜单 "溢出菜单中选择 "下载,并将其保存到电脑中。 您将在稍后的步骤中使用该文件。

注: 您可能会看到一个指导式教程,其中显示了此用例随附的教程。 导览中的链接将打开这些教程指示信息。

检查点图标检查您的进度

下图显示了样本项目中的 "资产" 选项卡。 现在,您已准备好开始本教程。

样本项目




任务 1: 创建目录

预览教程视频 To preview this task, watch the video beginning at 02:49.

在开始使用数据之前,请创建一个目录,您将在其中发布数据以与组织共享数据。 通过 IBM Knowledge Catalog Lite 套餐,您只能创建两个目录。 如果您已有目录,那么可以跳过此步骤。 否则,请执行以下步骤来创建目录:

提示: 如果这是您第一次访问目录,那么您将看到引导式教程,询问您是否要浏览目录。 现在,单击 可能稍后
  1. 导航菜单"导航菜单,选择目录 > 查看所有目录

  2. 如果在 " 目录 " 页面上看到目录,请跳至 任务 2: 创建类别。 否则,请执行以下步骤来创建新目录:

  3. 单击创建目录

  4. 对于 名称,复制并粘贴目录名称,如下所示,没有前导或尾部空格:

    Mortgage Approval Catalog
    
  5. 选择 强制实施数据保护规则,确认选择并接受其他字段的缺省值。

  6. 单击创建

检查点图标检查您的进度

下图显示了您的目录。 现在,您已准备好与组织共享资产。

抵押贷款审批目录




任务 2: 创建类别

预览教程视频 To preview this task, watch the video beginning at 03:13.

您需要一个类别来包含将在下一个任务中导入的业务术语。 类别类似于文件夹,用于组织监管工件以及可以编写和管理这些工件的人员。 执行以下步骤以创建类别:

  1. 从Cloud Pak for Data导航菜单 "导航菜单中,选择治理 > 类别

  2. 单击 添加类别> 新建类别

  3. 对于名称,输入 Banking

  4. 单击创建

检查点图标检查您的进度

下图显示了 "银行" 类别。 您现在已准备好导入业务术语。

银行类别




任务 3: 添加业务术语

预览教程视频 To preview this task, watch the video beginning at 03:41.

现在将业务术语导入到新类别中。 您将在稍后的步骤中使用它们来扩充数据资产。 业务术语是业务概念的标准化定义,以便在整个企业中以统一且易于理解的方式描述数据。 执行以下步骤以从文件导入业务术语:

  1. 从Cloud Pak for Data导航菜单 "导航菜单中,选择治理 > 业务术语

  2. 单击 添加业务术语> 从文件导入

  3. 单击 将文件拖放到此处或上载

    1. 选择先前下载的 banking.csv 文件。

    2. 单击 打开

  4. 单击下一步

  5. 选择 替换所有值,然后单击 下一步

  6. 单击 转至任务 以查看草稿业务术语。 如果错过了通知,请从Cloud Pak for Data导航菜单 "导航菜单中选择 "治理">"任务收件箱"。

  7. 选中 发布业务术语 复选框,然后单击 发布。 单击 发布 以确认。

  8. 从Cloud Pak for Data导航菜单 "导航菜单,选择治理 > 业务条款,查看已发布的业务条款。

检查点图标检查您的进度

下图显示了导入的业务术语。 现在,您已准备好将数据导入到项目中,然后使用导入的业务术语进行扩充。

导入的业务术语




任务 4: 将数据导入到项目

预览教程视频 To preview this task, watch the video beginning at 04:47.

样本项目包含与 Db2 Warehouse 实例的连接,该实例包含抵押资产。 您可以将与数据资产关联的技术元数据导入到项目或目录中,以对这些资产进行库存,评估和编目。 技术元数据描述了数据对象的结构。 执行以下步骤以导入数据资产:

  1. 导航菜单"导航菜单,选择项目 > 查看所有项目

  2. 单击 数据监管 项目。

  3. 单击“资产”选项卡

  4. 点击新资产 > 导入数据资产的元数据

  5. 对于名称,复制并粘贴以下文本:

    Mortgage data - metadata import
    
  6. 单击下一步以继续。

  7. 在 " 选择目标 " 页面上,选择 此项目,然后单击 下一步 以继续。

  8. 在 " 选择作用域 " 页面上,单击 选择连接

    1. 选择 Data Fabric Trial- Db2 Warehouse 连接。

    2. 选中 WKC_MBS 模式旁边的复选框,然后单击 WKC_MBS 模式名称。

    3. 选择下表:

      • 商业客户机
      • CREDIT_SCORE
      • 家庭价格
      • 抵押贷款申请人
      • 抵押权人应用程序
    4. 查看侧面板中的资产列表,然后单击 选择

  9. 单击下一步以继续操作,安排导入。 您可以手动运行元数据扩充,因此保持已调度的关闭状态。

  10. 单击 下一步 以继续执行 高级选项

  11. 接受 " 高级选项 " 页面上的缺省值,然后单击 下一步 以继续复审。

  12. 查看导入的摘要,然后单击创建。 元数据导入作业将启动。

  13. 点击 "刷新图标 "刷新,观察状态从 "排队等候到 "进行中"再到 "进口的变化。 作业运行完成后,您将看到列出的五个资产。

检查点图标检查您的进度

下图显示了已完成的元数据导入。 下一个任务是使用导入的业务术语来扩充导入的数据资产。

Metadata import 资产




任务 5: 对导入的数据进行扩充

预览教程视频 To preview this task, watch the video beginning at 06:07.

您可以使用有助于用户更快地找到数据的信息来丰富数据资产,以决定数据是否适合手头的任务,他们是否可以信任数据以及如何使用数据。 此类信息包括定义数据含义的术语、记录所有权或确定质量标准的规则,或者复审,等等。 执行以下步骤来扩充导入的数据:

  1. 单击导航路径中的数据治理项目名称。
    导航跟踪

  2. 资产选项卡,点击新资产 > 使用元数据丰富数据资产

  3. 对于名称,复制并粘贴以下文本:

    Mortgage data - metadata enrichment
    
  4. 单击下一步以继续。

  5. 单击 从项目中选择数据

    1. 选择 Metadata import

    2. 单击 抵押数据-元数据导入旁边的复选框。 此资产包含以下资产:

      • COMMERICIAL_CLIENT
      • CREDIT_SCORE
      • 家庭价格
      • 抵押贷款申请人
      • 抵押权人应用程序
    3. 单击选择

  6. 单击 下一步 以继续实现扩充目标。

  7. 选择所有扩充项目标:

    • 概要分析数据
    • 分配术语
    • 运行基本质量分析
  8. 对于 类别,单击 选择类别

    1. 仅选择 [未分类]银行

    2. 单击选择

  9. 对于 抽样,选择 基本

  10. 单击下一步以继续操作,安排导入。 您可以手动运行导入,因此保持已调度的关闭状态。

  11. 单击下一步以继续操作,查看结果。

  12. 单击创建

  13. 将显示元数据扩充资产,但该作业可能需要几分钟才能完成。 单击刷新图标 "刷新,观察状态从 "未分析"到 "进行中"再到 "已完成 "的变化。 作业运行完成后,您将看到列出的五个资产。

检查点图标检查您的进度

下图显示了已完成的元数据扩充。 现在,您可以浏览扩充的数据资产。

元数据扩充资产




任务 6: 查看元数据扩充项的结果

预览教程视频 To preview this task, watch the video beginning at 07:45.

元数据扩充项运行完成后,请执行以下步骤以查看扩充项数据:

  1. 在 " 抵押数据-元数据扩充 " 屏幕中,单击 选项卡。

  2. 列表中,找到 抵押权人 资产的 EMAIL_ADDRESS 列。

    1. MORTGAGE_APPLICANTS行的EMAIL_ADDRESS末尾,单击溢出菜单 "溢出菜单,然后选择查看列详细信息

    2. 详细信息 选项卡上的侧面板中,您会看到概要分析信息,例如: 格式,频率分布和统计信息。

    3. 在侧面板中,单击 监管 选项卡。 此选项卡包含在元数据扩充期间自动分配的数据类和业务术语。 您还可能会看到建议的业务术语和数据类,并手动分配这些业务术语和数据类。

    4. 查看任何建议的业务术语或数据类,并手动分配这些业务术语或数据类。 例如,您可能会将 Address 视为建议的业务术语。

      1. 单击 建议的业务术语

      2. 对于 地址,单击 分配

  3. MORTGAGE_APPLICANTS资产行的EMAIL_ADDRESS列末尾,单击溢出菜单 "溢出菜单,然后选择查看数据质量详情

    1. 查看数据质量信息。 IBM Knowledge Catalog 通过根据预先构建的维度分析每条记录中的每个值,自动为每个列和数据资产生成数据质量得分。

    2. 单击 X 以关闭 " 数据质量 " 窗口。

  4. CREDIT_SCORE资产的CITY栏中,单击溢出菜单 "溢出菜单,然后选择 "标记为已审核"。

  5. 单击“资产”选项卡

  6. 资产列表中,单击MORTGAGE_APPLICANTS资产的溢出菜单 "溢出菜单,然后选择查看资产详情

    1. 在侧面板中,单击 监管 选项卡以查看业务术语自动分配。

    2. 单击编辑图标 "编辑手动指定业务术语。

    3. 搜索 social。 如果未看到任何结果,请确保下拉列表设置为 所有术语 ,而不是 建议的术语

    4. 选择 社会保障号

    5. 单击分配

检查点图标检查您的进度

下图显示了已复审和扩充的数据资产。 下一步是将扩充的数据发布到目录以与您的组织共享。

已复审的扩充数据资产




任务 7: 将数据发布到目录

预览教程视频 To preview this task, watch the video beginning at 09:06.

现在,您已扩充数据,想要将这些数据资产发布到目录中,以便数据研究员和数据分析人员可以使用扩充的数据资产。 遵循以下步骤将扩充后的数据资产存储在目录中,以便其他用户能够访问可信数据:

  1. 单击导航跟踪中的 数据监管 项目名称。

  2. 单击“资产”选项卡

  3. 选择 数据> 数据资产

  4. 从列表中选择 COMMERICIAL_CLIENTHOUSE_PRICE抵押权申请人抵押权应用程序 数据资产,然后单击 发布到目录

    1. 对于 目标 目录,选择 抵押贷款核准目录,然后单击 下一步

    2. 对于 标记,输入标记 trusted,然后单击 + (加号) ,然后单击 下一步

    3. 复审资产,然后单击 发布

  5. 清除所有选中的资产,然后从列表中选择 CREDIT_SCORE 资产旁边的复选框,然后单击 发布到目录

    1. 对于 目标 目录,选择 抵押贷款核准目录,然后单击 下一步

    2. 对于 标记,输入标记 confidential,然后单击 + (加号)。

    3. 输入标记 trusted,然后单击 + (加号) 到第二个标记。

    4. 选择 发布目录后转至目录选项,然后单击 下一步

    5. 复审资产,然后单击 发布

  6. 过滤 抵押贷款审批目录中的资产。

    1. 点击过滤器图标 "过滤

    2. 展开 标记 部分。

    3. 选择 可信,然后单击 应用

    4. 验证是否已将这五个数据资产添加到目录中。

  7. 更改 抵押权人 数据资产的名称。

    1. 打开 抵押权人 资产。

    2. 单击编辑名称图标 "编辑名称

    3. 将名称更改为:

      MORTGAGE_APPLICANTS_TRUST
      
    4. 单击应用

检查点图标检查您的进度

下图显示了发布到目录的扩充数据资产。 现在,您可以通过公司的目录获取可信数据。

将资产发布到目录



作为治理团队的数据专员,您学习了如何对公司的数据进行排序和组织,以提供高质量且受保护的数据资产,数据使用者可以在自助服务目录中轻松找到这些数据资产。

后续步骤

现在,您已准备好通过创建数据保护规则和屏蔽流来保护数据,以控制对数据的访问。 请参阅 保护数据 教程。

了解更多信息

父主题: 用例教程

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more