学习 在完成 "收集高质量数据教程 "和 "保护数据教程 "后,使用本教程处理高质量和受保护的数据,并使用数据结构试验的数据治理用例。 您的目标是评估,共享,塑造和分析数据结构中的数据。
教程的故事是, Golden Bank 有几个部门需要访问高质量的客户抵押贷款数据。 作为数据分析人员,您需要搜索和查找正确的数据,了解并信任其内容,然后准备好供其他数据分析人员和数据科学家使用。
以下动画图像提供了在本教程结束时将完成的内容的快速预览,您将在其中查看目录资产,手动扩充资产并创建关系,可视化数据以及过滤数据以提高质量。 单击该图像以查看更大的图像。
预览教程
在本教程中,您将完成以下任务:
观看视频,预览本教程的步骤。 视频中显示的用户界面可能存在细微差异。 该视频旨在与编写的教程相伴。
此视频提供了一种可视方法来学习本文档中的概念和任务。
完成本教程的提示
以下是成功完成本教程的一些提示。
使用视频图片
以下动画图像显示了如何使用视频图片和目录功能:
在社区中获取帮助
如果您需要本教程的帮助,可以在Cloud Pak for Data社区讨论区提问或寻找答案。
设置浏览器窗口
为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。
设置先决条件
完成必备教程
To preview this task, watch the video beginning at 00:39.
完成 整理高质量数据 和 保护数据 教程:
基本 高级 标准除非另有说明,否则此信息适用于IBM Knowledge Catalog所有版本。
任务 1: 了解数据资产
To preview this task, watch the video beginning at 01:12.
目录中的数据资产远远超过指向数据的指针。 它们包含有关数据格式和含义的信息以及有关数据值的统计信息。 执行以下步骤以了解数据资产的价值:
从导航菜单",选择目录 > 查看所有目录。
打开 抵押贷款审批目录。
"特色资产" 部分显示 最近添加的 资产, 建议的 资产 (根据您过去的使用情况和受欢迎程度,这些资产是来自 AI 和机器学习的建议资产) 以及 高度评级的 资产 (对合作者进行了评级和复审)。
单击 隐藏特色资产 以关闭该部分。
搜索
mortgage
。单击 抵押权人申请人信任 以查看该目录资产。 概述 选项卡和侧面板提供有关资产的基本信息,例如描述,评级,标记,资产所在位置,业务术语,数据类和相关项。
单击 概要文件 选项卡。 概要文件信息可帮助您了解数据的内容,质量和易用性。
滚动到右侧以找到 ZIP_CODE 列。
自动分配给 ZIP_CODE 列的数据类是 Commercial and Government Entity。 请注意,自动分配的数据类可能有所不同。 由于值为邮政编码,因此您可以轻松地将此列重新分类。 单击下拉列表以查看其他可能的数据类及其置信度级别。 选择 美国邮政编码。
单击 资产 选项卡以查看数据预览。
返回到 概述 选项卡以查看有关列的更多元数据。 在列的列表中,搜索 JOBMENT_STATUS 列以查看包含已分配业务术语的元数据。
检查您的进度
下图显示了目录中的抵押权人-申请人-信任资产。 您已探索 IBM Knowledge Catalog 在元数据扩充期间自动添加到数据资产的信息类型。 在下一个任务中,您将手动扩充此数据资产。
任务 2: 扩充资产并创建关系
To preview this task, watch the video beginning at 02:49.
您可以通过向资产添加信息来使资产更有价值。 例如,您可以添加资产的意见,更新资产属性以及创建关系以链接资产。 遵循以下步骤来扩充资产和创建关系:
对于 抵押权申请人 目录资产,单击 复审 选项卡。 对此资产进行评级和评论,以便其他人可以轻松找到该资产。
选择 5 星星 作为评级。
对于复审,复制并粘贴以下文本:
This contains high quality customer data from the mortgage system.
单击提交。
单击 概述 选项卡。
点击资产名称旁边的 "编辑图标 "编辑资产名称。
将名称更改为:
MORTGAGE_APPLICANTS_TRUST_PROTECT
单击应用。
在右侧面板的描述部分,点击添加图标 "。
注:如果该资产已有描述,您将看到一个编辑图标 ",而不是添加图标。
复制并粘贴以下描述:
Mortgage applicants from the Mortgage System
单击应用。
由于该资产与抵押贷款有关,请在 "业务条款"旁边点击 "添加"图标 ""或 "编辑"图标 ""。
在 搜索 字段中,输入
loan
。注: 输入搜索项后不需要按 Enter 键。 输入搜索项后,您将立即看到结果列表。选择 贷款。
单击保存。
由于该资产包含个人信息,请在 "分类"旁边单击 "添加"图标 "或 "编辑"图标 "。
选择 个人可标识信息。
单击保存。
由于此资产与其他抵押资产相关,因此在 相关项旁边,单击 添加相关项> 添加相关资产。
选择 与相关,然后单击 下一步。
选择 CREDIT_SCORE 和 抵押权应用程序 资产,然后单击 添加。
单击 抵押权应用程序 以查看该相关资产。
检查您的进度
下图显示了目录中抵押者资产的 "概述" 选项卡。 通过查看,更新属性以及向资产添加关系,使这些资产更有价值。 在下一个任务中,您将向项目添加扩充资产。
任务 3: 向项目添加扩充数据
To preview this task, watch the video beginning at 04:09.
数据分析团队需要抵押贷款分析项目中的抵押贷款申请人数据,以优化,可视化,分析和用作模型的训练数据。 执行以下步骤以将扩充后的数据添加到项目:
单击导航路径中的 "按揭审批目录"。
在MORTGAGE_APPLICANTS_TRUST_PROTECT目录资产行末尾,单击溢出菜单 ",然后选择添加到项目。
在 目标 下拉列表中,选择 数据监管 项目。
单击添加。
当显示通知时,单击 转至项目。 如果您错过通知,请执行以下操作:
单击导航菜单",选择项目 > 查看所有项目。
单击 数据监管 项目。
在项目中,单击 资产 选项卡以查看 抵押权人 数据资产。
检查您的进度
下图显示了项目中的抵押权人-申请人-保护资产。 现在,您已准备好使数据可视化。
任务 4: 可视化数据
To preview this task, watch the video beginning at 04:39.
您需要清理和优化抵押贷款申请人数据,以便为您的分析工具和模型做好准备。 确定所需成形方式的快速简便方法是在 Data Refinery中可视化数据。 可视化基于数据的前 5,000 行。 执行以下步骤以可视化数据:
单击 抵押权申请人-信任保护 数据资产以预览数据。
单击 准备数据 以在 Data Refinery中打开数据资产,并等待读取和处理数据。
在 " 关于此资产 " 面板中,单击 X 以关闭该面板。
在 " 步骤 " 面板中,单击 X 以关闭该面板。
单击直观显示选项卡。
对于 要可视化的列,请选择 JOBMENT_STATUS。
单击 可视化数据。 该工具选择一个饼图作为此列的最佳图表类型,按就业状态显示申请人的分布情况。 请注意,建议的图表类型由条形图,字云图和旭日图旁边的蓝色点指示。
对于 图表类型,选择 气泡图 图表类型。 气泡图是快速可视化特定数据集中的值分布的一种简单方法。
从 图表类型 下拉列表中,选择 关系 图表类型。
此图表类型需要两列。 选择以下列:
对于第一列,选择 JOBMENT_STATUS。
单击 添加其他列。
对于第二个 列,选择 教育。
通过 关系 图表,您可以选择端点以查看关系。 例如,您可以按教育程度查看申请人的就业状况。
检查您的进度
下图显示了在 Data Refinery中可视化的抵押权应用程序 (trust_protect) 资产。 现在,您已准备好清理数据。
任务 5: 准备数据以用于分析和 AI
To preview this task, watch the video beginning at 05:59.
您无法处理没有社会保障号码的申请人,因此需要复审数据并除去没有社会保障号码的任何申请人。 要准备抵押权申请人的 trust_protect 数据,您将:
- 在 Social_Security_Number 列中查看值的频率。
- 使用 Social_Security_Number 列中的缺失值对申请人进行过滤。
请遵循以下步骤来准备数据:
在 Data Refinery中,单击 概要文件 选项卡。
滚动到右侧以找到 Social_Security_Number 列。 请注意多个缺失值。
单击 数据 选项卡以过滤掉这些记录。 在屏幕底部的状态栏中, Data Refinery 指示 FULL DATA SET 为 1101 行。
如果 " 步骤 " 面板不可见,请单击 步骤 以打开该面板。
单击 新建步骤。
在 清除 部分中,选择 过滤器。
在 列 字段中,选择 Social_Security_Number 列。
在 运算符 字段中,选择 不为空。
单击应用。 请注意,在屏幕底部的状态栏中, Data Refinery 现在指示 FULL DATA SET 为 1000 行,因为将过滤掉缺少社会保障号的行。 请注意,新步骤将显示在 " 步骤 " 面板中,其中显示 过滤器 操作。
单击 概要文件 选项卡。
滚动到右侧以找到 Social_Security_Number 列。 请注意,缺失值已消失。
从工具栏中点击保存图标 "。
从工具栏中单击导出图标,然后选择将当前数据导出为 CSV。
将 MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv 保存到本地文件夹。
浏览到该文件夹,然后打开 CSV 文件,其中包含 1000 行,并且没有申请人缺少社会保险号。
返回Cloud Pak for Data,然后单击导航路径中的数据治理项目。
单击 所有资产,然后找到名为 MORTGAGE_APPLICANTS_TRUST_PROTECT_flow的新 Data Refinery 流资产。
检查您的进度
下图显示了您在 Data Refinery中优化的 MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv 文件。 此数据集包含有关提供社会保障号码的抵押贷款申请人的信息。
作为 Golden Bank 的数据分析人员,您学会了如何搜索和查找正确的数据,了解和信任其内容,然后准备好供其他数据分析人员和数据研究员使用。
清除(可选)
如果要重新学习 "数据监管" 用例中的教程,请删除以下工件。
工件 | 如何删除 |
---|---|
导入的业务术语 | 删除治理人工制品 |
银行类别 | 删除类别 |
数据保护规则: 保密信息和 Redact 社会保障号 | 删除数据保护规则 |
抵押贷款审批目录 | 删除目录 |
数据监管样本项目 | 删除项目 |
后续步骤
尝试 G监管虚拟化数据教程。
尝试 配置 360 度视图教程。
注册另一个 数据光纤网用例。
了解更多信息
父主题: 用例教程