使用本教程,通过数据光纤网试用版的 "数据集成" 用例来虚拟化存储在三个外部数据源中的数据。 您的目标是使用Data Virtualization来创建虚拟表,并将三个数据源(Db2 Warehouse、PostgreSQL数据库和MongoDB数据库)中的现有数据连接到虚拟表中。 如果您完成了整合数据教程,那么您使用DataStage完成的许多任务与本教程使用Data Virtualization完成的任务相同。
该教程的故事是,金银需要遵守一项新的法规,其中不能向资质不足的贷款申请人提供贷款。 您将使用Data Virtualization将来自不同数据源的数据合并在一起,而无需移动数据,并将虚拟数据提供给项目中的其他数据科学家和数据工程师。
以下动画图像提供了在本教程结束时将完成的内容的快速预览。 您将连接到外部数据源,创建虚拟表和视图,并将其添加到项目。 单击该图像以查看更大的图像。
预览教程
在本教程中,您将完成以下任务:
- 设置先决条件。
- 任务 1: 验证 Platform assets catalog。
- 任务 2: 将数据连接添加到 Platform assets catalog。
- 任务 3:为 "Data Virtualization添加数据源。
- 任务 4: 虚拟化数据表。
- 任务 5: 通过连接虚拟表来创建虚拟连接视图。
- 任务 6: 生成 API 密钥。
- 任务 7: 访问项目中的虚拟连接视图。
- 清除(可选)
观看此视频以预览本教程中的步骤。 视频中显示的用户界面可能存在细微差异。 该视频旨在与编写的教程相伴。
此视频提供了一种可视方法来学习本文档中的概念和任务。
完成本教程的提示
以下是成功完成本教程的一些提示。
使用视频图片
以下动画图像显示了如何使用视频图片和目录功能:
在社区中获取帮助
如果您需要本教程的帮助,可以在Cloud Pak for Data社区讨论区提问或寻找答案。
设置浏览器窗口
为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。
设置先决条件
注册 Cloud Pak for Data as a Service
您必须注册 Cloud Pak for Data as a Service ,并为数据集成用例供应必要的服务。
- 如果您具有现有的 Cloud Pak for Data as a Service 帐户,那么可以开始使用本教程。 如果您有轻量套餐帐户,那么每个帐户只有一个用户可以运行本教程。
- 如果您还没有 Cloud Pak for Data as a Service 帐户,请 注册以获取数据光纤网试用。
观看以下视频,了解Cloud Pak for Data 中的数据结构。
此视频提供了一种可视方法来学习本文档中的概念和任务。
验证必需的供应服务
To preview this task, watch the video beginning at 01:06.
请遵循以下步骤来验证或供应必需的服务:
从导航菜单",选择服务 > 服务实例。
使用产品下拉列表确定是否存在现有Data Virtualization服务实例。
如果需要创建Data Virtualization服务实例,请单击添加服务。
选择数据虚拟化。
选择轻量套餐。
单击创建。
等待Data Virtualization服务调配,这可能需要几分钟才能完成。
重复这些步骤以验证或供应以下其他服务:
- IBM Knowledge Catalog
- Cloud Object Storage
检查您的进度
下图显示了供应的服务实例:
创建样本项目
To preview this task, watch the video beginning at 01:46.
如果已有本教程的样本项目,请跳至 任务 1。 否则,请完成以下步骤:
访问资源中心的数据集成示例项目。
单击创建项目。
如果提示将项目与 Cloud Object Storage 实例相关联,请从列表中选择 Cloud Object Storage 实例。
单击创建。
等待项目导入完成,然后单击 查看新项目 以验证是否已成功创建项目和资产。
单击 资产 选项卡以查看连接和 DataStage 流。
检查您的进度
下图显示了样本项目中的 "资产" 选项卡。 现在,您已准备好开始本教程。
任务 1: 验证 Platform assets catalog
To preview this task, watch the video beginning at 02:42.
您可以在平台级别或服务级别添加与外部数据源的连接。 使用Platform assets catalog在平台级别添加连接时,可以轻松地将这些连接包含在项目、目录和Data Virtualization数据源中。 执行以下步骤以验证 Platform assets catalog。
从导航菜单",选择数据 > 平台连接。
如果看到现有连接,那么您已具有 Platform assets catalog,并且可以跳至 任务 2。 如果没有看到任何连接,但看到了创建新连接的选项,则可以跳到任务 2。
如果没有Platform assets catalog,请单击创建目录。
从列表中选择 Cloud Object Storage 。
接受 重复资产处理的缺省值。
单击创建。 这将显示 " 平台连接 " 页面。
检查您的进度
下图显示了平台连接。 从这里,您可以创建连接。 由于样本项目包含连接,因此您可以将外部数据源的连接从样本项目添加到此目录。
任务 2: 将数据连接添加到 Platform assets catalog
To preview this task, watch the video beginning at 03:22.
数据集成样本项目包含与外部数据源的多个连接。 接下来,在Platform assets catalog中添加三个连接,然后就可以在Data Virtualization中使用这些连接了。 执行以下步骤以将连接从样本项目发布到 Platform assets catalog。
从导航菜单",选择项目 > 查看所有项目。
单击 数据集成 项目。
单击“资产”选项卡。
在 " 资产类型" 下,单击 数据访问> 连接。
选择以下连接资产:
- Data Fabric 试用版- Db2 Warehouse
- Data Fabric 试用- MongoDB
- Data Fabric 试用版- Databases for PostgreSQL
单击 发布到目录。
从列表中选择 平台资产目录 ,然后单击 下一步。
复审资产,然后单击 发布。
从导航菜单",选择数据 > 平台连接,查看发布到目录的三个连接。
检查您的进度
下图显示了三个平台连接。 现在,您已准备好添加数据源。
任务 3:为 "Data Virtualization添加数据源
To preview this task, watch the video beginning at 04:05.
现在,您可以将Platform assets catalog中的这些外部数据源添加到Data Virtualization。 执行以下步骤以添加数据源:
从导航菜单",选择数据 >Data virtualization。
注: 如果您看到 设置主目录以实施监管的通知,那么可以安全地关闭此通知。 设置主目录是可选的。在数据源页面的表视图中,单击添加连接 > 现有平台连接。
选择 Data Fabric Trial- Db2 Warehouse。
单击添加。
重复这些步骤以添加 Data Fabric Trial-Mongo DB 和 Data Fabric Trial- Databases for PostgreSQL 连接。
检查您的进度
下图显示了数据源。 现在,您已准备好根据存储在这些外部数据源中的数据创建虚拟表。
任务 4: 虚拟化数据表
To preview this task, watch the video beginning at 04:40.
您想要虚拟化 抵押者应用程序, 抵押者申请人和 CREDIT_SCORES 表。 稍后,您可以将前两个虚拟表与第三个表连接,以创建新的虚拟连接视图。 执行以下步骤以虚拟化数据表:
从服务菜单,单击虚拟化 > 虚拟化。
如果需要,请更改为 表 视图,并在装入表时等待,这可能需要最多 30 秒。 您可能需要单击 刷新 以查看表的完整列表。 当您看到 可用表时,将装入所有表。 表格数量可能有所不同。
'在 表 选项卡上,根据以下条件对表进行过滤:
连接器: IBM Db2 Warehouse 和 PostgreSQL
数据库: Data Fabric Trial- Db2 Warehouse 和 Data Fabric Trial- Databases for PostgreSQL
模式: BANKING
选择要虚拟化的 抵押权人应用程序, 抵押贷款申请人和 CREDIT_SCORE 表。 可以将鼠标悬停在表名上以查看全名,从而验证您是否选择了正确的表名。
单击 添加到购物车。
单击 查看购物车 以查看您的选择。 从此处,您可以编辑表和模式名称,或者从购物车中除去选择。
现在,请取消选中 分配给项目旁边的复选框。 此操作将使虚拟表在 " 虚拟化数据 " 页面上可用。
单击虚拟化。
单击 确认 以开始虚拟化表。
虚拟化完成后,单击 转至虚拟化数据 以查看新创建的表。
检查您的进度
下图显示了 " 虚拟化数据 " 页面。 现在,您可以通过连接这些虚拟表来创建虚拟表。
任务 5: 通过连接虚拟表来创建虚拟连接视图
您希望通过连接抵押权申请人和抵押权应用程序虚拟表来创建虚拟连接视图。 然后,您希望将生成的虚拟对象与 CREDIT_SCORE 虚拟表连接,以创建第二个虚拟连接视图。
虚拟连接视图 1: 连接抵押权人和抵押权人应用程序虚拟表
To preview this task, watch the video beginning at 05:59.
执行以下步骤以创建第一个虚拟连接视图:
从 " 虚拟化数据 " 页面中,选择要虚拟化的 抵押权人应用程序 和 抵押权人 表。
记下模式名称。 稍后将需要该名称来运行 SQL 查询。
单击 连接。
在MORTGAGE_APPLICATION表的列列表中,拖动ID列以连接MORTGAGE_APPLICANT表中的ID列。
选择两个表中的所有列。
单击 预览 以查看连接表的预览。
关闭预览窗口。
单击 在 SQL 编辑器中打开,然后在通知您无法返回到连接画布时单击 继续 。 SQL 编辑器允许您对数据集运行查询。 在这种情况下,您希望预览在对加利福尼亚申请人进行过滤时数据集将包含的记录。
复制模式,然后删除现有查询。 您将需要在下一个 SQL 语句中插入模式。
复制并粘贴新查询的以下 SELECT 语句。 将
<your schema>
替换为先前记录的模式名称。SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
您的查询看起来类似于 "SELECT * FROM 'DV_IBMID_663002GN1Q.MORTGAGE_APPLICANTWHERE STATE_CODE LIKE 'CA"
"单击 全部运行。
查询完成后,在 历史记录 选项卡上选择查询。 在 结果 选项卡上,您可以看到该表仅过滤为来自加利福尼亚州的申请人。
单击 上一步 以关闭 SQL 编辑器。
现在,您预览了根据加利福尼亚申请人过滤的数据集,您将向虚拟连接视图添加此过滤条件。 对于 抵押权申请人 表,复制并粘贴过滤条件的以下语句。 将
<your schema>
替换为先前记录的模式名称。"<your-schema>"."MORTGAGE_APPLICANT"."STATE_CODE"='CA'
您的筛选条件与"DV_IBMID_663002GN1Q". "MORTGAGE_APLICANT". "STATE_CODE"='CA'相似
单击下一步。
您可以编辑列名以区分两个表中具有相同名称的列。 在这种情况下,保留缺省列名,然后单击 下一步。
在 " 分配和复审 " 页面上,对于 视图名称,输入
APPLICANTS_APPLICATIONS_JOINED
。现在,清除 分配给项目 选项。 稍后,创建虚拟对象并将其分配给数据集成项目。
单击创建视图。
虚拟化完成后,单击 转至虚拟化数据 以查看新创建的连接视图。
检查您的进度
下图显示了 " 虚拟化数据 " 页面。 现在,您已准备好创建第二个虚拟连接视图。
虚拟连接视图 2: 连接 APPLANTS_APPLICATIONS_JOIN 和 CREDIT_SCORE 虚拟表
To preview this task, watch the video beginning at 07:47.
执行以下步骤以创建第二个虚拟连接视图:
从 " 虚拟化数据 " 页面中,选择要虚拟化的 APPLANTS_APPLICATIONS_联接 和 CREDIT_SCORE 表。
单击 连接。
在 APPLANTS_APPLICATIONS_联接 表的列列表中,拖动以将 EMAIL_ADDRESS 列与 CREDIT_SCORE 表中的 EMAIL_ADDRESS 列连接。
单击 预览 以查看连接表的预览。
关闭预览窗口。
单击下一步。
接受缺省列名,然后单击 下一步。
在 " 分配和复审 " 页面上,对于 视图名称,输入
APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
。此时,保持选中 分配给项目 ,然后选择 数据集成 项目。
单击创建视图。
虚拟化完成后,单击 转至虚拟化数据 以查看新创建的连接视图。
检查您的进度
下图显示了 " 虚拟化数据 " 页面。 现在,您已准备好处理项目中的虚拟数据。
任务 6: 生成 API 密钥
To preview this task, watch the video beginning at 08:27.
您需要以 API 密钥的形式提供个人凭证,以查看虚拟化资产。 如果您还没有已保存的 API 密钥,请遵循以下步骤来创建 API 密钥。
访问IBM Cloud控制台中的API 密钥页面。 如果出现提示,请登录。
在 " API 密钥 " 页面上,单击 创建 IBM Cloud API 密钥。 如果您有任何现有 API 密钥,那么该按钮可能标记为 创建。
输入名称和描述。
单击创建。
复制 API 密钥。
下载 API 密钥以供将来使用。
检查您的进度
下图显示了 API 密钥页面。 现在,您已准备好查看项目中的虚拟表。
任务 7: 访问项目中的虚拟连接视图
To preview this task, watch the video beginning at 09:01.
虚拟表已与Data Virtualization连接一起添加到您的项目中。 执行以下步骤以打开项目来查看虚拟数据以及访问虚拟数据所需的连接信息。
切换回 Cloud Pak for Data。 从导航菜单",选择项目 > 查看所有项目。
打开 数据集成 项目。
单击“资产”选项卡。
打开任何虚拟化数据。 例如,单击以模式名称开头的数据资产,然后单击 APPLANTS_APPLICATIONS_CREDIT_SCORE_联接 以查看该数据资产。
提供凭证以访问数据资产。
对于 认证方法,选择 API 密钥。
粘贴您的API 密钥。
单击连接。
滚动数据资产以查看来自加利福尼亚州的所有申请人。
检查您的进度
下图显示了项目中的虚拟数据。 现在,您已准备好分析虚拟数据。
作为黄金银行的数据工程师,您使用Data Virtualization将来自不同数据源和不同类型的数据结合起来。 您使用了 SQL 语法,并且在没有数据移动的情况下访问和组合了数据。
清除(可选)
如果要重新学习数据集成用例中的教程,请删除以下工件。
工件 | 如何删除 |
---|---|
Platform assets catalog 中的连接 | 从目录中删除资产 |
虚拟化数据 | 导航至数据 >Data virtualization;在虚拟化数据页面上,访问表格的溢出菜单 ",然后选择移除。 |
数据源 | 导航至数据 >Data virtualization;在数据源页面,单击连接的删除图标 "。 |
数据集成样本项目 | 删除项目 |
后续步骤
了解更多信息
父主题: 用例教程