0 / 0
Go back to the English version of the documentation
数据集成教程: 集成数据
Last updated: 2024年11月28日
数据集成教程: 集成数据

使用本教程,通过数据光纤网试用的数据集成用例来变换存储在三个外部数据源中的数据。 您的目标是使用 DataStage 来变换数据,然后将变换后的数据交付到单个输出文件。 如果您完成了外部数据虚拟化教程,那么您使用Data Virtualization完成的许多任务与本教程使用DataStage 完成的任务相同。

快速入门: 如果尚未为此教程创建样本项目,请访问资源中心中的 数据集成样本项目

该教程的故事是,金银需要遵守一项新法规,其中不能向资质不足的贷款申请人提供贷款。 作为 Golden Bank 的数据工程师,您当前使用 DataStage 将匿名抵押贷款应用程序数据与抵押贷款申请人的个人可标识信息进行汇总。 您的贷款人使用此信息来帮助他们决定是应该批准还是拒绝抵押贷款申请。 您的领导添加了一些风险分析人员,他们每天计算他们向每个信用评分范围内的借款人推荐的利率。 您需要将这些信息集成到与贷款人共享的电子表格中。 电子表格包含每个申请人的信用评分信息,申请人的债务总额以及利率查找表。 最后,将数据装入到目标输出 CSV 文件中。

以下动画图像提供了到本教程结束时将完成的内容的快速预览。 您将使用 DataStage 来连接申请人和应用程序数据,按状态过滤,连接申请人信用评分,计算债务总额,根据信用评分范围查找要提供的抵押贷款利率,并将结果输出到 CSV 文件。 单击该图像以查看更大的图像。

动画图像

预览教程

在本教程中,您将完成以下任务:

观看视频 观看此视频以预览本教程中的步骤。 视频中显示的用户界面可能存在细微差异。 该视频旨在与编写的教程相伴。

此视频提供了一种可视方法来学习本文档中的概念和任务。





完成本教程的提示
以下是成功完成本教程的一些提示。

使用视频图片

提示: 启动视频,然后在滚动教程时,视频将移动到画中画方式。 关闭视频目录以获取最佳图片体验。 您可以使用图片-图片方式,以便在完成本教程中的任务时可以关注视频。 单击要继续执行的每个任务的时间戳记。

以下动画图像显示了如何使用视频图片和目录功能:

如何使用图片和章节

在社区中获取帮助

如果您需要本教程的帮助,可以在Cloud Pak for Data社区讨论区提问或寻找答案。

设置浏览器窗口

为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。

并排教程和 UI

提示: 如果在用户界面中完成本教程时迂到引导式教程,请单击 稍后可能



设置先决条件

先决条件

注册 Cloud Pak for Data as a Service

您必须注册 Cloud Pak for Data as a Service ,并为数据集成用例供应必要的服务。

  • 如果您具有现有的 Cloud Pak for Data as a Service 帐户,那么可以开始使用本教程。 如果您有轻量套餐帐户,那么每个帐户只有一个用户可以运行本教程。
  • 如果您还没有 Cloud Pak for Data as a Service 帐户,请 注册以获取数据光纤网试用

视频图标观看以下视频,了解Cloud Pak for Data 中的数据结构。

此视频提供了一种可视方法来学习本文档中的概念和任务。

验证必需的供应服务

预览教程视频 To preview this task, watch the video beginning at 01:08.

要点: DataStage 服务仅在达拉斯和法兰克福区域可用。 如有必要,请先切换到达拉斯或法兰克福区域,然后再继续。

请遵循以下步骤来验证或供应必需的服务:

  1. 在 Cloud Pak for Data中,验证您是否位于达拉斯或法兰克福区域。 如果没有,请单击地区下拉菜单,然后选择达拉斯法兰克福
    更改区域

  2. 导航菜单"导航菜单,选择服务 > 服务实例

  3. 使用 产品 下拉列表来确定 DataStage 服务实例是否存在。

  4. 如果需要创建 DataStage 服务实例,请单击 添加服务

  5. 选择 DataStage

    1. 对于该区域,选择 达拉斯法兰克福

    2. 选择轻量套餐。

    3. 单击创建

  6. 重复这些步骤以验证或供应以下其他服务:

    • IBM Knowledge Catalog
    • Cloud Object Storage

检查点图标检查您的进度

下图显示了供应的服务实例:

提供的服务

创建样本项目

预览教程视频 To preview this task, watch the video beginning at 01:44.

如果已有本教程的样本项目,请跳至 任务 1。 否则,请完成以下步骤:

  1. 访问资源中心的数据集成示例项目

  2. 单击创建项目

  3. 如果提示将项目与 Cloud Object Storage 实例相关联,请从列表中选择 Cloud Object Storage 实例。

  4. 单击创建

  5. 等待项目导入完成,然后单击 查看新项目 以验证是否已成功创建项目和资产。

  6. 单击 资产 选项卡以查看连接和 DataStage 流。

注: 您可能会看到一个指导式教程,其中显示了此用例随附的教程。 导览中的链接将打开这些教程指示信息。

检查点图标检查您的进度

下图显示了样本项目中的 资产 选项卡。 现在,您已准备好开始本教程。

样本项目




任务 1: 运行现有 DataStage 流

预览教程视频 To preview this task, watch the video beginning at 02:29.

从连接抵押贷款申请人和抵押贷款应用程序数据集的基本 DataStage 流开始,然后输出到项目中的 CSV 文件。 执行以下步骤以运行 DataStage 流:

  1. 数据集成 项目中启动。 如果未打开项目,请执行以下步骤:

    1. 导航菜单"导航菜单,选择项目 > 查看所有项目

    2. 打开 数据集成 项目。

  2. 单击 资产 选项卡以查看项目中的所有资产。

  3. 单击 流> DataStage 流

    提示: 如果未看到任何 DataStage 流,请返回以查看服务实例,从而验证是否已成功供应 DataStage 实例。 请参阅 供应必需服务
  4. 单击列表中的 数据集成 流以将其打开。 此流连接存储在 Db2 Warehouse中的 抵押贷款申请人抵押贷款应用程序 表,将数据过滤到加利福尼亚州的那些记录,并创建 CSV 格式的顺序文件作为输出。

  5. 点击工具栏上的放大图标 "放大缩小图标 "缩小,设置您喜欢的画布视图。

  6. 双击 MORTGAGE_APPLICATIONS_1 节点以查看设置。

    1. 展开属性部分。

    2. 向下滚动,然后单击 预览数据。 此数据集包含在抵押贷款应用程序上捕获的信息。

    3. 单击关闭

  7. 双击 MORTGAGE_APPLICANTS_1 节点以查看设置。

    1. 展开属性部分。

    2. 向下滚动,然后单击 预览数据。 此数据集包含有关申请贷款的抵押贷款申请人的信息。

    3. 可选: 可视化数据。

      1. 单击 图表 面板。

      2. 要可视化的列 列表中,选择 状态

      3. 单击 可视化数据 以查看饼图,其中按状态显示数据的分布。

      4. 单击 树状图 图标以在树状图图表中查看相同的数据。

    4. 单击关闭

  8. 双击 Join_on_ID 节点以查看设置。

    1. 展开属性部分。

    2. 请注意,连接键是 ID 列。
      Join_on_ID 连接键

    3. 单击 取消 以关闭设置。

  9. 点击工具栏上的日志图标 "查看日志,即可查看流程的进度。

  10. 单击 编译,然后单击 运行。 或者,您可以单击 运行 ,这将编译然后运行 DataStage 流。 运行可能需要大约 1 分钟才能完成。

  11. 查看日志。 您可以对流中的每个步骤使用总行数和总行数/秒,以直观地验证过滤器是否按预期工作。

  12. 运行成功后,单击导航路径中的数据集成返回项目。
    导航跟踪

  13. 资产 选项卡上,单击 数据> 数据资产

  14. 打开 MORTGAGE_DATA.CSV 文件。 您可以看到此文件包含来自抵押贷款申请人和抵押贷款申请数据集的列。

检查点图标检查您的进度

下图显示了生成的 CSV 文件。 接下来的任务是编辑 DataStage flow.

流程

CSV 文件




概述: 编辑 DataStage 流

现在,您已加入抵押贷款申请人和申请数据,您已准备好将 DataStage 流程编辑为:

  • 任务 2: 指定 Join 阶段的键列。
  • 任务 3: 从 PostgreSQL 数据库添加信用评分数据。
  • 任务 4: 添加 "连接" 阶段以将信用评分数据与申请人和应用程序数据连接。
  • 任务 5: 添加 Transformer 阶段以计算总债务。
  • 任务 6: 从 MongoDB 数据库添加利率数据。
  • 任务 7: 添加 "查找" 阶段,以根据申请人的信用评分和金库的每日利率范围来查找申请人的利率。



任务 2: 指定 Join 阶段的键列

预览教程视频 To preview this task, watch the video beginning at 04:42.

标识键列向 DataStage 指示该列包含唯一值。 Join_on_ID 节点使用连接键的 "标识" 列来连接抵押贷款申请人和抵押贷款申请数据集。 下一阶段是将生成的数据集与信用评分数据连接起来。 稍后,您将使用信用评分数据集连接生成的过滤数据。 第二个连接将使用 EMAIL_ADDRESS 列作为连接键。 在此任务中,编辑 DataStage 流以指定 EMAIL_ADDRESS 列作为与信用评分数据连接时生成的数据集的键列。

以下动画图像提供了可视表示,作为两个连接节点的描述的替代方法。 单击该图像以查看更大的图像。

连接节点

执行以下步骤以更改 "连接" 节点设置:

  1. 单击导航路径中的数据集成返回项目。
    导航跟踪

  2. 资产 选项卡上,单击 流> DataStage 流

  3. 打开 数据集成 流。

  4. 双击 Join_on_ID 节点以编辑设置。

  5. 单击 输出 选项卡,然后展开 部分以查看连接的数据集中的列的列表。

  6. 单击编辑

  7. 对于 EMAIL_ADDRESS 列名,选择

  8. 单击 应用并返回 以返回到 Join_on_ID 节点设置。

  9. 单击 保存 以保存 Join_on_ID 节点设置。

检查点图标检查您的进度

下图显示了具有已编辑 Join_on_id 阶段的 DataStage 流。 现在,您已将 EMAIL_ADDRESS 列标识为键列,可以添加包含申请人信用评分的 PostgreSQL 数据。

Join_on_id 阶段




任务 3: 从 PostgreSQL 数据库添加信用评分数据

预览教程视频 To preview this task, watch the video beginning at 05:23.

遵循以下步骤将存储在 PostgreSQL 数据库中的信用评分数据添加到 DataStage 流中:

  1. 在节点选用板中,展开 连接器 部分。

  2. 资产浏览器 连接器拖到 MORTGAGE_APPLICANTS_1 节点旁边的画布上。

  3. 通过选择 连接> Data Fabric Trial- Databases for PostgreSQL > BANKING> CREDIT_SCORE来查找资产。

    注: 单击连接或模式名称而不是复选框以展开连接和模式。

    信用评分预览

  4. 单击 "预览"图标 "查看,预览每个申请人的信用评分数据。

  5. 单击添加

检查点图标检查您的进度

下图显示了添加了信用评分资产的 DataStage 流程。 现在,您已将信用评分数据添加到画布中,需要加入申请人,申请和信用评分数据。

信用评分数据资产




任务 4: 添加 "连接" 阶段以将信用评分数据与申请人和应用程序数据连接起来

预览教程视频 To preview this task, watch the video beginning at 05:54.

执行以下步骤来添加另一个 "连接" 阶段,以将过滤后的抵押贷款应用程序和抵押贷款申请人连接的数据与 DataStage 流程中的信用评分数据连接起来:

  1. 在节点选用板中,展开 阶段 部分。

  2. Join 阶段拖到画布上,并将节点放在 Filter_State_CodeSequential_file_1 节点之间的链接行上。

  3. 将鼠标悬停在 CREDIT_SCORE_1 连接器上以查看箭头。 将箭头连接到 连接 阶段。

  4. 双击 CREDIT_SCORE_1 节点以编辑设置。

    1. 单击 输出 选项卡,然后展开 部分以查看连接的数据集中的列的列表。

    2. 单击编辑

    3. 对于 EMAIL_ADDRESSCREDIT_SCORE 列名,请选择

    4. 单击 应用并返回 以返回到 CREDIT_SCORE_1 节点设置。

    5. 单击 保存 以保存 CREDIT_SCORE_1 节点设置。

  5. 双击 Join_1 节点以编辑设置。

    1. 展开属性部分。

    2. 单击添加键

      1. 再次单击 添加密钥

      2. 从可能的密钥列表中选择 EMAIL_ADDRESS

      3. 单击应用

    3. 单击 应用并返回 以返回到 Join_1 节点设置。

    4. Join_1 节点名更改为 Join_on_email

    5. 单击 保存 以保存 Join_1 节点设置。

检查点图标检查您的进度

下图显示了添加了第二个 Join 阶段的 DataStage 流。 现在,您已加入申请,申请人和信用评分数据,需要添加 Transformer 阶段来计算每个申请人的总债务。

Join_on_email 阶段




任务 5: 添加 Transformer 阶段以计算总债务

预览教程视频 To preview this task, watch the video beginning at 07:08.

执行以下步骤以添加 Transformer 阶段,该阶段通过对 LOAN_AMOUNT 和 CREDITCARD_DEBT 列进行求和来创建新列:

  1. 阶段 部分中,将 Transformer 阶段拖到画布上,并将节点放在 Join_on_emailSequential_file_1 节点之间的链接行上。

  2. 双击 Transformer 节点以编辑设置。

  3. 单击输出选项卡。

    1. 单击 添加列

    2. 在列列表中向下滚动以查看新列。

    3. 将列命名为 TOTAL_DEBT

    4. 单击该行衍生列中的编辑图标 "编辑

    5. 单击推导栏中的计算器图标 "计算器,打开表达式生成器。

    6. 搜索 LOAN_AMOUNT,然后双击列名以将其添加到表达式中。 请注意,链接号将附加到列名。

    7. 输入加号 +

    8. 搜索 CREDITCARD_DEBT,然后双击列名以将其添加到表达式。 请注意,链接号将附加到列名。

    9. 验证最终表达式是否为 Link_7.LOAN_AMOUNT + Link_7.CREDITCARD_DEBT

      注: 您的链接编号可能不同。
    10. 单击 应用并返回 以返回到 " Transformer " 页面。

    11. 对于 CREDIT_SCORE 列名,选择

  4. 单击 Stage 选项卡。

    1. 选择 高级页面。

    2. 执行模式更改为 顺序

  5. 单击 保存并返回 以返回到画布。

检查点图标检查您的进度

下图显示了添加了 Transformer 阶段的 DataStage 流。 现在,您将每个申请人的总债务计算在内,您需要根据信用评分范围添加要提供的利率表。

Transformer 阶段




任务 6: 从 MongoDB 数据库添加利率数据

预览教程视频 To preview this task, watch the video beginning at 08:15.

通过将数据资产连接器添加到 MongoDB 数据库,遵循以下步骤将利率包括在流中:

  1. 在节点选用板中,展开 连接器 部分。

  2. 资产浏览器 连接器拖到 CREDIT_SCORE_1 节点旁边的画布上。

  3. 通过选择 连接> Data Fabric Trial-Mongo DB> DOCUMENT> DS_起息率来查找资产。

  4. 单击 "预览"图标 "预览,预览每个信用评分范围的利率。
    查看数据资产'
    您可以使用 STARTING_LIMIT 和 ENDING_LIMIT 列中的值,根据申请人的信用评分查找合适的利率。 不需要标识列,因此您将在下一步中删除该列。

  5. 单击添加

检查点图标检查您的进度

下图显示了从 MongoDB 外部源添加了利率数据资产的 DataStage 流。 现在您添加了利率表,可以查找每个申请人的相应利率。

利率数据资产




任务 7: 添加 Lookup 阶段以查找申请人的利率

预览教程视频 To preview this task, watch the video beginning at 09:00.

根据每个申请人的信用评分,您希望查找相应的利率。 执行以下步骤以添加 Lookup 阶段,并指定每个利率的开始和结束信用评分限制的范围:

  1. 阶段 部分中,将 Lookup 阶段拖到画布上,并将节点放在 Transformer_1Sequential_file_1 节点之间的链接线上。

  2. DS_INTEREST_RATES_1 连接器连接到 Lookup_1 阶段。

  3. 双击 DS_INTEREST_RATES_1 节点以编辑设置。

  4. 单击输出选项卡。

    1. 展开部分,然后单击编辑

    2. 选择 _ID 列。

    3. 单击删除图标 "废纸篓删除_ID列。

    4. 单击 应用并返回 以返回到 DS_INTEREST_RATES_1 节点设置。

    5. 单击 保存 以保存对 DS_INTEREST_RATES_1 节点所作的更改。

  5. 双击 Lookup_1 节点以编辑设置。

  6. 展开属性部分。

    1. 对于 将范围应用于列 字段,选择 CREDIT_SCORE。 将显示 参考链接运算符范围列 字段。

    2. 对于 参考链接,选择 Link_9

      注: 您的链接编号可能不同。
    3. 对于第一个 操作员,选择 <=

    4. 对于第一个 范围列,选择 ENDING_LIMIT

    5. 对于第二个 运算符,选择 > =

    6. 对于第二个 范围列,选择 STARTING_LIMIT

  7. 单击输出选项卡。

    1. 展开部分,然后单击编辑

    2. 选择 STARTING_LIMITENDING_LIMIT 列。

    3. 单击删除图标 "废纸篓,删除这些不必要的STARTING_LIMITENDING_LIMIT列。

    4. 单击 应用并返回 以返回到 Lookup_1 节点设置。

    5. 单击 保存 以保存对 Lookup_1 节点所作的更改。

检查点图标检查您的进度

下图显示了添加了 Lookup 阶段的 DataStage 流。 DataStage 流程现已完成。 运行流之前的最后一项任务是指定输出文件的名称。

Lookup 阶段




任务 8: 编辑顺序文件节点并运行 DataStage 流

预览教程视频 To preview this task, watch the video beginning at 10:22.

遵循以下步骤来编辑 Sequential 文件节点,以在项目中创建作为数据资产的最终输出文件,然后编译并运行 DataStage 流:

  1. 双击 Sequential_file_1 节点以编辑设置。

  2. 单击 输入 选项卡。

  3. 展开属性部分。

  4. 对于 目标文件,复制并粘贴 MORTGAGE_APPLICANTS_INTEREST_RATES.CSV 作为文件名。

  5. 选择 创建数据资产

  6. 对于 第一行是列名 字段,选择 True

  7. 单击保存

  8. 单击 运行 ,这将编译然后运行 DataStage 流。 该作业大约需要 1 分钟才能完成。

  9. 单击工具栏上的 日志 以观察流的进度。 正常情况下,在运行期间会看到警告,然后您会看到流已成功运行。

检查点图标检查您的进度

下图显示了 DataStage 流已成功运行。 现在, DataStage 流已创建输出文件,您需要创建将在其中发布输出文件的目录。

DataStage 运行完成




任务 9: 创建目录以存储已发布的数据资产

预览教程视频 To preview this task, watch the video beginning at 11:00.

金银的其他数据工程师和业务分析师需要获得抵押贷款利率。 通过 IBM Knowledge Catalog Lite 套餐,您可以创建两个目录。 如果已有目录,请跳过此步骤。 否则,请完成以下步骤以创建可将利率数据集发布到的目录。

  1. 导航菜单"导航菜单,选择目录 > 查看所有目录

  2. 如果在 " 目录 " 页面上看到 抵押核准目录 ,请跳至 任务 10: 查看输出并发布到目录。 否则,请执行以下步骤来创建新目录:

  3. 单击创建目录

  4. 对于 名称,复制并粘贴目录名称,如下所示,没有前导或尾部空格:

    Mortgage Approval Catalog
    
  5. 选择 强制实施数据保护规则,确认选择并接受其他字段的缺省值。

  6. 单击创建

检查点图标检查您的进度

下图显示了您的目录。 现在存在 "抵押贷款核准目录" ,您可以将输出文件发布到该目录。

抵押贷款审批目录




任务 10: 查看输出并发布到目录

预览教程视频 To preview this task, watch the video beginning at 11:31.

执行以下步骤以查看项目中的输出文件,然后将其发布到目录:

  1. 导航菜单"导航菜单,选择项目 > 查看所有项目

  2. 打开 数据集成 项目。

  3. 资产 选项卡上,单击 数据> 数据资产

  4. 打开 MORTGAGE_APPLICANTS_INTEREST_RATES.CSV 文件。

  5. 滚动以查看集成数据集中的所有列,并在每个数据条目末尾显示利率。

  6. 单击导航跟踪中的 数据集成 以返回到项目。

  7. On the 资产 tab, click the 溢出 menu 溢出菜单 at the end of the row for the MORTGAGE_APPLICANTS_INTEREST_RATES.CSV file, and choose 发布到目录.

    1. 从列表中选择 抵押贷款审批目录 (或您的目录名称) ,然后单击 下一步

    2. 选择 发布目录后转至目录选项,然后单击 下一步

    3. 复审资产,然后单击 发布

  8. 在目录中,搜索 Mortgage

  9. 打开 MORTGAGE_APPLICANTS_INTEREST_RATES.CSV 文件。

  10. 单击 资产 选项卡以查看数据。

检查点图标检查您的进度

下图显示了 MORTGAGE_APPLICANTS_INTEREST_RATES.CSV 文件。 现在提供了贷款人做出抵押贷款决策所需的数据。

MORTGAGE_APPLICANTS_INTEREST_RATES.CSV 文件



作为 Golden Bank 的数据工程师,您集成了抵押贷款申请人,申请,信用评级和信用评分信息,并在目录中发布了该数据。

清除(可选)

如果要重新学习数据集成用例中的教程,请删除以下工件。

工件 如何删除
抵押贷款审批目录 删除目录
数据集成样本项目 删除项目

后续步骤

了解更多信息

父主题: 用例教程

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more