0 / 0
Go back to the English version of the documentation
数据集成教程: 通过数据集成编排 AI 管道
Last updated: 2024年11月28日
数据集成教程: 通过数据集成编排 AI 管道

使用本教程来创建端到端管道,以通过数据光纤网试用版交付存储在外部数据源中的简明,预处理和最新数据。 您的目标是使用 Orchestration Pipeline 来编排该端到端工作流程,以生成自动化,一致且可重复的结果。 管道使用DataStage和AutoAI,它可以自动化模型构建过程的几个方面,例如特征工程和超参数优化。 AutoAI 对候选算法进行排序,然后选择最佳模型。

快速入门: 如果尚未为此教程创建样本项目,请访问资源中心中的 编排 AI 管道样本项目

本教程的故事是, GoldenBank 希望通过为在线应用程序提供特殊的低利率抵押贷款续约来扩展其业务。 在线申请扩大了银行的客户范围,降低了银行的申请处理成本。 该团队将使用 Orchestration Pipeline 创建一个数据管道,用于提供所有抵押贷款申请人的最新数据,供贷款人用于决策。 数据存储在 Db2 Warehouse中。 您需要准备数据,因为它可能不完整,过时,并且可能由于数据隐私和主权策略而被模糊或完全不可访问。 然后,团队需要根据可信数据构建抵押贷款审批模型,然后在预生产环境中部署和测试该模型。

以下动画图像提供了在本教程结束时将完成的内容的快速预览。 您将编辑并运行管道以构建和部署机器学习模型。 单击该图像以查看更大的图像。

动画图像

预览教程

在本教程中,您将完成以下任务:

观看视频 观看此视频以预览本教程中的步骤。 视频中显示的用户界面可能存在细微差异。 该视频旨在与编写的教程相伴。

此视频提供了一种可视方法来学习本文档中的概念和任务。





完成本教程的提示
以下是成功完成本教程的一些提示。

使用视频图片

提示: 启动视频,然后当您在教程中滚动时,视频将移至画中画方式。 关闭视频目录以获取最佳图片体验。 您可以使用图片-图片方式,以便在完成本教程中的任务时可以关注视频。 单击要继续执行的每个任务的时间戳记。

以下动画图像显示了如何使用视频图片和目录功能:

如何使用图片和章节

在社区中获取帮助

如果您需要本教程的帮助,可以在Cloud Pak for Data社区讨论区提问或寻找答案。

设置浏览器窗口

为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。

并排教程和 UI

提示: 如果在用户界面中完成本教程时迂到引导式教程,请单击 稍后可能



设置先决条件

注册 Cloud Pak for Data as a Service

您必须注册 Cloud Pak for Data as a Service ,并为数据集成用例供应必要的服务。

  • 如果您具有现有的 Cloud Pak for Data as a Service 帐户,那么可以开始使用本教程。 如果您有轻量套餐帐户,那么每个帐户只有一个用户可以运行本教程。
  • 如果您还没有 Cloud Pak for Data as a Service 帐户,请 注册以获取数据光纤网试用

视频图标观看以下视频,了解Cloud Pak for Data 中的数据结构。

此视频提供了一种可视方法来学习本文档中的概念和任务。

验证必需的供应服务

预览教程视频 To preview this task, watch the video beginning at 00:37.

请遵循以下步骤来验证或供应必需的服务:

  1. 导航菜单"导航菜单,选择服务 > 服务实例

  2. 使用产品下拉列表确定是否存在现有的watsonx.aiStudio 服务实例。

  3. 如果需要创建watsonx.aiStudio 服务实例,请单击添加服务

    1. 选择watsonx.aiStudio

    2. 选择轻量套餐。

    3. 单击创建

  4. 等待watsonx.aiStudio 服务配置完成,这可能需要几分钟时间。

  5. 重复这些步骤以验证或供应以下其他服务:

    • watsonx.ai运行时
    • DataStage
    • Cloud Object Storage

检查点图标检查您的进度

下图显示了供应的服务实例:

提供的服务

创建样本项目

预览教程视频 To preview this task, watch the video beginning at 01:14.

如果已有本教程的样本项目,请跳过此任务。 否则,请完成以下步骤:

  1. 访问资源中心的Orchestrate an AI pipeline 示例项目

  2. 单击创建项目

  3. 如果提示将项目与 Cloud Object Storage 实例相关联,请从列表中选择 Cloud Object Storage 实例。

  4. 单击创建

  5. 等待项目导入完成,然后单击 查看新项目 以验证是否已成功创建项目和资产。

  6. 单击 资产 选项卡以查看连接, DataStage 流和数据定义以及管道。

注: 您可能会看到一个指导式教程,其中显示了此用例随附的教程。 导览中的链接将打开这些教程指示信息。
提示: 如果未看到任何 DataStage 流,请返回以查看服务实例,从而验证是否已成功供应 DataStage 实例。 请参阅 供应必需服务

检查点图标检查您的进度

下图显示了样本项目中的 "资产" 选项卡。 现在,您已准备好开始本教程。

下图显示了样本项目中的 "资产" 选项卡。

将watsonx.ai运行时服务与示例项目关联起来

预览教程视频 To preview this task, watch the video beginning at 02:04.

您将使用watsonx.aiRuntime 创建和部署模型,因此请按照以下步骤将您的watsonx.aiRuntime 服务实例与示例项目关联起来。

  1. 编排 AI 管道 项目中,单击 "管理" 选项卡

  2. 单击 服务和集成 页面。

  3. 单击 关联服务

  4. 选中您的watsonx.aiRuntime服务实例旁边的复选框。

  5. 单击 关联

  6. 单击 取消 以返回到 " 服务和集成 " 页面。

检查点图标检查您的进度

下图显示了 "服务与集成"页面,其中列出了watsonx.aiRuntime 服务。 现在,您已准备好创建样本项目。

将服务与项目关联




任务 1: 查看样本项目中的资产

预览教程视频 To preview this task, watch the video beginning at 02:26.

样本项目包含多个资产,包括一个连接,数据定义,两个 DataStage 流和一个管道。 执行以下步骤以查看这些资产:

  1. 单击 "编排 AI 管道项目" 中的 资产 选项卡,然后查看 所有资产

  2. DataStage 流和管道中使用的所有数据资产都存储在 AI_MBS 模式中的 Data Fabric Trial- Db2 Warehouse 连接中。 下图显示了来自该连接的资产:

    Db2 Warehouse 表

  3. 集成抵押贷款数据 DataStage 流程将有关每个抵押贷款申请人的数据 (包括个人可标识信息) 与其申请详细信息,信用评分,作为商业买方的状态以及最终每个申请人所选房屋的价格集成在一起,然后在包含连接数据的项目中创建名为 Mortgage_Data.csv 的顺序文件。 下图显示了 集成抵押数据 DataStage 流。

    提示: 如果未看到任何 DataStage 流,请返回以查看服务实例,从而验证是否已成功供应 DataStage 实例。 请参阅 供应必需服务

    集成抵押贷款数据流

  4. 集成抵押贷款审批 DataStage 流程使用第一个 DataStage 流程 (Mortgage_Data.csv) 的输出,并通过集成有关每个抵押贷款申请审批的信息来进一步扩充数据。 生成的数据集将保存到名为 Mortgage_Data_with_Approvals.csv的项目中。 下图显示了 集成抵押贷款审批 DataStage 流程:

    集成抵押审批流程

  5. Mortgage_Data_with_Approvals.csv 数据资产的 Definition_Mortgage_Data 数据定义由 集成抵押审批 DataStage 流程创建。 下图显示了数据定义:

    定义抵押数据

检查点图标检查您的进度

下图显示了样本项目中的所有资产。 现在,您已准备好浏览样本项目中的管道。

下图显示了样本项目中的所有资产。




任务 2: 浏览现有管道

预览教程视频 To preview this task, watch the video beginning at 04:00.

样本项目包含编排管道,用于自动执行以下任务:

  • 运行两个现有 DataStage 作业。

  • 创建 AutoAI 试验。

  • 运行 AutoAI 试验,并保存使用 DataStage 作业生成的输出文件作为训练数据的最佳性能模型。

  • 创建部署空间。

  • 将保存的模型提升到部署空间。

遵循以下步骤来探索管道:

  1. 从 "编排 AI 管道项目" 中的 资产 选项卡,查看 所有资产

  2. 单击 抵押核准管道 以打开该管道。

  3. 在管道的开始部分中,两个 DataStage 作业 (集成抵押贷款数据集成抵押贷款审批) 按顺序运行,以将 Db2 Warehouse on Cloud 连接中的各种表组合到用作 AutoAI 试验的训练数据的一致标签数据集中。

  4. 双击 检查状态 节点以查看条件。 此条件是管道中的决策点,用于确认第一个 DataStage 作业的完成,值为 已完成已完成但有警告。 单击 取消 以返回到管道。

  5. 双击 创建 AutoAI 试验 节点以查看设置。 此节点使用设置创建 AutoAI 试验。

    1. 查看以下设置的值:

      • AutoAI 试验名称

      • 作用域

      • 预测类型

      • 预测列

      • 阳性类

      • 训练数据分割率

      • 要包括的算法

      • 要使用的算法

      • 优化度量

    2. 单击 取消 以关闭设置。

  6. 双击 运行 AutoAI 试验 节点以查看设置。 此节点运行从 创建 AutoAI 试验 节点创建的 AutoAI 试验,该试验使用 集成抵押贷款审批 DataStage 作业的输出作为训练数据。

    1. 查看以下设置的值:

      • AutoAI 试验

      • 训练数据资产

      • 模型名称前缀

    2. 单击 取消 以关闭设置。

  7. 运行 AutoAI 试验创建部署空间 节点之间,双击 要部署模型吗? 节点以查看条件。 此条件的 True 值是管道中用于继续创建部署空间的决策点。 单击 取消 以返回到管道。

  8. 双击 创建部署空间 节点以查看设置。 此节点创建一个具有指定名称的新部署空间,并要求输入Cloud Object Storage和watsonx.aiRuntime 服务。

    1. 查看 新建空间名称 设置的值。

    2. 对于 新建空间 COS 实例 CRN 字段,从列表中选择 Cloud Object Storage 实例。

    3. 在 "新空间 WML 实例 CRN "字段中,从列表中选择您的watsonx.aiRuntime 实例。

    4. 单击保存

  9. 双击 将模型提升到部署空间 节点以查看设置。 此节点将最佳模型从 运行 AutoAI 试验 节点提升到从 创建部署空间 节点创建的部署空间。

    1. 查看以下设置的值:

      • 源资产

      • 目标

    2. 单击 取消 以关闭设置。

检查点图标检查您的进度

下图显示了初始管道。 现在,您已准备好编辑管道以添加节点。

初始管道




任务 3: 向管道添加节点

预览教程视频 To preview this task, watch the video beginning at 06:23.

管道将创建模型,创建部署空间,然后将其提升到部署空间。 您需要添加节点以创建联机部署。 遵循以下步骤来编辑管道以自动创建联机部署:

  1. 创建联机部署 节点添加到画布:

    1. 展开节点选用板中的 创建 部分。

    2. 创建联机部署 节点拖到画布上,并将该节点放在 将模型提升到部署空间 节点之后。

  2. 将鼠标悬停在 将模型提升到部署空间 节点上以查看箭头。 将箭头连接到 创建联机部署 节点。

    注: 管道中的节点名可能与以下动画图像不同。

    管道连接节点

  3. 通过将注释框上的圆圈连接到节点,将 为提升的模型创建联机部署 注释连接到 创建联机部署 节点。

    注: 管道中的节点名可能与以下动画图像不同。

    管道注释

  4. 双击 创建联机部署 节点以查看设置。

  5. 将节点名更改为 Create Online Deployment

  6. ML 资产旁边,单击菜单中的 从其他节点选择

    从其他节点 ML 资产中选择

  7. 从列表中选择 将模型提升到部署空间 节点。 已选择节点标识 winning_model

  8. 对于 新部署名称,请输入 mortgage approval model deployment

  9. 对于 创建方式,选择 覆盖

  10. 单击 保存 以保存 创建联机部署 节点设置。

检查点图标检查您的进度

下图显示了已完成的管道。 现在,您已准备好运行管道。

已完成管道




任务 4: 运行管道

预览教程视频 To preview this task, watch the video beginning at 07:38.

既然管道已完成,请执行以下步骤来运行管道:

  1. 从工具栏中,单击 运行管道> 试用运行

  2. 在 " 定义管道参数 " 页面上,选择 True 以进行部署。

    • 如果设置为 True,那么管道将验证已部署的模型并对该模型进行评分。

    • 如果设置为 False,那么管道将验证 AutoAI 试验是否在项目中创建了模型,并复审模型信息和训练指标。

  3. 如果这是您第一次运行管道,那么系统会提示您提供 API 密钥。 管道资产使用您的个人 IBM Cloud API 密钥来安全地运行操作,而不会造成中断。

    • 如果您有现有 API 密钥,请单击 使用现有 API 密钥,粘贴 API 密钥,然后单击 保存

    • 如果您没有现有 API 密钥,请单击 生成新的 API 密钥,提供名称,然后单击 保存。 复制 API 密钥,然后保存 API 密钥以供将来使用。 完成后,单击 关闭

  4. 单击 运行 以开始运行管道。

  5. 在管道运行时滚动合并日志。 试运行可能需要最多 10 分钟才能完成。

  6. 在每个操作完成时,在画布上选择该操作的节点。

  7. 节点检验器 选项卡上,查看操作的详细信息。

  8. 单击 节点输出 选项卡以查看每个节点操作的输出摘要。

检查点图标检查您的进度

下图显示了管道在完成试运行后的情况。 现在,您已准备好查看管道创建的资产。

已完成管道运行




任务 5: 查看资产,已部署模型和联机部署

预览教程视频 To preview this task, watch the video beginning at 09:48.

管道创建了多个资产。 执行以下步骤以查看资产:

  1. 单击导航跟踪中的 编排 AI 管道 项目名称以返回到项目。

    导航跟踪

  2. 资产 选项卡上,查看 所有资产

  3. 查看数据资产。

    1. 单击 Mortgage_Data.csv 数据资产。 DataStage 作业已创建此资产。

    2. 单击导航跟踪中的项目名称以返回到 资产 选项卡。

    3. 单击 Mortgage_Data_with_Approvals.csv 数据资产。 DataStage 作业已创建此资产。

    4. 单击导航跟踪中的项目名称以返回到 资产 选项卡。

  4. 查看模型。

    1. 单击机器学习模型资产 (以 抵押者审批 _best_model开头)。 AutoAI 试验生成了多个模型候选,并选择此模型作为最佳模型。

    2. 滚动浏览模型信息。

    3. 单击导航跟踪中的项目名称以返回到 资产 选项卡。

  5. 单击项目中的 作业 选项卡以查看有关两个 DataStage 作业和一个管道作业运行的信息。

  6. 导航菜单"导航菜单,选择 "部署"。

  7. 单击 空间 选项卡。

  8. 单击 抵押审批 部署空间。

  9. 单击 资产 选项卡,并查看以 抵押权审批 _best_model开头的已部署模型。

  10. 单击部署选项卡。

  11. 单击 抵押核准模型部署 以查看部署。

    1. 查看 API 参考 选项卡上的信息。

    2. 单击测试选项卡。

    3. 单击 JSON 输入 选项卡,并将样本文本替换为以下 JSON 文本。

      {
         "input_data": [
             {
                     "fields": [
                             "ID",
                             "NAME",
                             "STREET_ADDRESS",
                             "CITY",
                             "STATE",
                             "STATE_CODE",
                             "ZIP_CODE",
                             "EMAIL_ADDRESS",
                             "PHONE_NUMBER",
                             "GENDER",
                             "SOCIAL_SECURITY_NUMBER",
                             "EDUCATION",
                             "EMPLOYMENT_STATUS",
                             "MARITAL_STATUS",
                             "INCOME",
                             "APPLIEDONLINE",
                             "RESIDENCE",
                             "YRS_AT_CURRENT_ADDRESS",
                             "YRS_WITH_CURRENT_EMPLOYER",
                             "NUMBER_OF_CARDS",
                             "CREDITCARD_DEBT",
                             "LOANS",
                             "LOAN_AMOUNT",
                             "CREDIT_SCORE",
                             "CRM_ID",
                             "COMMERCIAL_CLIENT",
                             "COMM_FRAUD_INV",
                             "FORM_ID",
                             "PROPERTY_CITY",
                             "PROPERTY_STATE",
                             "PROPERTY_VALUE",
                             "AVG_PRICE"
                     ],
                     "values": [
                             [
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     "Bachelor",
                                     "Employed",
                                     null,
                                     144306,
                                     null,
                                     "Owner Occupier",
                                     15,
                                     19,
                                     2,
                                     7995,
                                     1,
                                     1483220,
                                     437,
                                     null,
                                     false,
                                     false,
                                     null,
                                     null,
                                     null,
                                     111563
                             ],
                             [
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     null,
                                     "High School",
                                     "Employed",
                                     null,
                                     45283,
                                     null,
                                     "Private Renting",
                                     11,
                                     13,
                                     1,
                                     1232,
                                     1,
                                     7638,
                                     706,
                                     null,
                                     false,
                                     false,
                                     null,
                                     null,
                                     null,
                                     547262
                             ]
                     ]
             }
         ]
      }
      
    4. 单击 预测。 结果显示,第一个申请人将不获批准,第二个申请人将获批准。

检查点图标检查您的进度

下图显示了测试结果。

测试结果预测



Golden Bank 的团队使用 Orchestration Pipeline 创建了一个数据管道,用于提供所有抵押贷款申请人的最新数据,以及一个可供贷款人用于决策的机器学习模型。


清除(可选)

如果要重新学习本教程,请删除以下工件。

工件 如何删除
抵押贷款审批部署空间中的抵押贷款审批模型部署 删除部署
抵押核准部署空间 删除部署空间
编排 AI 管道样本项目 删除项目

后续步骤

了解更多信息

父主题: 用例教程

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more