0 / 0
Go back to the English version of the documentation
数据集成用例
Last updated: 2024年6月19日
数据集成用例

为了应对大量数据和不同数据源的涌入,企业需要在其数据集成流程中构建自动化和智能。 Cloud Pak for Data as a Service 提供了用于在分布式环境中动态和智能地编排数据的平台和工具,以便为数据使用者创建高性能的即时可用信息网络。

观看此视频,以查看用于在 Cloud Pak for Data中实现数据集成解决方案的数据光纤网用例。

此视频提供了一种可视方法来学习本文档中的概念和任务。

挑戰

随着数据类型和数量的增长,企业面临以下数据集成挑战:

采集来自整个企业的数据
无论数据位于本地,云端还是混合环境中,流程都需要能够从任何应用程序或系统中采集数据。
集成来自多个源的数据
数据工程师必须能够将来自多个数据源的数据作为文件或虚拟表组合成单个数据集。
使数据可供用户使用
数据工程师需要能够将每个集成数据集发布到单个目录,所有需要使用该数据的用户都需要对其进行自助服务访问。

您可以使用 Cloud Pak for Data as a Service来解决这些挑战并集成数据。

示例: Golden Bank 的挑战

随着数据工程团队实施数据集成,关注金银的故事。 金银有大量的客户和抵押贷款数据存储在三个外部数据源中。 贷款人使用这些信息来帮助他们决定是应该批准还是拒绝抵押贷款申请。 银行希望集成来自不同来源的数据,然后将转换后的数据交付到可共享的单个输出文件。

过程

要为企业实施数据集成解决方案,贵组织可以遵循以下过程:

  1. 集成数据
  2. 共享数据
  3. 自动执行数据生命周期

Cloud Pak for Data as a Service 中的 DataStage, Watson Query, Data Replication和 IBM Knowledge Catalog 服务提供组织实现数据集成解决方案所需的所有工具和流程。

显示数据集成用例流的图像

1. 集成数据

借助使用 Cloud Pak for Data as a Service的数据结构体系结构,数据工程师可以通过使用工作负载和数据策略来优化数据集成,从而高效地访问和处理数据,并将来自不同源,类型和云的虚拟化数据组合在一起,就像数据来自单个数据源一样。 在此过程步骤中,将提取,采集,虚拟化原始数据,并将其转换为可供探索的可使用的高质量数据,然后在 AI 生命周期中进行编排。

您可以使用的内容 可以执行的操作 最佳使用时间
Watson Query 作为一个数据源查询多个数据源。 数据工程师可以创建虚拟数据表,这些表可以组合,连接或过滤来自各种关系数据源的数据。

然后,数据工程师可以将生成的组合数据作为目录中的数据资产提供。 例如,您可以使用组合数据来订阅仪表板, Notebook 和流,以便可以探索数据。
您需要组合来自多个源的数据以生成视图。

您需要使组合数据可用作目录中的数据资产。
DataStage 数据工程师可以设计和运行用于移动和变换数据的复杂 ETL 数据管道。 您需要设计和运行复杂的数据流。 这些流必须处理大量数据并连接到广泛的数据源,集成和变换数据,并以批处理或实时方式将其交付到目标系统。
Data Refinery 访问和优化来自不同数据源连接的数据。

及时将生成的数据集具体化为快照,这些快照可组合,连接,过滤或屏蔽数据,以使其可供数据研究员分析和探索。

使生成的数据集在目录中可用。
当您想要对数据进行塑形或清理时,需要将其可视化。

您希望简化准备大量原始数据以进行分析的过程。
Data Replication 跨多个站点分发数据集成工作负载。

提供数据的持续可用性。
您的数据分布在多个站点上。

您需要数据持续可用。

示例: Golden Bank 的数据集成

Golden Bank 的风险分析师计算他们建议借款人为每个信用评分范围提供的每日利率。 数据工程师使用 DataStage 将匿名抵押贷款应用程序数据与抵押贷款申请人的个人可标识信息进行汇总。 DataStage 集成了此信息,包括每个申请人的信用评分信息,申请人的债务总额以及利率查找表。 然后,数据工程师将数据装入到目标输出 .csv 文件中,该文件可发布到目录并供贷方和分析人员共享使用。


2. 共享数据

该目录可帮助您的团队了解您的客户数据,并使正确的数据可供正确使用。 数据科学家和其他类型的用户可以在遵守企业访问和数据保护策略的同时,帮助自己获取所需的集成数据。 他们可以将目录中的数据资产添加到项目中,并在该项目中协作准备,分析和建模数据。

您可以使用的内容 可以执行的操作 最佳使用时间
目录 使用 IBM Knowledge Catalog 中的目录来组织资产,以便在组织中的合作者之间共享。

利用 AI 支持的语义搜索和建议来帮助用户找到所需的内容。
您的用户需要轻松了解,协作,丰富和访问高质量数据。

您希望提高数据的可视性以及业务用户之间的协作。

您需要用户查看,访问,处理和分析数据,而无需了解其物理格式或位置,也无需移动或复制数据。

您希望用户通过对资产进行评级和复审来增强资产。

示例: Golden Bank 的目录

Golden Bank 的治理团队负责人创建了一个目录 "抵押贷款审批目录" ,并将数据管理员和数据研究员添加为目录合作者。 数据专员将其创建的数据资产发布到目录中。 数据研究员在目录中查找由数据管理员组织的数据资产,并将这些资产复制到项目中。 在他们的项目中,数据科学家可以优化数据,为训练模型做好准备。


自动执行数据生命周期

您的团队可以使用 Orchestration Pipeline 自动执行和简化数据生命周期。

您可以使用的内容 可以执行的操作 最佳使用时间
编排管道 使用管道来创建可重复和调度的流,以自动执行数据采集和集成。 您希望自动执行数据集成流中的部分或全部步骤。

示例: Golden Bank 的自动化数据生命周期

金银的数据科学家可以使用管道来自动执行其数据集成生命周期,以保持数据最新。

数据集成教程

教程 描述 教程的专业知识
集成数据 抽取,过滤,连接和变换数据。 使用 DataStage 拖放界面来变换数据。
虚拟化外部数据 虚拟化和连接来自外部源的数据表。 使用 Watson Query 界面来虚拟化数据。
复制数据 在源数据库和目标数据库之间设置近乎实时的持续复制。 使用 Data Replication 工具来复制数据。
通过数据集成编排和 AI 管道 创建用于准备数据和训练模型的端到端管道。 使用编排管道拖放界面来创建管道。

了解更多信息

父主题: 用例

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more