Translation not up to date
为了应对大量数据和不同数据源的涌入,企业需要在其数据集成流程中构建自动化和智能。 Cloud Pak for Data as a Service 提供了用于在分布式环境中动态和智能地编排数据的平台和工具,以便为数据使用者创建高性能的即时可用信息网络。
观看此视频,以查看用于在 Cloud Pak for Data中实现数据集成解决方案的数据光纤网用例。
此视频提供了一种可视方法来学习本文档中的概念和任务。
挑戰
随着数据类型和数量的增长,企业面临以下数据集成挑战:
- 采集来自整个企业的数据
- 无论数据位于本地,云端还是混合环境中,流程都需要能够从任何应用程序或系统中采集数据。
- 集成来自多个源的数据
- 数据工程师必须能够将来自多个数据源的数据作为文件或虚拟表组合成单个数据集。
- 使数据可供用户使用
- 数据工程师需要能够将每个集成数据集发布到单个目录,所有需要使用该数据的用户都需要对其进行自助服务访问。
您可以使用 Cloud Pak for Data as a Service来解决这些挑战并集成数据。
示例: Golden Bank 的挑战
随着数据工程团队实施数据集成,关注金银的故事。 金银有大量的客户和抵押贷款数据存储在三个外部数据源中。 贷款人使用这些信息来帮助他们决定是应该批准还是拒绝抵押贷款申请。 银行希望集成来自不同来源的数据,然后将转换后的数据交付到可共享的单个输出文件。
过程
要为企业实施数据集成解决方案,贵组织可以遵循以下过程:
Cloud Pak for Data as a Service 中的 DataStage, Watson Query, Data Replication和 IBM Knowledge Catalog 服务提供组织实现数据集成解决方案所需的所有工具和流程。
1. 集成数据
借助使用 Cloud Pak for Data as a Service的数据结构体系结构,数据工程师可以通过使用工作负载和数据策略来优化数据集成,从而高效地访问和处理数据,并将来自不同源,类型和云的虚拟化数据组合在一起,就像数据来自单个数据源一样。 在此过程步骤中,将提取,采集,虚拟化原始数据,并将其转换为可供探索的可使用的高质量数据,然后在 AI 生命周期中进行编排。
您可以使用的内容 | 可以执行的操作 | 最佳使用时间 |
---|---|---|
Watson Query | 作为一个数据源查询多个数据源。 数据工程师可以创建虚拟数据表,这些表可以组合,连接或过滤来自各种关系数据源的数据。 然后,数据工程师可以将生成的组合数据作为目录中的数据资产提供。 例如,您可以使用组合数据来订阅仪表板, Notebook 和流,以便可以探索数据。 |
您需要组合来自多个源的数据以生成视图。 您需要使组合数据可用作目录中的数据资产。 |
DataStage | 数据工程师可以设计和运行用于移动和变换数据的复杂 ETL 数据管道。 | 您需要设计和运行复杂的数据流。 这些流必须处理大量数据并连接到广泛的数据源,集成和变换数据,并以批处理或实时方式将其交付到目标系统。 |
Data Refinery | 访问和优化来自不同数据源连接的数据。 及时将生成的数据集具体化为快照,这些快照可组合,连接,过滤或屏蔽数据,以使其可供数据研究员分析和探索。 使生成的数据集在目录中可用。 |
当您想要对数据进行塑形或清理时,需要将其可视化。 您希望简化准备大量原始数据以进行分析的过程。 |
Data Replication | 跨多个站点分发数据集成工作负载。 提供数据的持续可用性。 |
您的数据分布在多个站点上。 您需要数据持续可用。 |
示例: Golden Bank 的数据集成
Golden Bank 的风险分析师计算他们建议借款人为每个信用评分范围提供的每日利率。 数据工程师使用 DataStage 将匿名抵押贷款应用程序数据与抵押贷款申请人的个人可标识信息进行汇总。 DataStage 集成了此信息,包括每个申请人的信用评分信息,申请人的债务总额以及利率查找表。 然后,数据工程师将数据装入到目标输出 .csv 文件中,该文件可发布到目录并供贷方和分析人员共享使用。
自动执行数据生命周期
您的团队可以使用 Orchestration Pipeline 自动执行和简化数据生命周期。
您可以使用的内容 | 可以执行的操作 | 最佳使用时间 |
---|---|---|
编排管道 | 使用管道来创建可重复和调度的流,以自动执行数据采集和集成。 | 您希望自动执行数据集成流中的部分或全部步骤。 |
示例: Golden Bank 的自动化数据生命周期
金银的数据科学家可以使用管道来自动执行其数据集成生命周期,以保持数据最新。
数据集成教程
教程 | 描述 | 教程的专业知识 |
---|---|---|
集成数据 | 抽取,过滤,连接和变换数据。 | 使用 DataStage 拖放界面来变换数据。 |
虚拟化外部数据 | 虚拟化和连接来自外部源的数据表。 | 使用 Watson Query 界面来虚拟化数据。 |
复制数据 | 在源数据库和目标数据库之间设置近乎实时的持续复制。 | 使用 Data Replication 工具来复制数据。 |
通过数据集成编排和 AI 管道 | 创建用于准备数据和训练模型的端到端管道。 | 使用编排管道拖放界面来创建管道。 |
了解更多信息
父主题: 用例