您可以连接到许多数据源,从中导入元数据,运行元数据充实或数据质量规则,创建动态视图,并写入数据质量规则的输出。
任何一列中的破折号 (-) 表示不支持用于此目的的数据源。
缺省情况下,数据质量规则和底层 DataStage 流支持标准平台连接。 并非所有在传统 DataStage 中受支持且可能在定制 DataStage 流中使用的连接器都在 IBM Knowledge Catalog中受支持。
要求和限制
了解用于数据整理和数据质量评估的连接要求和限制。
必需的许可权
用户必须有权访问与数据源的连接。 对于元数据导入,运行导入的用户必须对所讨论的数据库具有 SELECT 或类似许可权。
常规先决条件
对于在以下情况下使用的连接,项目中必须存在连接资产:
- 在元数据浓缩中对资产运行元数据浓缩,包括高级分析(深入主键分析、深入关系分析或高级数据剖析
- 用于运行数据质量规则
- 用于创建基于查询的数据资产 (动态视图)
- 用于写入数据质量检查或频率分布表的输出结果
支持的源数据格式
一般来说,元数据导入、元数据丰富和数据质量规则支持以下数据格式:
全部: 来自关系数据源和非关系数据源的表
对于 Amazon S3,Delta Lake 表格格式为
Metadata import: 从基于文件的连接到数据源的任何格式。 对于 Microsoft Excel 工作簿,每个工作表都将作为单独的数据资产导入。 数据资产名称等于 Excel 工作表的名称。
元数据扩充: 表格 :CSV , TSV , Avro , Parquet 和 Microsoft Excel (对于从本地文件系统上载的工作簿,仅对工作簿中的第一个工作表进行概要分析。)
数据质量规则:表格:Avro、CSV、Parquet、ORC;对于从本地文件系统上传的数据资产,仅限 CSV
血统导入
要为数据导入世系信息,必须在IBM Knowledge Catalog服务实例中启用数据世系功能。 更多信息,请参阅启用数据行。
为分析输出表格提供数据库支持
一般来说,分析过程中生成的输出表可以写入这些数据库:
如果特定数据库连接器也支持输出表,输出表目标列会显示一个复选标记。
文件存储连接器
连接器 | Metadata import | 元数据扩充 | 基于定义的规则 |
---|---|---|---|
Amazon S3 | ✓ | ✓ | ✓ |
Apache HDFS | ✓ | ✓ | ✓ |
Box | ✓ | ✓ 1 | — |
通用 S3 | ✓ | ✓ 1 | — |
IBM Cloud Object Storage | ✓ | ✓ | — |
IBM Match 360 | ✓ | ✓ | ✓ |
Microsoft Azure Data Lake Storage | ✓ | ✓ 1 | ✓ |
注:
1 此数据源不支持高级分析。
数据库连接器
连接器 | Metadata import(资产) | Metadata import (lineage) | 元数据扩充 | 基于定义的规则 | 基于 SQL 的规则 | 基于 SQL 的数据资产 | 输出表格的目标 |
---|---|---|---|---|---|---|---|
Amazon RDS for MySQL | ✓ | — | ✓ | — | — | — | — |
Amazon RDS for Oracle | ✓ | ✓ | — | ✓ | ✓ | — | — |
Amazon RDS for PostgreSQL | ✓ | ✓ | ✓ | — | — | — | — |
Amazon Redshift | ✓ | — | ✓ 1 | ✓ | ✓ | ✓ | — |
Apache Cassandra | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Apache Hive | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ 5 |
Apache Impala 与 Apache Kudu | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Dremio | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Google BigQuery | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ 6 |
Greenplum | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
IBM Cloud Data Engine | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for MongoDB | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for MySQL | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for PostgreSQL | ✓ | ✓ | ✓ | — | — | — | — |
IBM Data Virtualization | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
IBM Data Virtualization Manager for z/OS 2 | ✓ | — | ✓ | — | — | — | — |
IBM Db2 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
IBM Db2 Big SQL | ✓ | — | ✓ | — | — | — | — |
IBM Db2 for z/OS | ✓ | ✓ | ✓ | — | — | — | — |
IBM Db2 on Cloud | ✓ | ✓ | ✓ | ✓ | ✓ | — | ✓ |
IBM Db2 Warehouse | ✓ | — | ✓ | — | — | — | — |
IBM Informix | ✓ | — | ✓ | — | — | — | — |
IBM Netezza Performance Server | ✓ | — | ✓ | ✓ | ✓ | — | — |
连接器 | Metadata import(资产) | Metadata import (lineage) | 元数据扩充 | 基于定义的规则 | 基于 SQL 的规则 | 基于 SQL 的数据资产 | 输出表格的目标 |
MariaDB | ✓ | — | ✓ | — | — | — | — |
Microsoft AzureDatabricks7 | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Microsoft Azure SQL Database | ✓ | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
Microsoft SQL Server | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
MongoDB | ✓ | — | ✓ | ✓ | ✓ | — | — |
MySQL | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Oracle 3 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
PostgreSQL | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Salesforce.com | ✓ | — | ✓ 1 4 | — | — | — | — |
SAP ASE | ✓ | — | ✓ 1 | ✓ | ✓ | ✓ | — |
SAP OData 验证方法:用户名和密码 |
✓ | — | ✓ 8 | ✓ | — | — | — |
SingleStoreDB | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Snowflake | ✓ | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
Teradata | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
注:
1 此数据源不支持高级分析。
2 使用 Data Virtualization Manager for z/OS,您可以将数据和 COBOL 副本资产从大型机系统添加到 IBM Cloud Pak for Data 中的目录。 副本是描述 COBOL 程序数据结构的文件。 Data Virtualization Manager for z/OS 帮助您从 COBOL 副本映射创建虚拟表和视图。 然后,利用这些虚拟表和视图,可以将来自大型机的大型机数据以数据资产和 COBOL 副本资产的形式导入到 IBM Cloud Pak 并进行编目。
不导入以下类型的 COBOL 副本地图:ACI、目录、自然
完成导入后,您可转到该目录以查看导入的资产,包括 COBOL 副本映射、虚拟表和视图。 在 Cloud Pak for Data 中,可以像使用其他资产一样使用这些资产。
有关更多信息,请参阅添加 COBOL 副本资产。
3仅当连接配置了以下元数据发现选项之一时,才会导入表和列说明:
- 无同义词
- 备注和同义词
4 不支持 SFORCE 模式中的某些对象。 请参阅 Salesforce.com。
5 要在 Apache Hive 中创建比 3.0.0 更早版本的元数据丰富输出表,必须应用 将元数据浓缩输出写入 Apache Hive 比 3.0.0 更早的版本 中描述的变通方法。
6 高级剖析的输出表:如果重新运行高级剖析的时间间隔太短,结果可能会累积,因为 Google BigQuery 中的数据更新速度可能不够快。 至少等待 90 分钟后,再使用相同的输出目标重新运行高级剖析。 有关详细信息,请参阅 数据流可用性。 或者,也可以定义不同的输出表。
7 Hive 元存储和 Unity 目录
8 无法检索数据资产是表还是视图的信息,因此不会显示在增强结果中。
元数据导入专用的连接器和其他数据源
您可以从其他数据源导入资产和系列元数据。
数据源 | Metadata import(资产) | Metadata import (lineage) |
---|---|---|
IBM DataStage for Cloud Pak for Data | — | ✓ |
InfoSphere DataStage | — | ✓ |
Microsoft Power BI (Azure) | — | ✓ |
MicroStrategy | — | ✓ |
OpenLineage | — | ✓ |
Tableau | — | ✓ |
了解更多信息
父主题: 配置