0 / 0
Go back to the English version of the documentation
用于组织和数据质量的受支持数据源
Last updated: 2024年12月13日
用于组织和数据质量的受支持数据源

您可以连接到许多数据源,从中导入元数据,运行元数据充实或数据质量规则,创建动态视图,并写入数据质量规则的输出。

任何一列中的破折号 (-) 表示不支持用于此目的的数据源。

缺省情况下,数据质量规则和底层 DataStage 流支持标准平台连接。 并非所有在传统 DataStage 中受支持且可能在定制 DataStage 流中使用的连接器都在 IBM Knowledge Catalog中受支持。

要求和限制

了解用于数据整理和数据质量评估的连接要求和限制。

必需的许可权

用户必须有权访问与数据源的连接。 对于元数据导入,运行导入的用户必须对所讨论的数据库具有 SELECT 或类似许可权。

常规先决条件

对于在以下情况下使用的连接,项目中必须存在连接资产:

  • 在元数据浓缩中对资产运行元数据浓缩,包括高级分析(深入主键分析、深入关系分析或高级数据剖析
  • 用于运行数据质量规则
  • 用于创建基于查询的数据资产 (动态视图)
  • 用于写入数据质量检查或频率分布表的输出结果

支持的源数据格式

一般来说,元数据导入、元数据丰富和数据质量规则支持以下数据格式:

  • 全部: 来自关系数据源和非关系数据源的表

    对于 Amazon S3,Delta Lake 表格格式为

  • Metadata import: 从基于文件的连接到数据源的任何格式。 对于 Microsoft Excel 工作簿,每个工作表都将作为单独的数据资产导入。 数据资产名称等于 Excel 工作表的名称。

  • 元数据扩充: 表格 :CSV , TSV , Avro , Parquet 和 Microsoft Excel (对于从本地文件系统上载的工作簿,仅对工作簿中的第一个工作表进行概要分析。)

  • 数据质量规则:表格:Avro、CSV、Parquet、ORC;对于从本地文件系统上传的数据资产,仅限 CSV

血统导入

要为数据导入世系信息,必须在IBM Knowledge Catalog服务实例中启用数据世系功能。 更多信息,请参阅启用数据行

为分析输出表格提供数据库支持

一般来说,分析过程中生成的输出表可以写入这些数据库:

如果特定数据库连接器也支持输出表,输出表目标列会显示一个复选标记。

文件存储连接器

支持基于文件的连接器
连接器 Metadata import 元数据扩充 基于定义的规则
Amazon S3
Apache HDFS
Box 1
通用 S3 1
IBM Cloud Object Storage
IBM Match 360
Microsoft Azure Data Lake Storage 1

注:

1 此数据源不支持高级分析。

数据库连接器

支持的连接
连接器 Metadata import(资产) Metadata import (lineage) 元数据扩充 基于定义的规则 基于 SQL 的规则 基于 SQL 的数据资产 输出表格的目标
Amazon RDS for MySQL
Amazon RDS for Oracle
Amazon RDS for PostgreSQL
Amazon Redshift 1
Apache Cassandra
Apache Hive 5
Apache Impala 与 Apache Kudu
Dremio
Google BigQuery 6
Greenplum
IBM Cloud Data Engine
IBM Cloud Databases for MongoDB
IBM Cloud Databases for MySQL
IBM Cloud Databases for PostgreSQL
IBM Data Virtualization
IBM Data Virtualization Manager for z/OS 2
IBM Db2
IBM Db2 Big SQL
IBM Db2 for z/OS
IBM Db2 on Cloud
IBM Db2 Warehouse
IBM Informix
IBM Netezza Performance Server
连接器 Metadata import(资产) Metadata import (lineage) 元数据扩充 基于定义的规则 基于 SQL 的规则 基于 SQL 的数据资产 输出表格的目标
MariaDB
Microsoft AzureDatabricks7
Microsoft Azure SQL Database 1
Microsoft SQL Server
MongoDB
MySQL
Oracle 3
PostgreSQL
Salesforce.com 1 4
SAP ASE 1
SAP OData
验证方法:用户名和密码
8
SingleStoreDB
Snowflake 1
Teradata

注:

1 此数据源不支持高级分析。

2 使用 Data Virtualization Manager for z/OS,您可以将数据和 COBOL 副本资产从大型机系统添加到 IBM Cloud Pak for Data 中的目录。 副本是描述 COBOL 程序数据结构的文件。 Data Virtualization Manager for z/OS 帮助您从 COBOL 副本映射创建虚拟表和视图。 然后,利用这些虚拟表和视图,可以将来自大型机的大型机数据以数据资产和 COBOL 副本资产的形式导入到 IBM Cloud Pak 并进行编目。

不导入以下类型的 COBOL 副本地图:ACI、目录、自然

限制: 您不能导入大于 1 MB 的 COBOL 副本。

完成导入后,您可转到该目录以查看导入的资产,包括 COBOL 副本映射、虚拟表和视图。 在 Cloud Pak for Data 中,可以像使用其他资产一样使用这些资产。

有关更多信息,请参阅添加 COBOL 副本资产

3仅当连接配置了以下元数据发现选项之一时,才会导入表和列说明:

  • 无同义词
  • 备注和同义词

4 不支持 SFORCE 模式中的某些对象。 请参阅 Salesforce.com

5 要在 Apache Hive 中创建比 3.0.0 更早版本的元数据丰富输出表,必须应用 将元数据浓缩输出写入 Apache Hive 比 3.0.0 更早的版本 中描述的变通方法。

6 高级剖析的输出表:如果重新运行高级剖析的时间间隔太短,结果可能会累积,因为 Google BigQuery 中的数据更新速度可能不够快。 至少等待 90 分钟后,再使用相同的输出目标重新运行高级剖析。 有关详细信息,请参阅 数据流可用性。 或者,也可以定义不同的输出表。

7 Hive 元存储和 Unity 目录

8 无法检索数据资产是表还是视图的信息,因此不会显示在增强结果中。

元数据导入专用的连接器和其他数据源

您可以从其他数据源导入资产和系列元数据。

数据源 Metadata import(资产) Metadata import (lineage)
IBM DataStage for Cloud Pak for Data
InfoSphere DataStage
Microsoft Power BI (Azure)
MicroStrategy
OpenLineage
Tableau

了解更多信息

父主题: 配置

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more