構造化データの発見、エンリッチメント、データ品質のためのコネクタをサポート
多くのデータソースに接続し、そこから資産メタデータをインポートし、 データ資産充実させ、そのデータ品質を評価することができます。 これらのソースにあるデータのダイナミック・ビューを作成できる。 また、データ品質分析の出力をサポートされているデータソースに書き込むこともできます。
列のいずれかにダッシュ(-)がある場合は、そのデータ・ソースがこの目的でサポートされていないことを示す。
デフォルトでは、データ品質ルールとその基礎となる DataStage フローは、標準的なプラットフォーム接続をサポートしている。 従来の DataStage でサポートされ、カスタム DataStage フローで使用される可能性があったすべてのコネクタが IBM Knowledge Catalog でサポートされているわけではありません。
条件と制限
データキュレーションとデータ品質評価で使用する接続の要件と制限を理解する。
必要な権限
ユーザは、データ・ソースへの接続にアクセスする権限を与えられなければならない。 メタデータのインポートの場合、インポートを実行するユーザは、対象のデータベースに対してSELECT権限または同様の権限を持っている必要があります。
一般的な前提条件
このようなケースで使用される接続は、プロジェクト内に接続資産存在しなければならない:
- メタデータ・エンリッチメントの資産、高度な分析(詳細な主キー分析、詳細な関係分析、または高度なデータ・プロファイリング)を含むメタデータ・エンリッチメントを実行する
- データ品質ルールの実行
- クエリー データ資産 (ダイナミック・ビュー) 作成用
- データ品質チェックや度数分布表の出力用
サポートされるソース・データ・フォーマット
一般に、メタデータ・インポート、メタデータ・エンリッチメント、およびデータ品質ルールは、以下のデータ形式をサポートしている:
すべて: リレーショナルおよび非リレーショナル・データ・ソースのテーブル
Delta Lake およびIcebergテーブル・フォーマットで、特定のファイル・ストレージ・コネクタに対応する。 分析を期待通りに行うには、トップレベル・ディレクトリではなく、特定のファイルをインポートする:
- Delta Lake テーブルについては、
_delta_log
ファイルをインポートする。 - Iceberg テーブルの場合は、
metadata/version-hint.text
ファイルをインポートします。
- Delta Lake テーブルについては、
Metadata import : データソースへのファイルベースの接続から任意のフォーマット。 Microsoft Excelワークブックの場合、各シートは個別のデータ資産インポートされます。 データ資産名はエクセルのシート名と同じです。
メタデータの充実: 表形式:CSV、TSV、Avro、Parquet、Microsoft Excel (ローカルファイルシステムからアップロードされたワークブックの場合、ワークブックの最初のシートのみがプロファイルされる)
データ品質ルール表形式:Avro、CSV、Parquet、ORC;ローカルファイルシステムからアップロードされたデータ資産資産はCSVのみ
分析出力テーブルのデータベースサポート
一般に、メタデータ・エンリッチメント、高度なプロファイリング、またはデータ品質ルールの実行の一部として実行されたデータ品質分析からの分析結果を含む出力テーブルは、これらのデータベースに書き込むことができる:
特定のデータベース・コネクタが出力テーブルもサポートしている場合、 Target for output tables 列にチェックマークが表示されます。
ファイル・ストレージ・コネクター
コネクター | Metadata import | メタデータのエンリッチメント | 定義に基づくルール |
---|---|---|---|
Amazon S3 Delta Lake テーブル、アイスバーグ・テーブル |
✓ | ✓ | ✓ |
Apache HDFS | ✓ | ✓ | ✓ |
Box | ✓ | ✓ 1 | — |
ジェネリックS3 Delta Lake テーブル、アイスバーグ・テーブル |
✓ | ✓ | ✓ |
Google Cloud Storage Delta Lake テーブル、アイスバーグ・テーブル |
✓ | ✓ | ✓ |
IBM Cloud Object Storage | ✓ | ✓ | — |
IBM Match 360 | ✓ | ✓ | ✓ |
Microsoft Azure Data Lake Storage Delta Lake テーブル、アイスバーグ・テーブル |
✓ | ✓ | ✓ |
注:
1 このデータソースでは、高度な分析はサポートされていません。
データベース・コネクター
コネクター | Metadata import | メタデータのエンリッチメント | 定義に基づくルール | SQLベースのルール | SQLベースのデータ資産 | 出力テーブルのターゲット |
---|---|---|---|---|---|---|
Amazon RDS for MySQL | ✓ | ✓ | — | — | — | — |
Amazon RDS for Oracle | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Amazon RDS for PostgreSQL | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Amazon Redshift | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
Apache Cassandra | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Apache Hive | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ 5 |
Apache Impala と Apache Kudu | ✓ | ✓ | ✓ | ✓ | ✓ | — |
電王堂 |
✓ | ✓ | ✓ | ✓ | ✓ | — |
Dremio | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Google BigQuery | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ 6 |
Greenplum | ✓ | ✓ | ✓ | ✓ | ✓ | — |
IBM Cloud Databases for MongoDB | ✓ | ✓ | — | — | — | — |
IBM Cloud Databases for MySQL | ✓ | ✓ | — | — | — | — |
IBM Cloud Databases for PostgreSQL | ✓ | ✓ | — | — | — | — |
IBM Data Virtualization | ✓ | ✓ | ✓ | ✓ | ✓ | — |
IBM Data Virtualization Manager for z/OS 2 | ✓ | ✓ | — | — | — | — |
IBM Db2 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
IBM Db2 Big SQL | ✓ | ✓ | — | — | — | — |
IBM Db2 for z/OS | ✓ | ✓ | — | — | — | — |
IBM Db2 on Cloud | ✓ | ✓ | ✓ | ✓ | — | ✓ |
IBM Db2 Warehouse | ✓ | ✓ | — | — | — | — |
IBM Informix | ✓ | ✓ | — | — | — | — |
IBM Netezza Performance Server | ✓ | ✓ | ✓ | ✓ | — | — |
コネクター | Metadata import | メタデータのエンリッチメント | 定義に基づくルール | SQLベースのルール | SQLベースのデータ資産 | 出力テーブルのターゲット |
MariaDB | ✓ | ✓ | — | — | — | — |
Microsoft Azure データブリックス 7 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Microsoft Azure SQL Database | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Microsoft SQL Server | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
MongoDB | ✓ | ✓ | ✓ | ✓ | — | — |
MySQL | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Oracle 3 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
PostgreSQL | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Salesforce.com | ✓ | ✓ 1 4 | — | — | — | — |
SAP ASE | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
SAP OData 認証方法:ユーザー名とパスワード |
✓ | ✓ 8 | ✓ | — | — | — |
SingleStoreDB | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Snowflake | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Teradata | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
注:
1 このデータソースでは、高度な分析はサポートされていません。
2 Data Virtualization Manager for z/OS を使って、メインフレームシステムから のカタログにデータと コピーブックの IBM Cloud Pak for Data COBOL 資産追加する。 コピーブックは、COBOL プログラムのデータ構造を記述するファイルです。 Data Virtualization Manager for z/OS は、COBOL コピーブック・マップから仮想表および仮想ビューを作成するのに役立ちます。 その後、これらの仮想表および仮想ビューを使用して、メインフレームのメインフレーム・データをデータ資産および COBOL コピーブック資産の形式で IBM Cloud Pak for Data にインポートし、カタログに登録することができます。
次のタイプの COBOL コピーブック地図はインポートされない:ACI、カタログ、ナチュラル
インポートが完了したら、カタログに移動して、インポートされた資産 (COBOL コピーブック・マップ、仮想表、仮想ビューなど) を確認できます。 これらの資産は、Cloud Pak for Data の他の資産と同じ方法で使用できます。
詳しくは、 COBOL コピーブック資産の追加を参照してください。
3 テーブルと列の説明がインポートされるのは、接続が以下のメタデータ・ディスカバリー・ オプションの1つで構成されている場合のみです:
- 同義語なし
- 注釈および同義語
4 SFORCEスキーマの一部のオブジェクトはサポートされていません。 参照 Salesforce.com.
5 3.0.0 よりも古いバージョンの Apache Hive でメタデータ・エンリッチメント出力テーブルを作成するには、 3.0.0 よりも古いバージョンの Apache Hive にメタデータ・エンリッチメント出力を書き込む で説明した回避策を適用する必要があります。
6 高度なプロファイリングの出力テーブル:あまりに短い間隔でアドバンスト・プロファイリングを再実行すると、 Google BigQuery のデータが十分に速く更新されないため、結果が蓄積される可能性があります。 同じ出力ターゲットでアドバンスト・プロファイリングを再実行する前に、少なくとも90分待つこと。 詳しくは、 Stream data availabilityをご覧ください。 あるいは、別の出力テーブルを定義することもできる。
7 Hive メタストアとUnityカタログ
8 データ資産テーブルかビューかの情報は取得できないため、エンリッチメント結果には表示されない。