多くのデータソースに接続でき、そこからメタデータをインポートしたり、メタデータエンリッチメントやデータ品質ルールを実行したり、動的ビューを作成したり、データ品質ルールの出力を書き込んだりできる。
列のいずれかにダッシュ(-)がある場合は、そのデータ・ソースがこの目的でサポートされていないことを示す。
デフォルトでは、データ品質ルールおよび基礎となる DataStage フローは、標準プラットフォーム接続をサポートします。 従来の DataStage でサポートされており、カスタム DataStage フローで使用される可能性があるすべてのコネクターが、 IBM Knowledge Catalogでサポートされているわけではありません。
条件と制限
データキュレーションとデータ品質評価で使用する接続の要件と制限を理解する。
必要な権限
ユーザーには、データ・ソースへの接続にアクセスする権限が必要です。 メタデータ・インポートの場合、インポートを実行するユーザーは、問題のデータベースに対する SELECT 権限または類似の権限を持っている必要があります。
一般的な前提条件
以下の場合に使用される接続のために、接続資産がプロジェクト内に存在している必要があります。
- メタデータ・エンリッチメントのアセットに対して、高度な分析(詳細な主キー分析、詳細な関係分析、または高度なデータ・プロファイリング)を含むメタデータ・エンリッチメントを実行する
- データ品質ルールを実行する場合
- 照会ベースのデータ資産を作成する場合 (動的ビュー)
- データ品質チェックや頻度分布表の出力を書き込むため
サポートされるソース・データ・フォーマット
一般に、メタデータ・インポート、メタデータ・エンリッチメント、およびデータ品質ルールは、以下のデータ形式をサポートしている:
すべて: リレーショナル・データ・ソースおよび非リレーショナル・データ・ソースからの表
Amazon S3 では、デルタ湖のテーブル形式は次のようになります
Metadata import: ファイル・ベースの接続からデータ・ソースへの任意の形式。 Microsoft Excel ワークブックの場合、各シートは別個のデータ資産としてインポートされます。 データ資産名は Excel シートの名前と同じです。
メタデータのエンリッチ: 表形式: CSV、TSV、Avro、Parquet、Microsoft Excel (ローカル・ファイル・システムからアップロードされたワークブックの場合、ワークブックの最初のシートのみがプロファイル作成されます。)
データ品質ルール:表形式: Avro、CSV、Parquet、ORC。ローカル ファイル システムからアップロードされたデータ アセットの場合は CSV のみ
リネージ・インポート
データのリネージ情報をインポートするには、IBM Knowledge Catalogサービス・インスタンスでデータのリネージ機能を有効にする必要があります。 詳細は、データ・リネージを有効にするを参照。
分析出力テーブルのデータベースサポート
一般に、分析中に生成される出力表は、これらのデータベースに書き込むことができる:
特定のデータベース コネクタが出力テーブルもサポートしている場合、Target for output tables 列にチェック マークが表示されます。
ファイル・ストレージ・コネクター
コネクター | Metadata import | メタデータのエンリッチメント | 定義に基づくルール |
---|---|---|---|
Amazon S3 | ✓ | ✓ | ✓ |
Apache HDFS | ✓ | ✓ | ✓ |
Box | ✓ | ✓ 1 | — |
汎用 S3 | ✓ | ✓ 1 | — |
IBM Cloud Object Storage | ✓ | ✓ | — |
IBM Match 360 | ✓ | ✓ | ✓ |
Microsoft Azure Data Lake Storage | ✓ | ✓ 1 | ✓ |
注:
1 このデータ・ソースでは、高度な分析はサポートされていません。
データベース・コネクター
コネクター | Metadata import(アセット) | Metadata import (lineage) | メタデータのエンリッチメント | 定義に基づくルール | SQL ベースのルール | SQL ベースのデータ資産 | 出力テーブルのターゲット |
---|---|---|---|---|---|---|---|
Amazon RDS for MySQL | ✓ | — | ✓ | — | — | — | — |
Amazon RDS for Oracle | ✓ | ✓ | — | ✓ | ✓ | — | — |
Amazon RDS for PostgreSQL | ✓ | ✓ | ✓ | — | — | — | — |
Amazon Redshift | ✓ | — | ✓ 1 | ✓ | ✓ | ✓ | — |
Apache Cassandra | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Apache Hive | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ 5 |
Apache Impala と Apache Kudu との組み合わせ | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Dremio | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Google BigQuery | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ 6 |
Greenplum | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
IBM Cloud Data Engine | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for MongoDB | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for MySQL | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for PostgreSQL | ✓ | ✓ | ✓ | — | — | — | — |
IBM Data Virtualization | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
IBM Data Virtualization Manager for z/OS 2 | ✓ | — | ✓ | — | — | — | — |
IBM Db2 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
IBM Db2 Big SQL | ✓ | — | ✓ | — | — | — | — |
IBM Db2 for z/OS | ✓ | ✓ | ✓ | — | — | — | — |
IBM Db2 on Cloud | ✓ | ✓ | ✓ | ✓ | ✓ | — | ✓ |
IBM Db2 Warehouse | ✓ | — | ✓ | — | — | — | — |
IBM Informix | ✓ | — | ✓ | — | — | — | — |
IBM Netezza Performance Server | ✓ | — | ✓ | ✓ | ✓ | — | — |
コネクター | Metadata import(アセット) | Metadata import (lineage) | メタデータのエンリッチメント | 定義に基づくルール | SQL ベースのルール | SQL ベースのデータ資産 | 出力テーブルのターゲット |
MariaDB | ✓ | — | ✓ | — | — | — | — |
Microsoft Azure Databricks7 | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Microsoft Azure SQL Database | ✓ | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
Microsoft SQL Server | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
MongoDB | ✓ | — | ✓ | ✓ | ✓ | — | — |
MySQL | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Oracle 3 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
PostgreSQL | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Salesforce.com | ✓ | — | ✓ 1 4 | — | — | — | — |
SAP ASE | ✓ | — | ✓ 1 | ✓ | ✓ | ✓ | — |
SAP OData 認証方法:ユーザー名とパスワード |
✓ | — | ✓ 8 | ✓ | — | — | — |
SingleStoreDB | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Snowflake | ✓ | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
Teradata | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
注:
1 このデータ・ソースでは、高度な分析はサポートされていません。
2 Data Virtualization Manager for z/OS を使用して、メインフレーム システムから COBOL コピーブック資産を IBM Cloud Pak for Data のカタログに追加します。 コピーブックは、COBOL プログラムのデータ構造を記述するファイルです。 Data Virtualization Manager for z/OS は、COBOL コピーブック・マップから仮想表および仮想ビューを作成するのに役立ちます。 その後、これらの仮想表および仮想ビューを使用して、メインフレームのメインフレーム・データをデータ資産および COBOL コピーブック資産の形式で IBM Cloud Pak for Data にインポートし、カタログに登録することができます。
次のタイプの COBOL コピーブック地図はインポートされません:ACI、カタログ、ナチュラル
インポートが完了したら、カタログに移動して、インポートされた資産 (COBOL コピーブック・マップ、仮想表、仮想ビューなど) を確認できます。 これらの資産は、Cloud Pak for Data の他の資産と同じ方法で使用できます。
詳しくは、 COBOL コピーブック資産の追加を参照してください。
3テーブルと列の説明がインポートされるのは、接続が以下のメタデータ・ディスカバリー・オプションの1つで構成されている場合のみです:
- 同義語なし
- 注釈および同義語
4 SFORCEスキーマの一部のオブジェクトはサポートされていません。 Salesforce.comを参照してください。
5 3.0.0 よりも早いバージョンで Apache Hive のメタデータ強化出力テーブルを作成するには、メタデータ・エンリッチメントの出力を3.0.0よりも古いバージョンのApache Hiveに書き込む で説明されている回避策を適用する必要があります。
6 高度なプロファイリングの出力テーブル:あまりに短い間隔で高度なプロファイリングを再実行すると、Google BigQueryのデータ更新速度が十分でないため、結果が蓄積される可能性があります。 同じ出力ターゲットでアドバンスト・プロファイリングを再実行する前に、少なくとも90分待つこと。 詳しくは、ストリーム・データの可用性をご覧ください。 あるいは、別の出力テーブルを定義することもできる。
7 Hive メタストアとUnityカタログ
8 データ資産がテーブルかビューかの情報は取得できないため、エンリッチメントの結果には表示されません。
メタデータのインポートに特化したコネクタとその他のデータソース
追加のデータソースからアセットと系統のメタデータをインポートできます。
データ・ソース | Metadata import(アセット) | Metadata import (lineage) |
---|---|---|
IBM DataStage for Cloud Pak for Data | — | ✓ |
InfoSphere DataStage | — | ✓ |
Microsoft Power BI (Azure) | — | ✓ |
MicroStrategy | — | ✓ |
OpenLineage | — | ✓ |
Tableau | — | ✓ |
もっと見る
親トピック: キュレーション