メタデータをインポートするときには、インポートするメタデータのタイプ、インポート・ターゲットとスコープ、インポート・ジョブをスケジュールするかどうか、およびインポート動作をカスタマイズする方法を決定する必要があります。
輸入ゴール
メタデータをインポートする最初のステップは、インポート目標を定義することである。 インポートするメタデータの種類と、インポートしたアセットをプロジェクトで扱うかカタログに直接公開するかを決定する必要があります。
通常、メタデータのインポートは、より大規模なデータ・キュレーション計画の一部です。 例えば、データ資産のメタデータをインポートした後、メタデータ・エンリッチを実行して、インポートしたデータ資産にビジネス・メタデータを追加できます。 データ品質ルールを実行することもできます。 最後に、完成したデータ資産をカタログに公開して、組織と共有することができます。 メタデータ・インポートを設計する前に、自分の選択が全体的なキュレーション計画に与える影響を理解しておく必要があります。 キュレーションの計画を参照してください。
例えば、データ資産の標準的なキュレーション・プロセスには、以下のタスクが含まれます。
- アセットメタデータのインポートオプションを使用してメタデータのインポートを実行し、プロジェクトにデータアセットを追加します。
- データ資産に対してメタデータ・エンリッチを実行して、データのプロファイルを作成したり、基本的なデータ品質分析を行ったり、用語の割り当てによってビジネス・コンテキストを提供したりします。
- 資産に対してデータ品質ルールを実行します。
- 資産をカタログに公開します。
- 系統メタデータをインポートするオプションを使用して同じデータ資産のメタデータ・インポートを実行し、カタログ内のこれらの資産に系統情報を追加します。
メタデータ・エンリッチおよびデータ品質評価は適用されないため、他のタイプの資産をカタログに直接追加できます。 Import asset metadata(アセット メタデータのインポート)とImport lineage metadata(系統メタデータのインポート)の両方のオプションを選択すると、アセットをカタログに追加する際に、アセットのテクニカル メタデータと系統メタデータを同時にインポートできます。
以下のインポート方式から選択できます。
- 資産メタデータをインポートする
- アセットのテクニカル・メタデータは、アセットの詳細、関係、およびアセットのプレビューに関する情報を提供します。 さらに処理するためにプロジェクトに追加することも、インポート後すぐにカタログに掲載することもできる。
- 系統メタデータのインポート
- リネージ・メタデータは、データがどこから来て、どのように変化し、時間の経過とともにどこに移動するかという、データの流れに関する情報を提供する。 リネージ・メタデータはリネージ・リポジトリに保存される。
Before you can import lineage metadata, you must configure data lineage. 詳細については、データ・リネージの設定を参照のこと。
インポート先
メタデータは、作業中のプロジェクトや、編集者または管理者の役割を持っているカタログにインポートできます。
プロジェクト
プロジェクトでは、データ資産に対してメタデータ・エンリッチメントやデータ品質ルールを実行できます。 インポートしたデータ資産のビジネス・メタデータ割り当てとデータ品質に問題がなければ、インポートしたデータ資産をカタログに公開します。
血統情報はカタログやプロジェクトで入手できる。 リネージ情報は、アセットにMetadata importを使用してリネージがインポートされている場合にのみ、プロジェクトで利用できます
プロジェクトが機密扱いとなっている場合、メタデータをインポートできるのはプロジェクトのみで、カタログにはインポートできません。 詳細については、プロジェクトを機密扱いとしてマークするを参照してください。
カタログ
データ資産の内容がよく分かっていて、メタデータ・エンリッチ・ルールまたはデータ品質ルールを実行しない場合は、それらのメタデータをカタログに直接インポートできます。 インポートが完了すると、選択したカタログでアセットが公開されます。
ただし、そのカタログが機密扱いとなっているプロジェクトの一部である場合を除く。
カタログにインポートする場合は、重複資産を許可するのではなく、元の資産を更新するように設定された重複資産処理がターゲット・カタログにあることを確認してください。 重複資産の処理を参照してください。
インポートされたデータ資産に対してデータ保護ルールを適用する場合は、インポート・ターゲットとして管理対象カタログを選択する必要があります。
データ・ソース
サポートされているデータ・ソースのリストについては、キュレーションとデータ品質でサポートされているデータ・ソースを参照のこと。
データ・ソースに接続するには、以下の詳細を指定する必要がある:
データソースの定義。 リネージ・メタデータをインポートする場合は必須で、アセット・メタデータをインポートする場合は任意です。 エンドポイントを使用してデータ・ソースを一意に識別するために使用される。 エンドポイントには、ホスト名やIPアドレス、ポート番号、データベース名やインスタンス識別子などの情報が含まれます。 例えば、Microsoft SQL Serverデータベースが複数ある場合、データソース定義はそのうちの1つを特定する。 または、Teradataクラスタがさまざまなホスト名を持つ複数のノードを含む場合、データソース定義はクラスタ全体を1つのエンティティとして識別します。 詳細については、データ・ソース定義の作成を参照してください。
スキャナー メタデータを抽出して処理し、リネージを作成するために使用される。 リネージがインポートされるデータソースが複数のテクノロジのメタデータをホストできる場合は、スキャナを選択します。 例えば、Microsoft SQL Serverは、Microsoft SQL ServerIntegration Servicesのメタデータストレージとして使用することができる。 このような場合、系統メタデータはデータベースMicrosoft SQL Server)またはETLジョブMicrosoft SQL ServerIntegration Services)からインポートすることができる。 特定のタイプの血統メタデータをインポートするスキャナーを選択します。
コネクションだ。 接続の詳細には認証情報が含まれる。 例えば、異なるホスト名を使用して接続したり、特定の権限を持つさまざまなユーザー・アカウントに接続したりするために、1つのデータ・ソースに対して多くの接続を作成することができます。 特定のデータ・ソースに接続するために必要な詳細は、「コネクタ」セクションの各接続トピックで説明します。 アセット メタデータをインポートするときは、データ ソース定義または接続のいずれかを選択する必要があります。
インポートの有効範囲
インポートするデータの範囲を決めます。 データソースのサイズや内容によっては、すべてのアセットをインポートするのではなく、選択したサブセットをインポートしたい場合があります。 完全なスキーマまたはフォルダーを含めることも、個々の表やファイルにドリルダウンすることもできます。 スキーマまたはフォルダーを選択すると、そのスキーマまたはフォルダーに含まれる項目の数を即時に確認できます。 このようにして、セット全体を含めるのか、またはサブセットのみの方が目的に適しているのかを判別できます。
名前に特殊文字が含まれているスキーマからデータをインポートすることはできません。
血統メタデータの包含リストと除外リスト
リネージ メタデータを抽出するスコープを定義すると、抽出に含める、または抽出から除外するアセットのリストを追加できます。 このリストは通常正規表現であり、その形式は選択したデータ・ソースに固有である。 詳細については、コネクターセクションの特定の接続トピックを参照してください。
外部入力
リネージのメタデータをインポートする際、一部のデータソースに手動入力を追加することで、最終的なリネージにより完全なデータを含めることができます。 次のオプションがあります。
- ファイルから入力を追加する
- 通常、特定のデータ・ソースの要件を満たす構造の.zipファイルを追加します。 構造要件については、コネクター・セクションの各接続トピックで詳しく説明しています。
- 外部エージェントからのメタデータの取り込み
- エージェント・ファイル・システムやGitリポジトリに手動で接続することができる。 その後、資産がダウンロードされ、メタデータの抽出に使用される。
プレースホルダーの置き換え
リネージ用の外部入力を追加すると、環境変数などのプレースホルダーの値を、リネージ分析に使用する実際の値に置き換えることができる。 以下の表は、系統分析のためにデータの表示をどのように変更できるかの例である。
交換用スコープ | スコープ処理形式 | プレースホルダーの値 | 置換値 |
---|---|---|---|
(正規表現は選択されず、プレーンテキストが使用される) | ${table_name} | 顧客 | |
.*bteq | 正規表現 | ${db} | dwh |
プレースホルダーの置換を提供するもう一つの方法は、CSVファイルを作成し、外部入力としてアップロードする.zipファイルに追加することです。 このファイルはreplace.csv
という名前で、以下のような構造になっていなければならない:
"PLACEHOLDER","REPLACEMENT_VALUE"[,SCOPE]
各項目の意味は次のとおりです。
PLACEHOLDER
is the value that you want to replace.REPLACEMENT_VALUE
is the new value that replaces the original value.SCOPE
is a filter to apply the replacement only on the selected assets. この列はオプションです。 正規表現として解釈される。 このファイルで使用できるパスの例は\MyBD\MySchema\MyScript.sql
.
各交代ペアは別々のラインに置かなければならない。 各値はダブルクォーテーション("")で囲まなければならない。
スケジューリング・オプション
スケジュールを設定しない場合は、メタデータ・インポート資産を最初に保存するときにインポートを実行します。 インポートは、いつでも手動で再実行できます。
特定のスケジュールでインポートの実行を選択する場合は、ジョブを実行する日時を定義します。 同じ資産に対して、スケジュールされたメタデータ・インポートおよび対応するメタデータ・エンリッチ・ジョブを調整することができます。
特定のスケジュールでインポートの実行を選択する場合は、ジョブを実行する日時を定義します。 単一の実行をスケジュールすることも、繰り返し実行をスケジュールすることもできます。 単一の実行をスケジュールすると、ジョブは指定された日時に 1 回だけ実行されます。 定期的な実行をスケジュールした場合、ジョブはRecurrenceセクションで指定されたタイムスタンプで初めて実行されます。
インポート・ジョブのデフォルト名は metadata_import_name ジョブです。 メタデータ・インポートをセットアップするときに、命名スキーマに合わせて名前を変更できます。 ただし、後で名前を変更することはできません。 作成したインポート・ジョブには、メタデータ・インポート・アセット内またはプロジェクトのジョブ・ページからアクセスできます。 ジョブを参照してください。
メタデータ・インポート資産を編集することで、メタデータ・インポートのスケジュールを更新できます。
リネージ・インポート・フェーズ
リネージ・メタデータのインポートは、さまざまな段階を経るプロセスである。 ニーズに合わせてインポートを最適化するために、各メタデータ・インポート・ジョブで実行するフェーズを決めることができます。 たとえば、最近リフレッシュされた選択された接続に対してのみ抽出フェーズを実行して、パフォーマンスを向上させることができます。 このフェーズが完了したら、リフレッシュされた接続と以前に抽出された接続のすべてについて分析を実行することができます。
以下のリストでは、各リネージインポートフェーズでどのような処理が実行されるかを簡単に説明する:
- 辞書抽出
- リネージ資産(テーブル、ビュー、シノニム、その他)をリネージリポジトリに抽出およびインポートします。
- 変換抽出
- データ・ソースから変換の定義を抽出します。
- 抽出インプット分析
- 自動的に抽出された変換のデータ系統を分析します。
- 外部入力の取り込み
- エージェントファイルシステムやGitリポジトリから外部入力を取り込む。
- 外部入力分析
- メタデータ・インポート・ジョブによってインジェストまたはアップロードされた外部入力のデータ・リネージを分析します。
拡張インポート・オプション
一般的なインポート動作と、メタデータ・インポートの再実行時にインポートされる資産に対して行われる処理をカスタマイズできます。
資産メタデータのインポートオプション
- 特定のプロパティーが更新されないようにする
- デフォルトでは、すべての資産プロパティーは、資産の再インポート時に更新されます。 再インポート時に資産名、資産説明、列の説明を更新したくない場合は、[再インポート時に更新]リストの各チェックボックスをオフにします。
- 再インポートに含まれていない既存の資産の削除
- デフォルトでは、インポートの再実行時にターゲット・プロジェクトまたはカタログから削除される資産はありません。 ターゲット・プロジェクトまたはカタログをクリーンアップするには、 「再インポート時に削除」 オプションから選択します。
- アセットがデータソースに見つからないか、インポートから除外されました:このような場合は、インポートを再実行する際に、インポート対象から以前にインポートしたアセットを削除してください:
- アセットがデータソースから利用できなくなりました。
- 再実行の際に[インポートから除外]の設定が変更され、アセットがインポートから除外されるようになりました(リレーショナル データベース上で実行するメタデータのインポートにのみ適用されます)。
- インポートスコープから削除されたアセット:インポートの再実行時に、インポート対象から前回の実行後にこのメタデータのスコープから削除されたアセットを削除します。
- アセットがデータソースに見つからないか、インポートから除外されました:このような場合は、インポートを再実行する際に、インポート対象から以前にインポートしたアセットを削除してください:
- 特定のタイプのリレーショナル資産をインポートしない
リレーショナルデータベース上で実行するメタデータのインポートでは、[インポートから除外する]設定で、すべてのタイプのリレーショナル資産をインポートするか、テーブル、ビュー、エイリアス、シノニムを除外するかを選択できます。 この 2 つのオプションは相互に排他的です。
- 追加の資産プロパティーのインポート
リレーショナル・データベースに対して実行するメタデータのインポートでは、データベースで定義されている可能性のある主キーと外部キーをインポートするかどうかを選択できます。
- 追加のインポート・オプションを有効にする
インポートの再実行時に新規または変更されたデータ資産のみをインポートするには、インクリメンタル・インポートを有効にします。 このオプションは、リレーショナル・データベース上で実行するメタデータ・インポートで、選択したデータ・ソースがインクリメンタル・インポートをサポートしている場合にのみ使用できます:
- Amazon RDS for Oracle
- IBM Db2
- IBM Db2 Big SQL
- IBM Db2 on Cloud
- IBM Netezza Performance Server
- IBM Data Virtualization
- Microsoft Azure SQL Database
- Microsoft SQL Server
- Oracle
- Teradata
データ・ソース内の資産の説明を更新または削除しても、資産の変更日は変更されません。 また、インポートされた資産のリストから削除された資産についても、変更日は変更されません。 したがって、そのような資産はインクリメンタル・インポートでは考慮されません。 また、データ・ソースまたはスコープから削除された資産は、インクリメンタル・インポートでは検出されません。 したがって、そのような資産は、 「再インポート時に削除」 設定で指定されたとおりに 「削除済み」 または削除済みとしてマークされることはありません。 このような変更が反映されていることを確認するには、インクリメンタル・インポートを無効にして、データ・スコープ内のすべての資産を再インポートします。
重要:データ・ソースと Cloud Pak for Data クライアント・ワークステーションが異なるタイム・ゾーンにある場合は、インクリメンタル・インポートが機能しない可能性があります。 クライアントがデータ・ソースのタイム・ゾーンより前のタイム・ゾーンにある場合、メタデータ・インポート・ジョブは、最後のインポート実行後に追加または変更された資産を検出しない可能性があります。 この場合は、インクリメンタル・インポートを無効にして、インポートの再実行時にすべての資産が組み込まれるようにします。
増分インポートを機能させるには、クライアントのタイム・ゾーンに関係なく、データ・ソースが GMT タイム・ゾーンになっている必要があります。- データベース・カタログからメタデータを収集
リレーショナル・データベース上で実行するメタデータのインポートでは、データベース・カタログからメタデータをインポートすることを選択できます。 したがって、インポートを実行するユーザーは、データベース・カタログへのアクセス権限のみを必要としますが、実際のデータに対する SELECT 権限は必要ありません。 インポートされた資産のプロファイルを作成したり、メタデータのエンリッチメントで使用したりすることはできません。
- 資産のタイムスタンプのインポート
アセットが最後に変更された時間に関する情報を含めることができます。 The
metadata_modification_token
attribute is added to theextended_metadata
property of an asset.
インポート・リネージ・メタデータ・オプション
リネージの詳細オプションは、選択するデータ・ソースによって異なります。 詳細については、コネクターセクションの特定の接続トピックを参照してください。
もっと見る
親トピック: メタデータのインポート