メタデータのインポートを設計する | IBM Cloud Pak for Data as a Service

資料の英語版に戻る

メタデータのインポートを設計する

最終更新: 2024年12月09日

メタデータのインポートを設計する

メタデータをインポートするときは、インポートするメタデータの種類、インポート対象および範囲、インポートジョブをスケジュールするかどうか、インポートの動作をどのようにカスタマイズするかを決定する必要があります。

輸入ゴール
インポート先
データ・ソース
輸入範囲
- 外部入力
スケジューリング・オプション
リネージュ・インポート・フェーズ
拡張インポート・オプション

輸入ゴール

メタデータをインポートする最初のステップは、インポート目標を定義することである。インポートするメタデータの種類と、インポートしたアセットをプロジェクトで扱うか、カタログに直接公開するかを決定する必要があります。

通常、メタデータのインポートは、より大きなデータキュレーション計画の一部である。例えば、データ資産のメタデータをインポートした後、メタデータ・エンリッチメントを実行することで、インポートしたデータ資産にビジネス・メタデータを追加できます。データ品質ルールを実行することもできる。最後に、完成したデータ資産をカタログに公開し、組織で共有することができます。メタデータのインポートを設計する前に、その選択がキュレーション計画全体に与える影響を理解しておくこと。キュレーションの計画を参照。

例えば、データ資産の典型的なキュレーション・プロセスには次のような作業が含まれる：

アセットメタデータのインポートオプションを使用してメタデータのインポートを実行し、プロジェクトにデータアセットを追加します。
データ資産のメタデータ・エンリッチメントを実行し、データのプロファイリング、基本的なデータ品質分析、用語割り当てによるビジネス・コンテキストの提供を行う。
資産のデータ品質ルールを実行する。
アセットをカタログに公開する。
系統メタデータをインポートするオプションを使用して同じデータ資産のメタデータ・インポートを実行し、カタログ内のこれらの資産に系統情報を追加します。

メタデータ・エンリッチメントとデータ品質評価は適用されないため、他のタイプの資産をカタログに直接追加することができる。 Import asset metadata（アセットメタデータのインポート）とImport lineage metadata（系統メタデータのインポート）の両方のオプションを選択すると、アセットをカタログに追加する際に、アセットのテクニカルメタデータと系統メタデータを同時にインポートできます。

以下のインポート方法から選択できます：

資産メタデータをインポートする: アセットのテクニカル・メタデータは、アセットの詳細、関係、およびアセットのプレビューに関する情報を提供します。それをプロジェクトに追加してさらに処理することも、インポート後すぐにカタログに掲載することもできる。
リネージュ・メタデータのインポート: リネージ・メタデータは、データがどこから来て、どのように変化し、時間の経過とともにどこに移動するかという、データの流れに関する情報を提供する。リネージ・メタデータはリネージ・リポジトリに保存される。

インポート先

メタデータは、作業中のプロジェクトや、編集者または管理者の役割を持っているカタログにインポートできます。

プロジェクト

プロジェクトでは、データ資産に対してメタデータ・エンリッチメントやデータ品質ルールを実行できます。インポートしたデータ資産は、ビジネス・メタデータの割り当てとデータ品質に問題がなければ、カタログに公開します。

血統情報はカタログやプロジェクトで入手できる。リネージ情報は、アセットがMetadata importを使用してリネージをインポートした場合にのみ、プロジェクトで利用できます。

プロジェクトが機密扱いとなっている場合、メタデータをインポートできるのはプロジェクトのみで、カタログにはインポートできません。詳細については、プロジェクトを機密扱いとしてマークするを参照してください。

カタログ

データ資産の内容をよく知っていて、メタデータのエンリッチメントやデータ品質ルールを実行したくない場合は、そのメタデータをカタログに直接インポートすることができます。インポートが完了すると、選択したカタログでアセットが公開されます。

ただし、そのカタログが機密扱いとなっているプロジェクトの一部である場合を除く。

カタログにインポートする場合は、ターゲットカタログの重複アセット処理が、重複アセットを許可するのではなく、元のアセットを更新するように設定されていることを確認してください。資産の重複処理を参照。

インポートしたデータ資産にデータ保護ルールを適用したい場合は、インポート先としてガバメントカタログを選択する必要があります。

データ・ソース

サポートされているデータ・ソースのリストについては、キュレーションとデータ品質でサポートされているデータ・ソースを参照のこと。

データ・ソースに接続するには、以下の詳細を指定する必要がある：

データソースの定義。リネージ・メタデータをインポートする場合は必須で、アセット・メタデータをインポートする場合は任意です。エンドポイントを使用してデータ・ソースを一意に識別するために使用される。エンドポイントには、ホスト名やIPアドレス、ポート番号、データベース名やインスタンス識別子などの情報が含まれます。例えば、Microsoft SQL Serverデータベースが複数ある場合、データソース定義はそのうちの1つを特定する。また、Teradataクラスタにさまざまなホスト名を持つノードが複数ある場合、データソース定義ではクラスタ全体を1つのエンティティとして識別します。詳細については、データ・ソース定義の作成を参照してください。メタデータ・インポートの作成を開始する前に、データ・ソース定義を作成する。
スキャナーメタデータを抽出して処理し、リネージを作成するために使用される。リネージがインポートされるデータソースが複数のテクノロジのメタデータをホストできる場合は、スキャナを選択します。例えば、Microsoft SQL Serverは、Microsoft SQL ServerIntegration Servicesのメタデータ・ストレージとして使うことができる。このような場合、系統メタデータはデータベースMicrosoft SQL Server）またはETLジョブMicrosoft SQL ServerIntegration Services）からインポートすることができる。特定のタイプの血統メタデータをインポートするスキャナーを選択します。
コネクションだ。接続の詳細には認証情報が含まれる。例えば、異なるホスト名を使用して接続したり、特定の権限を持つさまざまなユーザー・アカウントに接続したりするために、1つのデータ・ソースに対して多数の接続を作成することができます。特定のデータ・ソースへの接続に必要な詳細は、「コネクタ」セクションの各接続トピックで説明します。アセットメタデータをインポートするときは、データソース定義または接続のいずれかを選択する必要があります。メタデータのインポートを開始する前に、接続を作成してください。データをインポートしたいプロジェクトに接続を作成するか、プラットフォーム接続を作成してからプロジェクトに追加することができます。詳細については、プロジェクトにデータ・ソースへの接続を追加するを参照してください。

注:

接続はデータ・ソース定義に割り当てる必要があります。最初にデータ・ソース定義を作成し、次に接続を作成する場合は、割り当てを手動で作成します。新規または既存のデータ・ソース定義へのエンドポイントの追加」を参照してください。

輸入範囲

インポートするデータの範囲を決めます。データソースのサイズや内容によっては、すべてのアセットをインポートするのではなく、選択したサブセットをインポートしたい場合があります。完全なスキーマまたはフォルダーを含めることも、個々の表やファイルにドリルダウンすることもできます。スキーマまたはフォルダーを選択すると、そのスキーマまたはフォルダーに含まれる項目の数を即時に確認できます。このようにして、セット全体を含めるのか、またはサブセットのみの方が目的に適しているのかを判別できます。

名前に特殊文字が含まれているスキーマからデータをインポートすることはできません。

血統メタデータの包含リストと除外リスト

リネージメタデータを抽出するスコープを定義すると、抽出に含める、または抽出から除外するアセットのリストを追加できます。このリストは通常正規表現であり、その形式は選択したデータ・ソースに固有である。詳細については、コネクターセクションの特定の接続トピックを参照してください。

外部入力

リネージのメタデータをインポートする際、一部のデータソースに手動で追加入力することで、最終的なリネージにより完全なデータを含めることができます。次のオプションがあります。

ファイルから入力を追加: 通常、特定のデータ・ソースの要件を満たす構造の.zipファイルを追加します。構造要件については、コネクター・セクションの各接続トピックで詳しく説明しています。
外部エージェントからのメタデータの取り込み: エージェント・ファイル・システムやGitリポジトリに手動で接続することができる。その後、資産がダウンロードされ、メタデータの抽出に使用される。

プレースホルダーの置換

リネージ用の外部入力を追加すると、環境変数などのプレースホルダーの値を、リネージ分析に使用する実際の値に置き換えることができる。以下の表は、系統分析のためにデータの表示をどのように変更できるかの例である。

置換スコープ	スコープ処理形式	プレースホルダー値	置換値
	(正規表現は選択されず、プレーンテキストが使用される）	${table_name}	顧客
.*bteq	正規表現	${db}	dwh

プレースホルダーの置換を提供するもう一つの方法は、CSVファイルを作成し、外部入力としてアップロードする.zipファイルに追加することです。このファイルの名前は「replace.csvし、以下のような構造でなければならない：

"PLACEHOLDER","REPLACEMENT_VALUE"[,SCOPE]

各項目の意味は次のとおりです。

PLACEHOLDERは置き換えたい値である。
REPLACEMENT_VALUEは元の値を置き換える新しい値である。
SCOPEは、選択したアセットにのみ置換を適用するためのフィルターです。この列はオプションです。正規表現として解釈される。このファイルで使用できるパスの例は'\MyBD\MySchema\MyScript.sqlである。

各交代ペアは別々のラインに置かなければならない。各値はダブルクォーテーション（""）で囲まなければならない。

スケジューリング・オプション

スケジュールを設定しない場合は、メタデータインポートアセットを最初に保存したときにインポートを実行します。インポートは、いつでも手動で再実行できます。

特定のスケジュールでインポートの実行を選択する場合は、ジョブを実行する日時を定義します。同じアセットについて、スケジュールされたメタデータのインポートと対応するメタデータのエンリッチメントジョブを調整したい場合があります。

特定のスケジュールでインポートの実行を選択する場合は、ジョブを実行する日時を定義します。単一の実行をスケジュールすることも、繰り返し実行をスケジュールすることもできます。 1回の実行をスケジュールした場合、ジョブは指定された日時に正確に1回実行されます。定期的な実行をスケジュールした場合、ジョブはRecurrenceセクションで指定されたタイムスタンプで初めて実行されます。

インポート・ジョブのデフォルト名はmetadata_import_nameジョブです。メタデータのインポートを設定する際、ネーミングスキーマに合わせて名前を変更することができる。ただし、後から名前を変更することはできない。作成したインポート・ジョブには、メタデータ・インポート・アセット内またはプロジェクトのジョブ・ページからアクセスできます。ジョブを参照してください。

メタデータインポートのスケジュールを更新するには、メタデータインポートアセットを編集します。

リネージュ・インポート・フェーズ

リネージ・メタデータのインポートは、さまざまな段階を経るプロセスである。ニーズに合わせてインポートを最適化するために、各メタデータ・インポート・ジョブで実行するフェーズを決めることができます。たとえば、最近リフレッシュされた選択された接続に対してのみ抽出フェーズを実行して、パフォーマンスを向上させることができます。このフェーズが完了したら、リフレッシュされた接続と以前に抽出された接続のすべてについて分析を実行することができます。

以下のリストでは、各リネージインポートフェーズでどのような処理が実行されるかを簡単に説明する：

ディクショナリー抽出: リネージュ資産(テーブル、ビュー、シノニム、その他)をリネージュ・リポジトリーに抽出およびインポートします。
変換抽出: データ・ソースから変換の定義を抽出します。
抽出された入力分析: 自動的に抽出された変換のデータ・リネージュを分析します。
外部入力の取り込み: エージェント・ファイル・システムやGitリポジトリーから外部入力を取り込みます。
外部入力分析: メタデータ・インポート・ジョブによって取り込みまたはアップロードされた外部入力のデータ・リネージュを分析します。

拡張インポート・オプション

一般的なインポートの動作や、メタデータのインポートを再実行したときにインポートしたアセットがどうなるかをカスタマイズできます。

資産メタデータのインポートオプション

特定のプロパティが更新されないようにする

デフォルトでは、アセットが再インポートされると、すべてのアセットプロパティが更新されます。再インポート時に資産名、資産説明、列の説明を更新したくない場合は、［再インポート時に更新］リストの各チェックボックスをオフにします。

再インポートに含まれない既存の資産を削除する。

デフォルトでは、インポートを再実行しても、対象のプロジェクトやカタログから資産が削除されることはありません。対象のプロジェクトまたはカタログをクリーンアップするには、再インポート時に削除するオプションから選択します。

アセットがデータソースに見つからないか、インポートから除外されました：このような場合は、インポートを再実行する際に、インポート対象から以前にインポートしたアセットを削除してください：
- アセットがデータソースから利用できなくなりました。
- 再実行の際に［インポートから除外］の設定が変更され、アセットがインポートから除外されるようになりました（リレーショナルデータベース上で実行するメタデータのインポートにのみ適用されます）。
インポートスコープから削除されたアセット：インポートの再実行時に、インポート対象からこのメタデータのスコープから削除されたアセットを削除します。

特定のタイプのリレーショナル資産をインポートしない

リレーショナルデータベース上で実行するメタデータのインポートでは、［インポートから除外する］設定で、すべてのタイプのリレーショナル資産をインポートするか、テーブル、ビュー、エイリアス、シノニムを除外するかを選択できます。この 2 つのオプションは相互に排他的です。

資産プロパティの追加インポート

リレーショナル・データベースに対して実行するメタデータのインポートでは、データベースで定義されている可能性のある主キーと外部キーをインポートするかどうかを選択できます。

追加のインポートオプションを有効にする

インクリメンタルインポートを有効にすると、インポートを再実行したときに、新規または変更されたデータアセットのみがインポートされます。このオプションは、リレーショナル・データベース上で実行するメタデータ・インポートで、選択したデータ・ソースがインクリメンタル・インポートをサポートしている場合にのみ使用できます：

データソース内の資産の説明を更新または削除しても、資産の更新日は変更されません。インポートされた資産のリストから削除された資産についても、変更日は変更されません。したがって、このような資産は輸入増の対象とはならない。さらに、データソースやスコープから削除されたアセットは、インクリメンタルインポートでは検出されません。このため、このようなアセットは、再インポート時の削除設定で指定されたように、削除済みとしてマークされたり、削除されたりしません。このような変更を反映させるには、インクリメンタルインポートを無効にして、データスコープ内のすべてのアセットを再インポートします。

重要:

データソースとCloud Pak for Dataクライアントワークステーションが異なるタイムゾーンにある場合、インクリメンタルインポートが機能しない場合があります。クライアントがデータソースのタイムゾーンよりも進んだタイムゾーンにある場合、メタデータ・インポート・ジョブは、前回のインポート実行後に追加または変更されたアセットを検出できないことがあります。この場合、増分インポートを無効にして、インポートを再実行したときにすべてのアセットが含まれるようにします。
インクリメンタルインポートが機能するためには、クライアントのタイムゾーンに関係なく、データソースがGMTタイムゾーンになければならない。

データベース・カタログからメタデータを収集

リレーショナル・データベース上で実行するメタデータのインポートでは、データベース・カタログからメタデータをインポートすることを選択できます。したがって、インポートを実行するユーザーは、データベース・カタログにのみアクセスする必要がありますが、実際のデータに対するSELECT権限は必要ありません。インポートされた資産のプロファイルを作成したり、メタデータのエンリッチメントで使用したりすることはできません。

資産のタイムスタンプのインポート

アセットが最後に変更された時間に関する情報を含めることができます。 metadata_modification_token属性は、アセットの 'extended_metadataプロパティに追加されます。

系統メタデータのインポートオプション

リネージの詳細オプションは、選択するデータ・ソースによって異なります。詳細については、コネクターセクションの特定の接続トピックを参照してください。

キュレーションの計画

親トピック メタデータのインポート