アセットのメタデータをエンリッチする場合、エンリッチするデータアセット、追加するメタデータのタイプ、およびエンリッチジョブをスケジュールするかどうかを決定する必要があります。
通常、メタデータ・エンリッチメントは、より大きなデータ・キュレーション計画の一部です。 例えば、データ資産のメタデータをインポートした後、インポートされたデータ資産にビジネス・メタデータを追加したり、資産間の関係を識別したり、これらの資産のデータ品質の分析を実行したりすることができます。 最後に、完成したデータ資産をカタログに公開して、組織と共有することができます。 メタデータ・エンリッチメントを設計する前に、選択内容が全体的なキュレーション計画に与える影響を理解していることを確認してください。 キュレーションの計画を参照してください。
プロジェクトのセットアップ
作業するプロジェクトを選択または作成します。 センシティブとマークされたプロジェクトでは、カタログへの公開やデータのダウンロードができないことを忘れないでください。 したがって、エンリッチされた資産を共有したい場合や、結果をダウンロードしてスプレッドシートで確認したい場合には適さない。
プロジェクト管理者として、選択したプロジェクトのすべてのメタデータ・エンリッチメントに適用されるデフォルトのエンリッチメント設定を定義します。 メタデータ・エンリッチメントを作成または編集するときに、これらの設定の一部を上書きできます。
エンリッチメントの範囲
通常、メタデータをエンリッチする最初のステップは、エンリッチするデータを選択することです。 リレーショナル・データ資産と構造化データ資産を強化できます。
メタデータ・エンリッチは、プロジェクトで使用可能な資産に対して実行されます。 そのため、以下のケースでは、エンリッチメント結果内のエンリッチメントされた資産のリストが、組み込まれたメタデータ・インポート資産の構成済みスコープに対応していない可能性があります。
- Metadata import は、エンリッチメントの開始時にまだ完了していませんでした。
- 一連の資産の Metadata import が失敗したか、完全に失敗しました。
初期データ・スコープ
「データ資産」 リストには、サポートされている形式のすべての資産が表示されます。 リレーショナル・データ資産と構造化データ資産を強化できます。 個々の資産を選択することもできますが、メタデータ・インポート資産を選択して、それらのメタデータ・インポートからデータ資産のセット全体を強化することもできます。 ただし、既にメタデータ・エンリッチメントに含まれているデータ資産またはメタデータ・インポートを選択することはできません。 個々のデータ資産の場合、資産名の上にカーソルを移動すると、その資産がどのメタデータ・エンリッチメントに含まれているかを確認できます。
メタデータ・インポート資産は、以下の場合に選択範囲から自動的に除外されます。
これには、インポート・ターゲットとしてカタログがあります。
実際のデータへのアクセスをサポートしていない接続で実行されました。
『メタデータのインポート』を参照してください。
注意: 各データ資産またはメタデータのインポートは、プロジェクトごとに 1 つのメタデータ・エンリッチメントにのみ含めることができます。 異なるエンリッチメント・オプションを使用してデータ資産を複数回エンリッチする場合は、別個のプロジェクトでそれを行う必要があります。
選択したデータ資産のいずれかの接続が、共有資格情報ではなく個人情報を使用するように構成されている場合は、先に進む前にその接続をアンロックする必要があります。
また、空のメタデータ・エンリッチメント資産を作成し、後でスコープを設定することもできます。
エンリッチメントの再実行の範囲
エンリッチメントの再実行の場合、スケジュールされているか手動で実行されているかに関係なく、データ・スコープは、最初に選択されたデータ・スコープまたは資産のサブセットのすべての資産にすることができます。 デフォルト・オプションは 「新規および変更された資産と、前の実行で強化されなかった資産」です。 このオプションを使用すると、以下のように資産がエンリッチメント用に選択されます。
- エンリッチメントの最後の実行後に追加された資産
- エンリッチメントの最後の実行後に列が追加または削除された資産
- エンリッチメントの最後の実行後に資産または列の説明が変更された資産
- 前のエンリッチメントが失敗したかキャンセルされた資産
エンリッチは、アセットが新規か変更済みかに関係なく、常にデータ・アセット全体に対して実行されます。
ジョブの実行ログには、デルタメタデータエンリッチメントジョブの実行として、限定されたデータスコープで構成されたメタデータエンリッチメントの再実行が表示されます。
エンリッチメントの目標
以下のエンリッチメント目標から選択できます。
プロファイル・データ
アセットコンテンツに関する基本的な統計情報を生成し、データクラスを割り当て、提案します。
このタイプのプロファイル作成は高速ですが、頻度分布や固有性などの特定のメトリックの近似を行います。 近似値を使用せずにより正確な結果を得るには、選択したデータ資産に対して拡張プロファイルを実行します。 「 拡張データ・プロファイル作成」を参照してください。 統計について詳しくは、「 詳細なプロファイル作成結果」を参照してください。
データ・クラスは、列内のデータの内容 (例えば、市区町村、アカウント番号、クレジット・カード番号など) を記述します。 データ・クラスは、データ保護ルールを使用してデータをマスクしたり、ポリシーを使用してデータ資産へのアクセスを制限したりするために使用できます。 さらに、対応するデータ・クラスから用語へのリンケージが存在する場合は、用語の割り当てに寄与することもできます。
データ・クラスの信頼性は、データ・クラスと一致する非ヌル値のパーセンテージです。 割り当てまたは提案されるデータ・クラスの信頼性スコアは、少なくとも設定されたしきい値と等しくなければなりません。 データ・クラスの割り当て設定を参照してください。 しきい値がデータ・クラスに直接設定されている場合は、データ・クラスが割り当てられているときにこのしきい値が優先されます。 提案には考慮されません。 信頼性スコアに加えて、データ・クラスの優先順位も考慮されます。
列レベルで検出されて割り当てられる、より汎用的な ID であるデータ・クラスがあります。 このようなデータ・クラスは、より具体的なデータ・クラスを値レベルで識別できない場合に割り当てられます。 汎用識別子は常に信頼度100%で、以下のデータクラスを含む:コード、識別子、インジケータ、数量、テキスト。
プロファイル統計に基づいて、単一列の主キーが推奨されます。 主キーおよび外部キー制約が既にデータに定義されていて、この情報がメタデータ・インポートに含まれている場合、これらのキーは自動的に割り当てられます。
エンリッチメントの結果から、複数列の主キー分析を実行して、実際のデータがチェックされるようにすることができます。 詳しくは、 プライマリー・キーの識別を参照してください。
メタデータの展開
データアセットとカラムのセマンティックな名前と説明を生成する。 ソースに存在する名前は、収集されたメタデータと事前に定義された用語集に基づいて、ファジィ・マッチングを使用し、エンリッチメントのために選択されたカテゴリのビジネス用語の略語と比較することによって拡張される。 ソース内のアセット名またはカラム名がビジネス用語の省略形と一致する場合、対応するビジネス用語が表示名として使用されます。 生成AIは、拡張された名前、周囲の列、データ資産のコンテキストに基づいて説明を提供するために使用されます。 このオプションを使用すると、多くの場合、非常に技術的なオリジナルの名前よりも消費しやすい代替名を指定することができます。 AI で生成された説明は、特にデータ・ソースに列またはデータ資産の説明が欠落している場合に、コンテンツを理解するのに役立ちます。 割り当ておよび提案のしきい値は、デフォルトのエンリッチメント設定で定義されます。
用語および分類の割り当て
ビジネス用語を列や資産全体に自動的に割り当てることも、ビジネス用語を提案して手動で割り当てることもできます。 これらの割り当てまたは提案は、一連のサービスによって生成されます。 自動用語割り当てを参照してください。
プロジェクトでアクティブになっている用語割り当てサービスによって、用語割り当てのプロファイル作成が必要になる場合があります。
さらに、自動的に割り当てられた用語とデータクラスに基づいて、データ資産と列に分類を割り当てます。 分類の割り当ては、デフォルトのエンリッチメント設定で有効になっていなければならない。 データクラスに基づく分類の割り当てにもプロファイリングが必要である。
基本品質分析の実行
データ資産の列に対して定義済みのデータ品質チェックを実行します。 適用される検査のセットは、エンリッチメント設定で定義されます。 「 基本品質分析設定」を参照してください。 各チェックは、資産の全体的なデータ品質コアに寄与する可能性があります。 このタイプのデータ品質分析は、プロファイル作成との組み合わせでのみ実行できます。 そのため、データ品質の分析を選択すると、 プロファイル・データ オプションが自動的に選択されます。
これらのチェックの出力をデータベースに書き込むかどうかを選択できます。 デフォルト設定が存在する場合は、それに応じてセクションにデータが設定されます。 設定を上書きできます。 デフォルト設定が存在しない場合は、出力と出力場所を構成します。 出力ターゲットとしてサポートされるデータ・ソースについては、 サポートされるデータ・ソースの 「出力表」 列を参照してください。 スキーマ名および表名は、以下の規則に従う必要があります。
- 名前の先頭文字は英字でなければなりません。
- 名前の残りの部分は、英字、数字、または下線で構成することができます。
- 名前にスペースを含めることはできません。
問題が検出された例外または行 (例外レコード) を既存の表に書き込むことを選択した場合は、これらの表が必要な形式になっていることを確認してください。 データ品質出力を参照してください。
選択した接続がロックされている場合は、個人の資格情報を入力するように求められます。 これは、ユーザーに対して永続的に接続のロックを解除する 1 回限りのステップです。
関係の設定
プロファイル統計および列間の名前の類似性を使用して、主キーと外部キーを提供し、資産と列の間の関係を提案または割り当てます。 キー関係のデフォルトのエンリッチメント設定が適用されます。 このタイプの関係分析にはプロファイルが必要です。
SLAルールによるデータ品質の評価
データ品質が、定義されたデータ品質サービス・レベル・アグリーメントに準拠しているかどうかをチェックする。 データ品質SLAルールは、データ資産またはデータ資産内の列のデータ品質しきい値を定義する。 このエンリッチメント・オプションでは、メタデータ・エンリッチメント内のデータ資産が、データ品質SLAルールの選択基準と照合される。 データ資産または個々の列がデータ品質SLAルールの選択基準に一致する場合、そのデータ品質はそのSLAルールで定義されている品質しきい値と照合されます。
このオプションを使用してエンリッチメントを実行した結果、データ品質SLAルール条件に違反したかどうかに関係なく、エンリッチメントの各データ資産に対してSLAコンプライアンス・レポートが生成されます。 SLAコンプライアンス・レポートは、データ資産の品質情報の一部であり、エンリッチメントの結果またはプロジェクト内の資産のデータ品質ページから入手できます。
データ品質SLAルールの構成によっては、データ資産がこのルールに違反した場合にデータ品質修復ワークフローが開始される場合があります。
この目的を他の目的と組み合わせる場合、以下の考慮事項が適用される:
- プロファイルデータ目的も選択されている場合、データ品質SLA評価は、プロファイリングが正常に完了した場合にのみ実行されます。
- 用語と分類の割り当て 」目的も選択すると、用語の割り当てが正常に完了した場合にのみ、データ品質 SLA 評価が実行されます。 期間課題はデータのプロファイリングを必要とするため、プロファイリングも正常に完了していなければならない。
データ品質SLA評価のみを目的としてメタデータ・エンリッチメントを実行することができる。 ただし、その前に、エンリッチメント・スコープ内のデータ・アセットまたは列に用語が割り当てられており、データ品質スコアがあることを確認してください。 また、この場合、再実行のデータ範囲は「 すべてのデータ資産 」に設定する必要がある。
カテゴリー選択
カテゴリーを選択して、エンリッチ中に適用できるデータ・クラスとビジネス用語を決定します。 プロジェクト管理者は、エンリッチの作成時に選択するカテゴリーのセットを制限している場合があります。 この制限は、エンリッチの編集時には適用されません。 いずれの場合も、自分が少なくとも ビューアー 役割を持つコラボレーターであるカテゴリーからのみ選択できます。
ユース・ケースに関連するガバナンス成果物を持つカテゴリーのみを選択します。
この選択は、自動割り当ておよび提案にのみ適用されます。 用語またはデータ・クラスを手動で割り当てる場合、アクセス権限を持つすべてのカテゴリーから選択できます。
選択するカテゴリーのセットに対する変更、または実際のカテゴリー選択は、次回のエンリッチ実行時に有効になります。 ただし、既存の割り当ては変更されません。
メタデータ・エンリッチメントを実行した後に、選択したカテゴリーのいずれかに対するアクセス権限が取り消され、そのエンリッチメントに変更を加えなかった場合でも、再実行では、選択したすべてのカテゴリーがデータ・クラスおよび用語の割り当てについて考慮されます。
サンプリング
以下のサンプリング・タイプから選択できます。
- ベーシック
基本的なサンプリングは、可能な限り最小のサンプル・サイズで処理を高速化します。表ごとに 1,000 行が分析され、列ごとに最も頻度の高い 100 個の値に基づいて分類が行われます。
- 中
中程度のサンプリングは、中程度のサンプル・サイズで機能し、時間をかけずに適度に正確な結果を提供します。表ごとに 10,000 行が分析され、列ごとに最も頻度の高い 100 個の値に基づいて分類が行われます。
- 全体
包括的なサンプリングは、より正確な結果を得るために大きなサンプル・サイズで機能します。表ごとに 100,000 行が分析され、分類では列ごとにすべての値が考慮されます。 ただし、この方法は時間とリソースを集中的に使用します。
- カスタム
サンプリング方法、サンプル・サイズ、および分類の基準を自分で定義します。
順次サンプリングとランダム・サンプリングのいずれかを選択します。 順次サンプリングでは、データ・セットの最初の行が順次に選択されます。 ランダム・サンプリングでは、組み込む行がランダムに選択されます。 どちらの方法でも、選択される行の最大数は、定義されたサンプル・サイズによって決まります。
ランダム・サンプリングは、このタイプのサンプリングをサポートするデータ・ソースからのデータ資産に対してのみ使用可能です。 詳細は、ランダム・サンプリングの概念を参照。
サンプルの最大サイズを定義します。 固定数の行を設定することも、分析するデータ・セット内の行数のパーセントを指定することもできます。 サンプル・サイズをパーセント値として定義する場合、オプションで、サンプルに含めることができる行の最小数と最大数を設定できます。 分析するデータ・セットのサイズが分からない場合は、これらの値を設定することをお勧めします。 サンプルに対して選択された行の数またはパーセンテージは、指定された値にのみ近似することができます。
列内のすべての値に基づいてデータ・クラスを割り当てるか、または列内の最も頻度の高い値に基づいてデータ・クラスを割り当てるかを選択します。ここでは、考慮する値の数を指定できます。
テーブルの先頭から開始され、基本、中程度、または包括的なサンプリングが順次に行われます。 サンプリングを抑制するには、ランダム・サンプリングと 100% のサンプル・サイズで構成されたカスタム・サンプリングを使用します。
スケジューリング・オプション
データ スコープにメタデータ インポート アセットが含まれている場合、スケジュールページには、それぞれのメタデータ インポート ジョブの設定されたスケジュールに関する情報が表示されます。 この情報は、インポート・スケジュールを使用してエンリッチ・スケジュールを調整するのに役立ちます。
定義の実行
メタデータ・エンリッチメントがいつ実行されるかを定義する。 これらのオプションは、なし、片方、または両方を選択できます:
- ジョブ作成後に実行
新しく作成したメタデータ・エンリッチメントを保存するときにメタデータ・エンリッチメントを実行するには、このオプションを選択します。 そうでない場合、メタデータ・エンリッチメント・アセットは保存されるが、ジョブの実行は開始されない。
- スケジュールで実行
エンリッチメントをスケジュールで実行するには、このオプションを選択します。 単一の実行をスケジュールすることも、繰り返し実行をスケジュールすることもできます。 スケジュールの開始日時を定義します。 単一の実行をスケジュールすると、ジョブは指定された日時に正確に 1 回実行されます。
定期的な実行をスケジュールするには、ジョブを繰り返すと、エンリッチジョブを実行する頻度を選択します。 分ごと、時間ごと、毎日を選択した場合、特定の曜日をスケジュールから除外することができます。 オプションで、ジョブスケジュールの終了日時を設定できます。 繰り返し実行の場合、ジョブはジョブを繰り返すセクションの設定に基づいて計算されたタイムスタンプで初めて実行されます。
実行定義に関係なく、いつでも手動でメタデータエンリッチメントジョブの実行をトリガすることができます。
プロジェクトにジョブ実行ウィンドウが設定されている場合、メタデータ・エンリッチメント・ジョブの実行は、設定された時間枠内に制限されます。 ジョブの実行は、メタデータ・エンリッチメント・アセットの作成後、または定義されたスケジュールで、要求されたとおりに開始されますが、開始日時が実行ウィンドウの外にある場合は直ちに一時停止され、次のジョブ実行ウィンドウが開いたときに再開されます。 長時間実行されるメタデータのエンリッチメントは、何度も一時停止と再開が繰り返される可能性がある。
詳細については、エンリッチメント・ジョブのスケジューリング管理を参照してください。
もっと見る
次のステップ
親トピック: メタデータ・エンリッチの管理