データ資産を充実させることで、ユーザーがデータをより速く見つけ、そのデータが目の前のタスクに適切かどうか、データを信頼できるかどうか、データをどのように扱うかを判断できるようにする。 このような情報には、データの意味を定義する用語、所有権を文書化したり品質基準を決定したりする規則、レビューなどが含まれます。
データ・スチュワードは、データの意味を理解し、その品質を評価するためのアセット・プロファイルを作成します。 また、用語を割り当ててデータにビジネス・コンテキストを追加し、テーブル間の関係を識別します。 メタデータ・エンリッチによりこのプロセスが自動化されるため、データ・スチュワードの生産性が向上します。
データは、そのコンテキスト、コンテンツ、および品質が信頼できる場合にのみ役立ちます。 このようにして保持するには、データを継続的に評価し、必要に応じて適切な修復を行う必要があります。 データ・スチュワードは、定期ジョブを構成して、データの内容と構造に対する変更を継続的に追跡し、変更されたデータのみを分析することができます。
メタデータ・エンリッチによって資産に追加される情報は、データをマスクしたりアクセスを制限したりするためのデータ保護ポリシーで使用できるため、データの保護にも役立ちます。
- 必須のサービス
IBM Knowledge Catalog
DataStage (鍵または関係の拡張分析および拡張プロファイル作成用)- データ・フォーマット
リレーショナル・データ・ソースおよび非リレーショナル・データ・ソースからの表
ローカル・ファイル・システムからアップロードされたファイル、またはデータ・ソースへのファイル・ベースの接続からアップロードされたファイル。形式は CSV、TSV、Avro、Parquet、Microsoft Excel (xls、xlsm、および xlsx。ローカル・ファイル・システムからアップロードされたファイルの最初のシートのみがプロファイルされます。) 以下の構造化データ・ファイルはプロファイル作成されません。
- 接続されたフォルダー資産内のファイル。 接続されたフォルダー資産からアクセス可能なファイルは、資産として扱われず、プロファイルも作成されません。
- アーカイブ・ファイル内のファイル (.zip ファイルなど)。 データ資産はアーカイブ・ファイルを参照します。圧縮ファイルのプロファイルは作成されません。
キュレーションおよびデータ品質のためにサポートされているデータ・ソースにリストされているデータ・ソースからデータ資産を強化できます。
- データ・サイズ
任意。ファイル・ベースの接続からのデータ・セットは 4,999 列を超えることはできません。
- 必要な権限
メタデータ・エンリッチメントを作成、管理、および実行するには、プロジェクト内で 管理者 役割または 編集者 役割を持っている必要があり、エンリッチメントで使用するカテゴリーに対して少なくとも表示アクセス権限を持っている必要があります。 また、エンリッチするデータ資産のデータ・ソースへの接続にアクセスする権限を持っている必要があります。
これらの接続のいずれかがロックされている場合、個人認証情報を入力するよう求められます。 これは、接続を永久に解除する1回限りのステップです。
メタデータ・エンリッチメントの一部として実行されるすべての操作には、セキュアな許可のための資格情報が必要です。 通常、ユーザーの API キーは、このような長期実行操作を中断することなく実行するために使用されます。 メタデータ・エンリッチメントを作成するとき、またはいずれかのタイプのエンリッチメントを実行しようとするときに資格情報が使用できない場合は、API キーの作成を求めるプロンプトが出されます。 その後、その API キーがタスク資格情報として保存されます。 ユーザー API キーの管理を参照してください。
ユーザー・インターフェースの代わりに API を使用して、メタデータ・エンリッチを作成、編集、実行、または削除することもできます。 これらの API へのリンクは、 詳細情報 セクションにリストされています。
メタデータ・エンリッチの概要
データ資産のエンリッチには、以下のプロセスが含まれます:
エンリッチしたいデータ資産を識別します。
プロジェクトで、メタデータ・エンリッチ資産を作成して、エンリッチのスコープと目的、エンリッチ・ジョブのスケジュールなど、エンリッチの詳細を構成します。
エンリッチメント・ジョブを実行します。
エンリッチに含まれるデータ資産ごとに、メタデータ・エンリッチ資産の結果を処理します。
- 異常と品質の問題を識別し、問題を修正するための適切な対策を取ります。
- 表示名や AI 生成の説明など、生成されたコンテンツを確認します。
- 用語の割り当てを確認し、用語の提案を評価してアクションを実行します。
- 列レベルでデータ・クラス割り当てを管理します。
- クラス分けを管理する。
- 1 次キーと関係を識別して設定します。
- 重複データまたは冗長データを検出します。
また、エンリッチ結果にアクセスして、個々のアセットのプロファイルでそれらの結果を処理することもできます。 アセット・プロファイルを参照してください。 詳細な品質情報は、資産の 「データ品質」 タブで確認できます。
問題の資産を再評価します。
必要に応じて、結果とともにデータ資産を公開する。
ほとんどのタスクは、UI の代わりに API を使用して実行できます。 IBM Knowledge Catalog API へのリンクは、該当する各タスクに記載されています。
個々の接続された資産をメタデータ・エンリッチに追加できますが、メタデータ・エンリッチは、メタデータ・インポートによってプロジェクトに追加されたデータ資産を一括処理することを目的としています。
エンリッチ・オプションを一貫して使用するために、プロジェクト内のすべてのメタデータ・エンリッチ資産に対して デフォルト設定 を構成できます。 設定ページを開くには、管理 >メタデータ・エンリッチメントに進みます。 または、既存のメタデータ エンリッチメント アセットを開き、デフォルト設定をクリックすることもできます。
ワークロード管理のために、メタデータエンリッチメントジョブの実行をジョブの実行ウィンドウに制限することができる。 プロジェクト管理者は、管理 > ジョブ実行ウィドウでンこのようなウィンドウを定義できます。
もっと見る
次のステップ
親トピック: データ・キュレーション