キュレーションのプロセスには、データ資産の作成、データ資産へのガバナンス成果物およびその他のメタデータの割り当て、カタログへのデータ資産の公開、および基礎データまたはビジネス・ボキャブラリーの変更としての資産メタデータの更新が含まれます。 データ・スチュワードが高品質で充実したデータ資産をカタログに追加すると、データ・コンシューマーはそれらのデータ資産を見つけて使用することができます。
データ資産は個別にキュレートできますが、そのプロセスはスケーラブルではありません。 Metadata import およびメタデータ・エンリッチメント・ツールを使用して、多くのキュレーション・タスクを自動化できます。これらのツールを使用して、データ資産のセットをディスカバー、作成、エンリッチ、および公開できます。
データ・キュレーションを可能な限り自動化するには、以下のタスクを実行してキュレーション・プロジェクトをセットアップし、キュレーションされたデータ資産をカタログに追加し、データ資産を更新してメタデータを最新の状態に維持します。
タスク | 必須? | 頻度 |
---|---|---|
プロジェクトのセットアップ | はい | 1 回 |
データ・ソースへの接続の追加 | はい | 1 回 |
データ資産を作成するためのメタデータのインポート | はい | 繰り返し |
メタデータやその他の情報でデータ資産を強化 | はい | 繰り返し |
エンティティー・データを解決して、データの 360 度ビューを作成する | いいえ | 繰り返し |
データ品質分析のカスタマイズ | いいえ | 繰り返し |
カタログへのデータ資産の公開 | はい | 繰り返し |
メタデータ・インポート資産およびメタデータ・エンリッチ資産を作成するときに、それらを自動的に実行するようにスケジュールすることも、オンデマンドで実行するようにスケジュールすることもできます。 ジョブ・スケジュールは、UI でセットアップすることも、API を使用してセットアップすることもできます。 例えば、メタデータのインポートを特定の日時にスケジュールすることができます。 その後、同じ資産のメタデータ・エンリッチを、メタデータ・インポートの完了後に実行するようにスケジュールできます。 メタデータ・エンリッチが完了したら、結果を確認し、必要な調整を行い、データ資産に対する更新をカタログに公開します。
キュレーションのためのプロジェクトのセットアップ
プロジェクトは、人々が共有の目標を達成するためにデータを処理するコラボレーション・ワークスペースです。
整合性を向上させるために、以下のようなプロジェクトの規則を作成できます。
- プロジェクト名: 一貫性のある方法 (目的、日付範囲、チームなど) でプロジェクトを識別します。
- プロジェクト要求: プロジェクト内の外部システムの要求およびタスクについて説明し、リンクします。Read me ファイルを参照してください。
- 接続名: 一貫性のある方法 (例えば、データ・ソース、表名、目的など) で接続を識別します。
データ・キュレーション・プロジェクトには通常、データ・スチュワードによって明示的に追加されるか、プロセスの結果として作成される以下のタイプの項目が含まれます。
- キュレートするデータを含むデータ・ソースの接続資産
- メタデータ・インポートによって作成される接続済みデータ資産
- Metadata import 資産
- メタデータ・エンリッチ資産
- データ品質定義およびルール資産
- データ品質ルールの実行によって作成される DataStage フロー資産
- データ品質ルール出力表を含むデータ資産
- メタデータ・エンリッチメントによって作成された頻度分布表を含むデータ資産
- 実行中の資産によって作成されるジョブ
プロジェクトの作成に関する詳細
データ・ソースへの接続の追加
データ・スチュワードは、メタデータをインポートして接続済みデータ資産を作成する前に、関連するデータ・ソースの接続資産を必要とします。 データソースには、Db2などのデータベースや、IBM Cloud Object Storageなどのファイルシステムがある。
通常、組織は Platform assets catalog に接続を追加して、すべてのユーザーがそれらを見つけて使用できるようにします。 例えば、データ・エンジニアは Platform assets catalogで接続資産を作成できます。その後、すべてのユーザーがそれらの接続をプロジェクトに簡単に追加できます。 あるいは、プロジェクト内に接続を作成することもできます。
接続を作成するときに、接続資格情報の処理方法を決定する必要があります。 デフォルトでは、接続資格情報には共有のマークが付けられます。これにより、すべてのユーザーが同じ資格情報を使用してデータにアクセスできるようになります。 各ユーザーが個人の資格情報を入力できるようにするには、接続の作成時に共有資格情報を無効にします。 ただし、接続に個人の資格情報が必要な場合は、データ・スチュワードがキュレーションに必要なすべての接続の資格情報を持っていることを確認する必要があります。
Cloud Pak for Data は多くの接続をサポートしますが、メタデータ・インポート、メタデータ・エンリッチ、およびデータ品質分析ではすべての接続がサポートされるわけではありません。
接続の追加に関する詳細
データ資産を作成するためのメタデータのインポート
Metadata import は、指定された接続からデータ・ソースにアクセス可能なすべての表またはファイルを検出します。 すべての表またはファイルに対して接続されたデータ資産を作成するか、選択した表またはファイルに対して接続されたデータ資産を作成するかを選択できます。 メタデータ・インポート・プロセスでは、メタデータ・エンリッチの入力として再実行または指定できるメタデータ・インポート資産も作成されます。
通常、組織は単一のデータ・ソースに対して複数のメタデータ・インポート資産を作成します。 各メタデータ・インポートには、構造、スキーマ、またはデータ行に対して同様の頻度で変更を行う表またはファイルが含まれています。 その後、各メタデータ・インポートを異なるスケジュールで実行できます。 例えば、以下の特性を持つメタデータ・インポートを作成できます。
- 毎週実行するようにスケジュールした、頻繁に更新される表のメタデータ・インポート。
- 月単位で実行するようにスケジュールした、更新頻度の低い表のメタデータ・インポート。
- 必要に応じて手動で実行する、まれにしか更新されない表のメタデータ・インポート。
メタデータ・インポートを再実行して、データ・ソース内の以下のタイプの変更を検出します。
- 追加または削除された資産
- 変更される表スキーマ
- アセット・メタデータの更新 (名前の変更や説明の更新など)
メタデータ・インポートを再実行した後、メタデータ・エンリッチを再実行します。
メタデータのインポートに関する詳細
メタデータやその他の情報でデータ資産を強化
メタデータ・エンリッチにより、接続されたデータ資産に情報が追加されます。 メタデータ・インポートをデータ・スコープとして設定することで、メタデータ・インポートで作成したすべての表またはファイルに対してメタデータ・エンリッチを簡単に実行できます。 メタデータ・エンリッチ・プロセスでは、再実行できるメタデータ・エンリッチ・ジョブも作成されます。
通常、組織はメタデータ・インポートごとにメタデータ・エンリッチを作成します。 その後、メタデータ・インポートとメタデータ・エンリッチのスケジュールを簡単に同期できます。 ただし、単一の接続データ資産 (仮想表など) のメタデータ・エンリッチメントを作成できます。
データ資産に対してメタデータ・エンリッチを実行すると、選択したエンリッチ・オプションに応じて情報が追加されます。
- プロファイリングのみ:データクラスと統計情報を追加し、プライマリキーを提案します。
- メタデータ拡張:表示名と説明を生成する。
- 品質分析とプロファイル作成: 品質スコア、データ・クラス、および統計を追加します。
- 用語の割り当て:選択した方法に基づいて用語と分類を割り当てる。 データ・クラスとの関係に基づく用語の割り当てには、プロファイリングが必要である。 遺伝子AIに基づく用語の割り当てでは、メタデータも拡張されるべきである。 いずれにせよ、用語は機械学習アルゴリズムと名前照合によって割り当てることができる。
- リレーションシップの生成:主キーと外部キーを特定し、資産間の関係を提案する。
- データ品質の監視:データ品質が定義されたデータ品質サービス・レベル・アグリーメントに準拠しているかどうかをチェックし、違反を報告する。 修復ワークフローがトリガーされるかもしれない。
データのサンプリング・サイズを設定することにより、正確度と速度のバランスを取ることができます。 データのサンプリング・サイズが大きいほど、データ・クラスとビジネス用語の割り当ておよびデータ品質分析の精度が高くなりますが、メタデータ・エンリッチ・ジョブは長くなります。
データ・クラスおよびビジネス用語を自動的に割り当てるように指定できますが、結果を確認する必要があります。 データ・クラスおよびビジネス用語の正確な割り当ては重要です。 そうしないと、機密情報がマスクされたり、データ保護ルールによって保護されたりしない可能性があります。 メタデータ・エンリッチを実行し、データ・クラスおよびビジネス用語の割り当てを調整するほど、自動割り当てアルゴリズムはより正確になります。
以下の状況で、メタデータ・エンリッチおよび標準のデータ品質分析を再実行します。
- メタデータのインポートを再実行した後。 予想されるデータの変更数に応じて、インポートのデータ・スコープ全体でメタデータ・エンリッチを再実行するか、新規または変更されたデータのみでメタデータ・エンリッチを再実行します。例えば、新しい表または列を選択します。 列のデータ値を変更すると、データ品質スコアまたはデータ・クラスとビジネス用語の割り当てに影響を与える可能性があります。
- 使用可能なデータ・クラスおよびビジネス用語の変更後。 データ・クラスおよびビジネス用語の変更は、列への割り当てに影響する可能性があります。
データのサイズによっては、メタデータ・エンリッチ・ジョブにかなりの時間がかかることがあります。 また、アカウントに請求されるコンピュート・リソースも消費します。
メタデータのエンリッチについての詳細
エンティティー・データを解決して、データの 360 度ビューを作成します。
ユーザーとシステムが顧客データを完全に信頼され、統合されたビューを持つようにするには、 IBM Match 360 を使用して、さまざまなソースからのデータをマッチングおよび統合し、マスター・データと呼ばれるデータの 360 度ビューを確立します。
マスター・データのデータ・モデルを定義してから、企業全体からデータ資産をロードし、それらをモデルにマップします。 次に、組織固有の要件を満たすようにシステムの構成を開始します。 マッチング・アルゴリズムを構成して実行し、マスター・データ・エンティティーを作成します。 提供された統計とグラフを確認して、一致結果を評価します。 結果に応じて、ペアのレビューを行うか、一致する重みとしきい値を変更することにより、アルゴリズムをさらに調整し、マッチング結果を改善することができます。
マッチング・アルゴリズムを完成させると、ビジネス・ユーザーはマスター・データを検索して探索し、重要な洞察を得ることができます。 データ・スチュワードは、データを編集、保守、および修復し、接続データとしてエクスポートするか、CSV 形式でエクスポートして、他の場所で使用することができます。
エンティティー・データの解決に関する詳細
データ品質分析のカスタマイズ
データ品質分析をカスタマイズするには、データ品質ルールを作成して実行します。 各データ品質ルールは、単一のデータ・ソースからのデータ資産、またはファイルからの単一のデータ資産に適用されます。 データ品質ルールは次のように実行します。DataStage流れ、そのためにはDataStageサービス。 とDataStage,サポートされているリージョンでデータ品質ルールを実行できます。 DataStage as a Service Anywhereを使用すると、リモート・エンジンを使用してIBM Cloudの外部でデータ品質ルールを実行できます。 リモートエンジンの設定については、DataStage as a Service Anywhereのドキュメントを参照してください。
データ品質ルール条件を定義する形式と方法は、受け取りたい結果のタイプによって異なります。
結果 | フォーマット | 方法 |
---|---|---|
列がルール条件に準拠する度合いを返します。 | データ品質定義 | 1 つ以上のデータ品質ルールで参照するデータ品質定義資産を作成します。 ルール・ロジックを指定するには、キャンバス上にブロック・エレメントを配置するか、フリー・フォーム・エディターで式を入力します。 |
ルール条件に失敗した列を返します。 | SQL ステートメント | 各データ品質ルールに SQL ステートメントを入力します。 |
データ品質定義を含むデータ品質ルールを作成する場合、以下のオプションがあります。
- データ品質ルールで同じデータ品質定義を複数回再利用します。
- データ品質ルールに複数のデータ品質定義を含めます。
- データ品質定義をカタログに公開し、それらを複数のプロジェクトで再利用します。
- データを直接バインドする単純なルールを作成し、オプションでバインディングの結合を作成します。
- DataStage フローでデータが前処理され、出力が DataStage 出力リンクにルーティングされる複雑なルールを作成します。
- バインディングの結合を作成して、出力表内の複数の表からのデータを使用します。
- ルール変数にバインドするリテラル値と列を管理するためのパラメーター・セットをプロジェクト内に作成します。 また、パラメーター・セットをカタログに公開し、それを複数のプロジェクトで再利用することもできます。
- 評価するレコードの最大数とサンプリング方法を設定します。
ルール結果の詳細な記録を維持するために、データ品質ルール出力を外部データベースに送信することを選択できます。 例えば、品質修復のために、レポートを実行したり、データ管理チームに情報を送信したりすることができます。
データ品質分析の詳細はこちら
カタログへのデータ資産の公開
メタデータ・エンリッチ資産内またはプロジェクトの 「資産」 タブから、1 回の操作で複数のエンリッチ・データ資産をカタログに公開できます。
「資産」 タブからの公開とメタデータ・エンリッチ資産からの公開の主な違いは、 重複資産の処理にあります。 以下の表に、選択項目とその効果を比較します。
公開方法 | 一括公開しますか? | 重複処理の選択項目 | ビジネス用語の割り当て |
---|---|---|---|
「アセット」 タブ | はい、まとめて公開する複数の資産を選択できます。 | 元の資産を更新 元の資産を上書き 重複を許可 (カタログ設定にこのオプションが含まれている場合) 元の資産を保持して重複を拒否 |
元のビジネス用語の割り当ては削除できます。 |
メタデータ・エンリッチ資産 | はい、まとめて公開する複数の資産を選択できます。 | 元の資産の更新 | 新規資産のビジネス用語が元の資産に追加されます。 元のビジネス用語の割り当ては削除されません。 |
カタログへの公開についての詳細
カタログ内のデータ資産のインポートリネージ
リネージとは、データがどこから来て、どのように変化し、時間の経過とともにどこに移動していくかという情報である。 インポート、エンリッチ、カタログへのパブリッシュを行ったデータ資産の系統情報をインポートできます。 データ・リネージが有効でなければならない。 リネージをインポートするには、 Import lineage metadata オプションを使用してメタデータのインポートを作成します。 リネージ・サービスはターゲット・データ・ソースをスキャンし、データ・フローを分析する。 このリネージメタデータは、データアセットと、もしあれば変換スクリプトとともにインポートされる。
通常、組織はメタデータのインポートとエンリッチメントを実行し、更新されたデータ資産を公開した後、メタデータのインポートを再実行してリネージ情報を取得する。
血統のインポートについて詳しくはこちら
以前の計画タスク
次の計画タスク
親トピック: データ・ガバナンスの実装計画