データ・キュレーションとは、データ資産をプロジェクトまたはカタログに追加し、分類、データ・クラス、およびビジネス用語を割り当ててエンリッチし、データの品質を分析して改善するプロセスです。
データのキュレーションを始める前に、 IBM Knowledge Catalogガバナンスフレームワークと、キュレーションされた資産を共有するための少なくとも1つのカタログを用意します(データガバナンスの実装計画)。
キュレーションは、ほとんどの場合、データ資産を一度に 1 つずつキュレートする手動プロセスです。 アドバンスト・キュレーション は、多くのキュレーション・タスクが複数のデータ資産に対して同時に自動的に実行される、より自動化されたプロセスです。
要件および制約事項
データ・キュレーションには、以下の要件および制限があります。
データ・キュレーション・ツール
以下のツールを使用して作業します。
個の必要なサービス
データのキュレーションには、IBM Knowledge Catalog、IBM Knowledge Catalog Standard、またはIBM Knowledge Catalog Premium が必要です。 メタデータ・エンリッチメントの文脈における高度な分析(高度なプロファイリング、詳細なキーとリレーションシップの分析)には、DataStageサービスも必要です。
データの形式
以下のデータ・フォーマットがサポートされています。
- リレーショナルおよび非リレーショナルデータソースからのテーブル、Amazon S3デルタレイクテーブル
- Metadata import: ファイル・ベースの接続からデータ・ソースへの任意の形式
- メタデータ・エンリッチメント: 表形式: CSV、TSV、Avro、Parquet、Microsoft Excel
サポートされるコネクターについては、 キュレーションおよびデータ品質のためにサポートされるデータ・ソースを参照してください。
データ・サイズ
データ・キュレーションは、任意のサイズのデータを処理します。
必要な権限
役割によって、実行できるキュレーション・タスクが決まります。
- CloudPak データ・スチュワード 役割、または少なくとも同じアクション・セットを持つカスタム役割が必要です。 「 事前定義された役割」を参照してください。
- キュレーション・ツールに関連付けられた資産を処理するには、プロジェクトおよびカタログ内で特定の役割も持っている必要があります。 正確な要件については、個々のツールを参照してください。
ワークスペース
以下のワークスペースでキュレーション・タスクを実行できます。
- プロジェクト
- カタログ
実行したいキュレーション・タスクに応じて、他のユーザーがデータを使用する準備ができる前に、プロジェクト、カタログ、またはその両方でデータ資産を処理する必要があります。
プロジェクトは、通常、組織内の他のユーザーがデータを使用できるようにするために、データをカタログに公開する前に準備して分析するコラボレーション・ワークスペースです。 さらに準備せずにカタログを共有できる場合は、カタログにデータを直接追加することもできます。 特定のタイプのデータは、カタログにのみ追加できます。
キュレーション・タスク
これらのキュレーション・タスクにより、貴重なデータ資産を開発できます:
プロジェクトまたはカタログへのデータ資産を追加する:
- 接続からデータ・ソースに資産を追加します。 メタデータ・インポートにより、1 つ以上のデータ資産を手動で 1 つずつ自動的に追加します。 クラウドまたはオンプレミスのデータをそのままにして、プロジェクトまたはカタログ内のデータにアクセスするための資産メタデータと接続情報を追加するだけです。
- プロジェクトまたはカタログに関連付けられているストレージに個々のファイルをアップロードします。
- カタログからプロジェクトに資産を手動で追加して、それらの資産を処理します。
データの分析とエンリッチ:
個々のデータ資産のプロファイルを作成して、資産の内容に関する基本的な統計を取得し、プロジェクトまたはカタログ内でデータ・クラスを割り当てます。 データ資産のプロファイル作成を参照してください。
プロジェクトでメタデータ・エンリッチを作成して実行します。 データ資産のエンリッチを参照してください。
- 1 回の実行で複数のデータ資産のプロファイルを作成して、データ・クラスを自動的に割り当て、列のデータ・タイプと形式を識別します。
- 欠損値やデータ・クラス違反などの一般的なデータ品質の問題をスキャンするために、1 回の実行で複数のデータ・セットに対して品質分析を実行します。
- ビジネス用語を資産に自動的に割り当て、データ分類または機械学習アルゴリズムに基づいて用語の提案を生成します。
エンリッチ結果を確認します。 データ資産の品質スコアの全体像は、プロジェクトのメタデータ・エンリッチ資産で確認できます。 品質スコアをクリックすると、各データ資産または列の詳細な結果を表示できます。 あるいは、プロジェクトまたはカタログ内の資産の 「データ品質」 タブで情報にアクセスすることもできます。
インポート・ジョブとエンリッチ・ジョブを定期的に再実行して、データ資産に対する変更を検出して評価します。 これを手動で行うことも、インポートおよびエンリッチのスケジュールをセットアップすることもできます。
データ品質ルールを実行してデータ品質を評価します。
データを詳細化して、プロジェクトの品質と有用性を向上させます。
プロジェクトからカタログに資産を公開します。
カタログ内のデータ資産を評価してレビューする。
タグを作成し、カタログ内のデータ資産に追加する。
カタログ内の個々のデータ資産に分類とビジネス用語を追加します。
タスク | どこで手動で実行できますか? | どこで自動的に実行できますか? |
---|---|---|
資産を作成する | プロジェクト カタログ |
プロジェクト カタログ |
データ・クラスを割り当てる | プロジェクト カタログ |
プロジェクト カタログ |
分類を割り当てる | カタログ | — |
ビジネス用語の割り当て | プロジェクト カタログ |
プロジェクト |
データ品質 (メタデータ・エンリッチ) の分析 |
プロジェクト | プロジェクト |
データ品質 (ルール) の評価 | プロジェクト | プロジェクト |
サンプル・フロー: 拡張キュレーション
キュレーション・フローには、以下のタスクがあります。
プロジェクトで、 「ディスカバー」 という目標を指定してメタデータ・インポートを作成および実行し、接続からプロジェクトへのメタデータの一括インポートを実行します。 また、1 回限りのスケジュールまたは繰り返しのスケジュールで実行するようにメタデータ・インポートを構成することもできます。
同じプロジェクトで、メタデータ・エンリッチを作成して実行し、インポートされたデータ資産のセットに対して以下のタスクを 1 回の実行で実行します。
- データ資産のプロファイルを作成します。
- データ資産に対して品質分析を実行します。
- インポートされた資産にビジネス用語を自動的に割り当て、用語候補を生成します。
また、メタデータ・エンリッチの一回限りのスケジュールまたは繰り返しのスケジュールをセットアップすることもできます。 エンリッチ・スケジュールを、メタデータ・インポート用に構成されたスケジュールに合わせることができます。
データ資産とその列のエンリッチ結果を確認します。
拡張されたデータ資産をカタログに公開します。
ほとんどのキュレーション・タスクは、ユーザー・インターフェースではなく API を使用して実行できます。 IBM Knowledge Catalog API へのリンクは、該当する各タスクに記載されています。
もっと見る
親トピック: データの準備