機械翻訳トピック英語版に切り替えることができます。

この資料の最も正確で最新のバージョンについては、英語 (オリジナル) バージョンを参照してください。 IBM は、自動 (機械) 翻訳されたコンテンツの使用による損害または損失に対して責任を負いません。

データ・キュレーション

最終更新: 2025年4月08日

データ・キュレーション

データ・キュレーションとは、データ資産をプロジェクトまたはカタログに追加し、分類、データ・クラス、およびビジネス用語を割り当ててエンリッチし、データの品質を分析して改善するプロセスです。

データのキュレーションを始める前に、 IBM Knowledge Catalogガバナンスフレームワークと、キュレーションされた資産を共有するための少なくとも1つのカタログを用意します（データガバナンスの実装計画）。

キュレーションは、ほとんどの場合、データ資産を一度に 1 つずつキュレートする手動プロセスです。 アドバンスト・キュレーション は、多くのキュレーション・タスクが複数のデータ資産に対して同時に自動的に実行される、より自動化されたプロセスです。

要件および制約事項

データ・キュレーションには、以下の要件および制限があります。

データ・キュレーション・ツール

以下のツールを使用して作業します。

個の必要なサービス

データ・キュレーションには IBM Knowledge Catalog が必要だ。メタデータ・エンリッチメントの文脈における高度な分析（高度なプロファイリング、詳細なキーと関係の分析）には、 DataStage サービスも必要である。

データの形式

以下のデータ・フォーマットがサポートされています。

リレーショナルおよび非リレーショナルデータソースからのテーブル、 Amazon S3 Delta Lake テーブル
Metadata import: ファイル・ベースの接続からデータ・ソースへの任意の形式
メタデータ・エンリッチメント: 表形式: CSV、TSV、Avro、Parquet、Microsoft Excel

サポートされるコネクターについては、キュレーションおよびデータ品質のためにサポートされるデータ・ソースを参照してください。

データ・サイズ

データ・キュレーションは、任意のサイズのデータを処理します。

必要な権限

役割によって、実行できるキュレーション・タスクが決まります。

CloudPak データ・スチュワード 役割、または少なくとも同じアクション・セットを持つカスタム役割が必要です。「事前定義された役割」を参照してください。
キュレーション・ツールに関連付けられた資産を処理するには、プロジェクトおよびカタログ内で特定の役割も持っている必要があります。正確な要件については、個々のツールを参照してください。

ワークスペース

以下のワークスペースでキュレーション・タスクを実行できます。

プロジェクト
カタログ

実行したいキュレーション・タスクに応じて、他のユーザーがデータを使用する準備ができる前に、プロジェクト、カタログ、またはその両方でデータ資産を処理する必要があります。

プロジェクトは、通常、組織内の他のユーザーがデータを使用できるようにするために、データをカタログに公開する前に準備して分析するコラボレーション・ワークスペースです。さらに準備せずにカタログを共有できる場合は、カタログにデータを直接追加することもできます。特定のタイプのデータは、カタログにのみ追加できます。

キュレーション・タスク

これらのキュレーション・タスクにより、貴重なデータ資産を開発できます：

プロジェクトまたはカタログへのデータ資産を追加する：
- 接続からデータ・ソースに資産を追加します。メタデータ・インポートにより、1 つ以上のデータ資産を手動で 1 つずつ自動的に追加します。クラウドまたはオンプレミスのデータをそのままにして、プロジェクトまたはカタログ内のデータにアクセスするための資産メタデータと接続情報を追加するだけです。
- プロジェクトまたはカタログに関連付けられているストレージに個々のファイルをアップロードします。
- カタログからプロジェクトに資産を手動で追加して、それらの資産を処理します。
データの分析とエンリッチ:
- 個々のデータ資産のプロファイルを作成して、資産の内容に関する基本的な統計を取得し、プロジェクトまたはカタログ内でデータ・クラスを割り当てます。データ資産のプロファイル作成を参照してください。
- プロジェクトでメタデータ・エンリッチを作成して実行します。データ資産のエンリッチを参照してください。
  - 1 回の実行で複数のデータ資産のプロファイルを作成して、データ・クラスを自動的に割り当て、列のデータ・タイプと形式を識別します。
  - 欠損値やデータ・クラス違反などの一般的なデータ品質の問題をスキャンするために、1 回の実行で複数のデータ・セットに対して品質分析を実行します。
  - ビジネス用語を資産に自動的に割り当て、データ分類または機械学習アルゴリズムに基づいて用語の提案を生成します。
  - 主キーと外部キーを提供し、プロファイリング統計とカラム間の名前の類似性に基づいて、資産カラム間の関係候補を提供する。
- エンリッチ結果を確認します。データ資産の品質スコアの全体像は、プロジェクトのメタデータ・エンリッチ資産で確認できます。品質スコアをクリックすると、各データ資産または列の詳細な結果を表示できます。あるいは、プロジェクトまたはカタログ内の資産の 「データ品質」 タブで情報にアクセスすることもできます。
- 主要キー分析、キー関係分析、オーバーラップ分析、高度なデータプロファイリングなど、実際のデータに対してより深い分析を実行する
- インポート・ジョブとエンリッチ・ジョブを定期的に再実行して、データ資産に対する変更を検出して評価します。これを手動で行うことも、インポートおよびエンリッチのスケジュールをセットアップすることもできます。
データ品質ルールを実行してデータ品質を評価します。
データを詳細化して、プロジェクトの品質と有用性を向上させます。
プロジェクトからカタログに資産を公開します。
カタログ内のデータ資産を評価してレビューする。
タグを作成し、カタログ内のデータ資産に追加する。
カタログ内の個々のデータ資産に分類とビジネス用語を追加します。

キュレーション・タスク
タスク	どこで手動で実行できますか?	どこで自動的に実行できますか?
資産を作成する	プロジェクトカタログ	プロジェクトカタログ
データ・クラスを割り当てる	プロジェクトカタログ	プロジェクトカタログ
分類を割り当てる	カタログ	—
ビジネス用語の割り当て	プロジェクトカタログ	プロジェクト
データ品質 (メタデータ・エンリッチ) の分析	プロジェクト	プロジェクト
キー、キーの関係、重複データの特定	プロジェクト	プロジェクト
データ品質 (ルール) の評価	プロジェクト	プロジェクト

サンプル・フロー: 拡張キュレーション

キュレーション・フローには、以下のタスクがあります。

プロジェクトで、 「ディスカバー」 という目標を指定してメタデータ・インポートを作成および実行し、接続からプロジェクトへのメタデータの一括インポートを実行します。また、1 回限りのスケジュールまたは繰り返しのスケジュールで実行するようにメタデータ・インポートを構成することもできます。
同じプロジェクトで、メタデータ・エンリッチを作成して実行し、インポートされたデータ資産のセットに対して以下のタスクを 1 回の実行で実行します。
- データ資産のプロファイルを作成します。
- データ資産に対して品質分析を実行します。
- インポートされた資産にビジネス用語を自動的に割り当て、用語候補を生成します。
- 主キーと外部キーを特定し、資産カラム間の関係候補を生成する。
また、メタデータ・エンリッチの一回限りのスケジュールまたは繰り返しのスケジュールをセットアップすることもできます。エンリッチ・スケジュールを、メタデータ・インポート用に構成されたスケジュールに合わせることができます。
データ資産とその列のエンリッチ結果を確認します。
オプション：メタデータ・エンリッチメントのデータ資産追加の分析を実行する。
拡張されたデータ資産をカタログに公開します。

サンプルフロー：エンリッチされた資産そのリネージュ消費に供する

エンリッチされた資産そのリネージュビジネス・ユーザーが利用できるようにするには、以下のようなタスクが含まれる：

プラットフォーム資産カタログで、スキャンしたい接続を含むデータ・ソース定義作成する。
プロジェクトで、データ・ソースへの接続の参照コピーを作成する。
ゴール 資産メタデータのインポート と リネージュメタデータのインポート の両方でメタデータのインポートを作成し、実行する。資産メタデータをインポートする対象は、プロジェクトでなければなりません。
同じプロジェクトで、インポートした資産資産作成し、実行する。ステップ1の資産データスコープとして選択します。
エンリッチメントの結果を確認し、エンリッチされた資産カタログに公開する。
リネージュ情報を確認する。 データ > データ・リネージュ > リネージュ見る にアクセスする。

プロセスを自動化するには、メタデータのインポートとエンリッチメントのジョブをスケジュールし、それらのスケジュールを調整します。

ほとんどのキュレーション・タスクは、ユーザー・インターフェースではなく API を使用して実行できます。 IBM Knowledge Catalog API へのリンクは、該当する各タスクに記載されています。