データ・ガバナンスは、資産メタデータに基づいてデータ資産を追跡および制御するプロセスです。 カタログは、管理対象資産への制御されたアクセスを提供するワークスペースです。
- 必要なサービス
- IBM Knowledge Catalog
カタログには、資産とコラボレーターが含まれます。 コラボレーターとは、カタログに資産を追加するユーザーと、資産を使用する必要があるユーザーのことです。 データ・ガバナンスをカスタマイズして、カタログ内のデータ資産を強化および制御することができます。
ガバナンスの詳細を確認するか、カタログとガバナンスの使用を開始します。
データ・ガバナンス・アプローチ
反復的な方法でデータ・ガバナンスをセットアップできます。 事前定義された成果物とデフォルト・フィーチャーに依存するデータ・ガバナンスの単純な実装から開始できます。 その後、ニーズの変化に応じて、データ・ガバナンス・フレームワークをカスタマイズして、データ資産の記述と保護を向上させることができます。
データの管理に使用できるツールを確認するには、ツールおよびサービス・マップを開き、タスク・セクションで 「ガバナンス」 をクリックします。
データ・ガバナンスの最も簡単な実装
カタログを使用して、組織全体で資産を共有します。 カタログは、機械学習モデルでフィーチャー (入力) として使用される列を持つデータ・セットを含むことにより、フィーチャー・ストアとして機能することができます。 IBM Knowledge Catalog 管理者は、資産を共有するためのカタログを作成し、データ・エンジニア、データ・サイエンティスト、およびビジネス・アナリストをコラボレーターとして追加します。 カタログ・コラボレーターは、カタログ資産をプロジェクトにコピーして処理し、プロジェクトで作成した資産をカタログに公開することができます。
カタログ・コラボレーターは、以下の方法で資産をカタログに追加して、他のユーザーと共有したり、資産を検索して使用したりすることができます。
- データ・エンジニアは、クレンジングされたデータ、仮想化されたデータ、および統合されたデータ資産をプロジェクトに作成し、それらの資産をカタログに公開します。
- データ・エンジニアは、データ・ソースからカタログに表またはファイルをインポートします。
- データ・サイエンティストとビジネス・アナリストは、カタログ内のデータ資産を見つけ、その資産をプロジェクトに追加してデータを処理します。
データ資産は、以下の方法で時間の経過とともにメタデータを蓄積します。
- データ資産のプロファイルが作成されます。これにより、データのフォーマットを記述する事前定義データ・クラスが自動的に割り当てられます。
- カタログ・コラボレーターは、タグ、定義済みのビジネス用語、データ・クラス、分類、関係、および評価を資産に追加します。
- 資産に対するすべてのアクションは、資産履歴に自動的に保存されます。
カタログの作成を参照してください。
データ・ガバナンスのカスタマイズ・オプション
データ・ガバナンス実装に対して、任意のカスタム・オプションをいつでも追加または更新できます。 ガバナンス・チームは、ビジネス・ボキャブラリーを確立し、語彙を使用してデータをインポートおよびエンリッチし、データ品質を分析し、データを保護するためのルールを定義し、データ・コンシューマーがデータを見つけることができるカタログにデータ資産を公開することができます。 データが変更されると、表またはファイルに関するメタデータを再インポートし、ビジネス・ボキャブラリー分析およびデータ品質分析によってデータ資産を強化することができます。 ビジネス・ボキャブラリーを拡張する際に、データを保護するための厳密なルールを作成することができます。 データ・ガバナンス・サイクルを通じて、データ・サイエンティストやその他のデータ・コンシューマーは、カタログ内の信頼できるデータを見つけることができます。 次の図は、データ・ガバナンスが、データの変更やビジネス・ボキャブラリーの変更を反映するためにデータ資産のメタデータを更新する継続的なサイクルであることを示しています。
ビジネス・ボキャブラリーの確立
- ガバナンス・チームは、ビジネス用語を使用してデータの意味を記述するビジネス・ボキャブラリーと、データ・クラスを使用してデータの形式を設定できます。 ビジネス・ボキャブラリーは、技術用語以外の用語を使用して、ビジネス・ユーザーが探しているものをより簡単に見つけるのに役立ちます。
- チームは、既存のビジネス・ボキャブラリーをインポートするか、数十から数千のガバナンス成果物を提供する Knowledge Accelerators をインポートすることで、ビジネス・ボキャブラリーを素早く確立できます。
- IBM Knowledge Catalog 管理者は、ガバナンス成果物のワークフロー、組織、プロパティー、および関係をカスタマイズできます。
ガバナンス・フレームワークの実装計画を参照してください。
ビジネス・ボキャブラリーによるデータ資産のインポートとエンリッチ
- データ・スチュワードは、データ・ソースからの表またはファイルに対する変更によってカタログを更新し、適切なビジネス用語およびデータ・クラスを自動的に割り当てる、メタデータのインポートおよびエンリッチ・ジョブを定期的に実行できます。
- チームがガバナンス成果物を追加すると、メタデータ・エンリッチ・ジョブによって、新規または更新されたデータ資産に新規成果物が提案されます。
- メタデータ・エンリッチ中にデータ・スチュワードがビジネス用語の割り当てを確認または調整すると、用語の割り当ての機械学習アルゴリズムがデータに対してより正確になります。
- データ・スチュワードは、変更が検出された場合にのみ実行されるようにメタデータのインポートとエンリッチを構成できます。
- gen AIベースのエンリッチメント機能を使用して、説明的なアセット名やカラム名を生成したり、アセットやカラムに意味のある説明を生成したり、ビジネス用語を割り当てたりすることができます。
カタログで共有するデータ資産のキュレートの計画を参照してください。
データ品質の分析
- データ・スチュワードは、メタデータ・エンリッチ中にデフォルト設定を使用してデータ品質を分析できます。 データ品質分析は、各資産全体および表の列に適用されます。
- データ・スチュワードは、カスタム・データ品質定義を作成してデータ品質ルールに適用したり、SQL ベースのデータ品質ルールを適用したりすることができます。
カタログで共有するデータ資産のキュレートの計画を参照してください。
ルールによるデータの保護
- ガバナンス・チームは、データを保護および管理するための組織の標準とガイドラインを文書化するポリシーを作成することにより、データ保護ルールの計画を作成できます。 例えば、ポリシーは特定の規制を記述することができ、データ保護ルールがその規制への準拠を保証する方法を記述することができます。
- ガバナンス・チームは、プライベート情報を非公開にする方法を定義するデータ保護ルールを作成できます。 データ保護ルールは、ユーザーがプラットフォーム上の管理対象カタログ内のデータ資産にアクセスしようとするたびに、適用について自動的に評価されます。 データ保護ルールでは、データへのアクセスを制御する方法、機密値をマスクする方法、またはデータ資産から行をフィルタリングする方法を定義できます。
- チームは、カスタム・タグ、ユーザー、または事前定義データ・クラス、ビジネス用語、および分類に基づくデータ保護ルールから開始できます。 ガバナンス・チームがガバナンス成果物を追加すると、チームはビジネス・ボキャブラリーに基づいてデータ保護ルールを定義できます。
- データ・エンジニアは、仮想化データに対してデータ保護ルールを適用できます。
- データ・エンジニアは、マスキング・フローを使用して、データ資産内のデータを永続的にマスクできます。
ルールによるデータ保護の計画を参照してください。
IBM Knowledge Catalog の概要
IBM Knowledge Catalog の使用を開始するためのタスクは、目的によって異なります。 実行できるアクションは、 Cloud Pak for Data サービス・アクセス役割によって定義されます。 一部のアクションには、カタログまたはカテゴリーのコラボレーターであるなど、ワークスペースの役割の要件もあります。
サービス・アクセス役割を確認するには、 IBM Cloud アカウントとサービス・アクセス役割の決定を参照してください。 IBM Knowledge Catalog の役割を理解するには、 ユーザーの役割と許可を参照してください。
以下の表に、一般的な目標、必要な Cloud Pak for Data サービス・アクセス役割、および開始するための情報へのリンクを示します。
目標 | 必要な Cloud Pak for Data サービス・アクセス役割 | 詳細情報 |
---|---|---|
IBM Knowledge Catalog のセットアップまたは管理 | マネージャー | データ・ガバナンスの実装の計画 IBM Knowledge Catalog IBM Knowledge Catalog |
カタログ内の資産またはフィーチャーの検索 | 任意の役割 | カタログ内の資産の検索 プラットフォーム全体での資産の検索 プロジェクトへのカタログ資産の追加 |
データのキュレート | CloudPak Data Steward または CloudPak Data Engineer |
データのキュレート データのキュレートの計画 |
データ品質の管理 | CloudPak Data Steward または CloudPak Data Engineer |
データ品質の管理 |
ガバナンス成果物の作成 | CloudPak Data Steward または CloudPak Data Engineer |
ガバナンス成果物の管理 Knowledge Accelerators ガバナンス・フレームワークの実装の計画 |
データ保護ルールの作成 | CloudPak Data Steward または CloudPak Data Engineer |
データ保護ルール ルールによるデータ保護の計画 |
IBM Knowledge Catalog API の実行 | UI でタスクを実行するための同じロール。 | - IBM Knowledge Catalog API |
IBM Knowledge Catalog でのレポートの生成 | レポート管理者 | レポートのセットアップ |