多くの企業は、データへのアクセスを提供するメリットと、機密データを保護する必要性のバランスを取ることに苦労しています。 Cloud Pak for Data as a Service は、データ・ガバナンスを自動化するために企業が必要とする方法を提供して、データがアクセス可能で保護されていることを確認できるようにします。
Cloud Pak for Dataでデータ・ガバナンス・ソリューションを実装するためのデータ・ファブリックのユース・ケースをご覧ください。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
チャレンジ
多くの企業は、以下のデータ・ガバナンスの課題に直面しています。
- 大規模なデータ・プライバシーの提供
- 組織は、複数のクラウド・プラットフォームおよびオンプレミスにわたるデータ・ソース内のデータに関するデータ・プライバシー規制に準拠する必要があります。
- データの高品質データへのアクセス
- 組織は、複数のチームにわたる高品質のエンタープライズ・データへのアクセスを提供する必要があります。
- 完全なカスタマー・プロファイルの作成
- チームは、セルフサービス・プロセスとデータ・スチュワードシップを最適化するために、大規模な顧客の正確なビューを迅速に作成する必要があります。
- セルフサービスによるデータ使用量の提供
- データ・サイエンティストなどのデータ・コンシューマーは、必要なデータを見つけて使用することに苦労しています。
Cloud Pak for Data as a Serviceを使用してデータ・ファブリックを実装することで、これらの課題を解決できます。
例: ゴールデン・バンクの課題
ガバナンス・チームがデータ・ガバナンスを実施する際には、ゴールデン・バンクのストーリーに従ってください。 ゴールデン・バンクには、機密データを含む大量の顧客データと住宅ローン・データがあります。 この銀行は、データの品質を確保し、機密データをマスクし、複数の部門で使用できるようにしたいと考えています。
プロセス
データ・ガバナンスの実装方法は、組織のニーズによって異なります。 線形または反復的な方法でデータ・ガバナンスを実装できます。 デフォルトのフィーチャーと事前定義成果物に依存することも、ソリューションをカスタマイズすることもできます。
データ・ガバナンスを実装するために、組織は以下のプロセスに従うことができます。
Cloud Pak for Data の IBM Knowledge Catalog サービスは、組織がデータ・ガバナンス・ソリューションを実装するために必要なツールとプロセスを提供します。
1. ビジネス・ボキャブラリーの確立
課題に対応するために、チームは、データを分類および記述するためのメタデータとして機能するガバナンス成果物をインポートまたは作成することにより、ビジネス・ボキャブラリーを確立する必要があります。
- データ・プライバシーを自動化する前に、チームは、制御するデータが正確に識別されていることを確認する必要があります。
- データ品質を分析する前に、データの形式を識別する必要があります。
- データを見つけやすくするために、チームはデータの内容が正確に記述されていることを確認する必要があります。
プロセスのこの最初のステップで、ガバナンス・チームは、事前定義されたガバナンス成果物の基盤を基礎として構築し、組織に固有のカスタム・ガバナンス成果物を作成することができます。 成果物を作成して、データのフォーマット、ビジネス上の意味、感度、値の範囲、およびガバナンス・ポリシーを記述できます。
使用できるもの | できること | 最適な使用のタイミング |
---|---|---|
カテゴリ | 事前定義カテゴリーを使用して、ガバナンス成果物を保管します。 カテゴリーを作成して、フォルダーに類似した階層構造にガバナンス成果物を編成します。 カテゴリー内の成果物に対するアクセス権を定義する役割を持つコラボレーターを追加します。 |
事前定義されたカテゴリーより多くのカテゴリーが必要です。 ガバナンス成果物を所有、作成、および表示できるユーザーをきめ細かく制御する必要があります。 |
ワークフロー | ガバナンス成果物の作成者やレビューが必要なユーザーを制限しないデフォルトのワークフロー構成を使用します。 ガバナンス成果物のワークフローを構成し、どのタイプのガバナンス成果物をどのカテゴリーで作成できるかを指定します。 |
誰がガバナンス成果物を作成するかを制御する必要があります。 ドラフトのガバナンス成果物を公開前にレビューする必要があります。 |
ガバナンス成果物 | 定義済みのビジネス用語、データ・クラス、および分類を使用します。 データ資産を拡張、定義、および制御するためのメタデータとして機能するガバナンス成果物を作成します。 |
データを理解しやすくするために、資産に知識と意味を追加する必要があります。 データ品質分析を改善する必要があります。 |
Knowledge Accelerators | 事前定義されたガバナンス成果物のセットをインポートして、データ分類、規制コンプライアンス、セルフサービス分析、およびその他のガバナンス操作を改善します。 | ビジネスの問題、ビジネス・パフォーマンス、業界標準、および規制について説明する標準語彙が必要です。 事前作成されたガバナンス成果物をインポートすることで、時間を節約したいと考えています。 |
例: ゴールデン・バンクのビジネス語彙
ゴールデン・バンクのガバナンス・チーム・リーダーは、まずカテゴリー 「銀行」を作成して、チームが作成する予定のガバナンス成果物を保持します。 チーム・リーダーは、ガバナンス成果物を作成する権限を持つように、残りのガバナンス・チーム・メンバーをコラボレーターとして 「エディター」 役割で 「銀行」 カテゴリーに追加します。 次に、チーム・リーダーは、異なるチーム・メンバーが各タイプの成果物の作成を担当するようにワークフローを構成します。 すべてのワークフローには、チーム・リーダーによる承認ステップが必要です。
1 人のガバナンス・チーム・メンバーが、スプレッドシートから一連のビジネス用語をインポートします。 一部のビジネス用語は、個人クライアントの職業に関連付けられています。 別のチーム・メンバーが参照データ・セット「プロフェッショナル」を作成します。このデータ・セットには職業のリストが含まれており、各職業には ID 番号があります。 3 番目のチーム・メンバーは、参照データ・セットに基づいて、個人クライアントの職業を識別するためのカスタム・データ・クラス「Profession」を作成します。
2. データを保護するためのルールを定義する
プロセスの次のステップでは、チームは、誰がどのデータを見ることができるかを制御することで、データ・プライバシー規制への準拠を確保するためのルールを定義します。 チームは、データ保護ルールを作成して、管理対象カタログ内のデータを保護する方法を定義します。 チームは、これらのデータ保護ルールを使用して、データの内容、形式、意味、またはデータにアクセスするユーザーの ID に基づいて機密データをマスクすることができます。
使用できるもの | できること | 最適な使用のタイミング |
---|---|---|
データ保護ルール | 管理対象カタログ内の無許可アクセスから機密情報を保護するには、データへのアクセスを拒否するか、データ値をマスキングするか、データ資産内の行をフィルタリングします。 管理対象カタログ内のデータをユーザー定義の細分レベルで動的かつ一貫してマスクします。 |
管理対象カタログ全体でデータ・プライバシーを自動的に適用する必要があります。 プライバシー規制にも準拠しながら、データの可用性とユーティリティーを保持する必要があります。 |
マスキング・フロー | 実動データのコピーまたはサブセットを抽出するときに、拡張フォーマット保持データ・マスキング機能を使用します。 | 匿名化されたトレーニング・データと、データ保全性を保持するテスト・セットが必要です。 |
ポリシーおよびガバナンス・ルール | データ・セキュリティーに関する組織のガイドライン、規制、標準、または手順について説明し、文書化します。 ガバナンス・ポリシーを実装するために必要な動作またはアクションについて説明します。 |
データを使用するユーザーに、データ・ガバナンス・ポリシーを理解してもらう必要があります。 |
例: ゴールデン・バンクのデータ保護ルール
住宅ローン承認の予測モデルを作成するには、ゴールデン・バンクのデータ・サイエンティストは、機密データを含むデータ・セットにアクセスする必要があります。 例えば、データ・サイエンティストは、住宅ローン申請者に関するデータを含む表にアクセスしたいと考えています。この表には、社会保障番号を含む列が含まれています。
ガバナンス・チーム・メンバーは、社会保障番号をマスクするデータ保護ルールを作成します。 データ資産内の列に割り当てられたデータ・クラスが「US 社会保障番号」の場合、その列の値は 10 X に置き換えられます。
ガバナンス・チーム・メンバーは、データ保護ルールを含むポリシーを作成します。 ポリシーは、ルールを実装するビジネス上の理由を記述します。
3. カタログで共有するデータのキュレート
データ・スチュワードは、プロジェクト内の高品質のデータ資産をキュレーションし、データを必要とするユーザーがそれらを見つけられるカタログに公開します。 データ・スチュワードは、データを記述するメタデータとしてガバナンス成果物を割り当て、データのセマンティック検索に通知することにより、データ資産を強化します。
使用できるもの | できること | 最適な使用のタイミング |
---|---|---|
Metadata import | 接続に関連付けられたデータのテクニカル・メタデータを自動的にインポートして、データ資産を作成します。 | 1 つのデータ・ソースから多数のデータ資産を作成する必要があります。 以前にインポートしたデータ資産を更新する必要があります。 |
メタデータのエンリッチメント | 1 回の実行で複数のデータ資産のプロファイルを作成して、データ・クラスを自動的に割り当て、列のデータ・タイプと形式を識別します。 ビジネス用語を資産に自動的に割り当て、データ分類に基づいて用語候補を生成します。 インポート・ジョブとエンリッチ・ジョブを定期的に再実行して、データ資産に対する変更を検出して評価します。 |
インポートした多くのデータ資産をキュレートして公開する必要があります。 |
データ品質分析 | データ・セットに対してデータ品質検査を実行して、データの品質の問題をスキャンします。 データの内容と構造に対する変更を継続的に追跡し、変更されたデータを再帰的に分析します。 |
データの品質がデータ分析またはモデルの精度に影響を与える可能性があるかどうかを把握する必要があります。 ユーザーは、修復するデータ・セットを特定する必要があります。 |
例: ゴールデン・バンクのデータ・キュレーション
ガバナンス・チームのデータ・スチュワードが、プロジェクトにデータ資産を作成するためのメタデータのインポートを開始します。 メタデータのインポート後、ゴールデン・バンクには、「ID」という名前の列を持つ表を表す 2 つのデータ資産があります。 メタデータ・エンリッチの後、これらの列は、割り当てられたメタデータによって明確に区別されます。
- 1 つの列には、ビジネス用語「職業」と「職業」、およびデータ・クラス「職業」が割り当てられます。
- もう 1 つの列には、ビジネス用語「個人 ID (Personal identifier)」と「個人 (Private individual)」、およびデータ・クラス「米国社会保障番号 (US Social Security Number)」が割り当てられます。
データ・スチュワードは、データ資産に対してデータ品質分析を実行して、データ品質スコア全体がゴールデン・バンクのしきい値 95% を超えることを確認します。
ガバナンス・チーム・リーダーは、カタログ「住宅ローン承認カタログ」を作成し、データ・スチュワードとデータ・サイエンティストをカタログ・コラボレーターとして追加します。 データ・スチュワードは、プロジェクトで作成したデータ資産をカタログに公開します。
4. データの共有または処理
カタログは、チームがデータを理解し、適切なデータを適切な用途に使用できるようにします。 データ・サイエンティストやその他のタイプのユーザーは、企業のアクセス・ポリシーやデータ保護ポリシーに準拠した状態を維持しながら、必要なデータに対する支援を行うことができます。 カタログからプロジェクトにデータ資産を追加して、共同でデータの準備、分析、およびモデル化を行うことができます。
使用できるもの | できること | 最適な使用のタイミング |
---|---|---|
カタログ | 組織内のコラボレーター間で共有するために資産を編成します。 AI を活用したセマンティック検索と推奨を活用して、ユーザーが必要なものを見つけられるようにします。 |
ユーザーは、高品質のデータの理解、コラボレーション、エンリッチ、およびアクセスを容易に行う必要があります。 ビジネス・ユーザー間のデータとコラボレーションの可視性を高める必要があります。 ユーザーは、物理的な形式や場所を理解せずに、資産の移動やコピーを行うことなく、データの表示、アクセス、操作、分析を行う必要があります。 ユーザーは、資産のレーティングおよびレビューによって資産を強化する必要があります。 |
グローバル検索 | アクセス権限があるすべてのプロジェクト、カタログ、およびデプロイメント・スペースで資産を検索します。 アクセス権限があるカテゴリー全体でガバナンス成果物を検索します。 |
データ、別のタイプの資産、またはガバナンス成果物を検索する必要があります。 |
Data Refinery | データをクレンジングして、正しくないデータ、不完全データ、不適切にフォーマットされたデータ、または複製されたデータを修正または削除します。 列のフィルタリング、ソート、結合、または削除によってデータをカスタマイズするためにデータをシェーピングします。 |
データの品質や有用性を向上させる必要があります。 |
例: ゴールデン・バンクのカタログ
データ・サイエンティストは、カタログ内で必要なデータ資産を見つけ、それらの資産をプロジェクトにコピーします。 データ・サイエンティストは、プロジェクトでデータを精製して、モデルをトレーニングするための準備をすることができます。
データ・ガバナンスのチュートリアル
チュートリアル | 説明 | チュートリアルの専門知識 |
---|---|---|
高品質データのキュレート | データをエンリッチし、データ品質分析を実行することで、高品質のデータ資産を作成します。 | Metadata import およびメタデータ・エンリッチメント・ツールを実行します。 |
データの保護 | Cloud Pak for Data as a Service全体のデータへのアクセスを制御します。 | データ保護ルールを作成します。 |
データのコンシューム | データを検索、シェーピング、および分析します。 | カタログを探索して、 Data Refinery ツールを実行します。 |
仮想化データの管理 | 仮想化データを強化し、仮想データを確実に保護します。 | Data Virtualizationインターフェイス、プロジェクト、カタログを使用して、仮想化データを管理します。 |
データ・ガバナンスの詳細はこちら
親トピック: ユース・ケース