0 / 0
資料の 英語版 に戻る
データ・ガバナンスとプライバシーのユース・ケース
データ・ガバナンスとプライバシーのユース・ケース

データ・ガバナンスとプライバシーのユース・ケース

多くの企業は、データへのアクセスを提供するメリットと、機密データを保護する必要性のバランスを取ることに苦労しています。 Cloud Pak for Data as a Service は、企業がデータのガバナンスとプライバシーを自動化するために必要とする方法を提供して、データがアクセス可能で保護されていることを確認できるようにします。

このビデオを視聴して、 Cloud Pak for Dataで Data governance and privacy ・ソリューションを実装するためのデータ・ファブリックのユース・ケースを確認してください。

このビデオでは、本書に記載されている手順に従う代わりの方法として、視覚方式を提供します。

チャレンジ

多くの企業は、以下のようなデータ・ガバナンスとプライバシーの課題に直面しています。

大規模なデータ・プライバシーの提供
組織は、複数のクラウド・プラットフォームおよびオンプレミスのデータ・ソースのデータ・プライバシー規制に準拠する必要があります。

データ高品質データへのアクセス
組織は、複数のチームにまたがる高品質のエンタープライズ・データへのアクセスを提供する必要があります。

セルフサービス・データ使用量の提供
データ・サイエンティストなどのデータ・コンシューマーは、必要なデータを見つけて使用するのに苦労しています。

Cloud Pak for Data as a Serviceを使用してデータ・ファブリックを実装することで、これらの課題を解決できます。

例: ゴールデン・バンクの課題

ガバナンス・チームがデータ・ガバナンスを実施する際には、ゴールデン・バンクのストーリーに従ってください。 ゴールデン・バンクには、機密データを含む大量の顧客データと住宅ローン・データがあります。 銀行は、データの品質を確保し、機密データをマスクして、複数の部門で使用できるようにしたいと考えています。

プロセス

データのガバナンスとプライバシーを実装するために、組織は以下のプロセスに従うことができます。

  1. ガバナンス・フレームワークのセットアップ
  2. データを保護するためのルールの作成
  3. カタログで共有するデータのキュレート
  4. データの検索と使用

Cloud Pak for Data as a Service の Watson Knowledge Catalog サービスは、データ・ガバナンスとプライバシーのソリューションを実装するために組織が必要とするすべてのツールとプロセスを提供します。

データ・ガバナンスとプライバシーのユース・ケースにおける資産のフローを示す画像

1. ガバナンス・フレームワークのセットアップ

3 つの課題すべてに対応するために、チームは、データを分類および記述するためのメタデータとして機能するガバナンス成果物のフレームワークをセットアップする必要があります。

  • データ・プライバシーを自動化する前に、チームは、制御するデータが正確に識別されていることを確認する必要があります。
  • データ品質を分析する前に、データの形式を識別する必要があります。
  • データを見つけやすくするために、チームはデータの内容が正確に記述されていることを確認する必要があります。

プロセスのこの最初のステップで、ガバナンス・チームは、事前定義されたガバナンス成果物の基盤を基礎として構築し、組織に固有のカスタム・ガバナンス成果物を作成することができます。 成果物を作成して、データのフォーマット、ビジネス上の意味、感度、値の範囲、およびガバナンス・ポリシーを記述できます。

使用できるもの できること 最適な使用のタイミング
カテゴリー 事前定義カテゴリーを使用して、ガバナンス成果物を保管します。

カテゴリーを作成して、フォルダーに類似した階層構造にガバナンス成果物を編成します。

カテゴリー内の成果物に対するアクセス権を定義する役割を持つコラボレーターを追加します。
事前定義されたカテゴリーより多くのカテゴリーが必要です。

ガバナンス成果物を所有、作成、および表示できるユーザーをきめ細かく制御する必要があります。
ワークフロー ガバナンス成果物の作成者やレビューが必要なユーザーを制限しないデフォルトのワークフロー構成を使用します。

ガバナンス成果物のワークフローを構成し、どのタイプのガバナンス成果物をどのカテゴリーで作成できるかを指定します。
誰がガバナンス成果物を作成するかを制御する必要があります。

ドラフトのガバナンス成果物を公開前にレビューする必要があります。
ガバナンス成果物 事前定義されたデータ・クラスおよび分類を使用します。

データ資産を拡張、定義、および制御するためのメタデータとして機能するガバナンス成果物を作成します。
データを理解しやすくするために、資産に知識と意味を追加する必要があります。

データ品質分析を改善する必要があります。
Knowledge Accelerators 事前定義されたガバナンス成果物のセットをインポートして、データ分類、規制コンプライアンス、セルフサービス分析、およびその他のガバナンス操作を改善します。 ビジネスの問題、ビジネス・パフォーマンス、業界標準、および規制について説明する標準語彙が必要です。

事前作成されたガバナンス成果物をインポートすることで、時間を節約したいと考えています。


例: ゴールデン・バンクのガバナンス・フレームワーク

ゴールデン・バンクのガバナンス・チーム・リーダーは、まずカテゴリー 「銀行」を作成して、チームが作成する予定のガバナンス成果物を保持します。 チーム・リーダーは、ガバナンス成果物を作成する権限を持つように、残りのガバナンス・チーム・メンバーをコラボレーターとして 「エディター」 役割で 「銀行」 カテゴリーに追加します。 次に、チーム・リーダーは、異なるチーム・メンバーが各タイプの成果物の作成を担当するようにワークフローを構成します。 すべてのワークフローには、チーム・リーダーによる承認ステップが必要です。

1 人のガバナンス・チーム・メンバーが、スプレッドシートから一連のビジネス用語をインポートします。 ビジネス用語の中には、個人クライアントと商用クライアントを区別するものもあります。 別のチーム・メンバーが、上位の商用クライアントのリストを含む参照データ・セット「Diamond-level client names」を作成します。 3 番目のチーム・メンバーは、リファレンス・データ・セットに基づいて、上位の商用クライアントを識別するためのカスタム・データ・クラス「Diamond-level clients」を作成します。

2. データを保護するためのルールの作成

プロセスの次のステップでは、誰がどのデータを表示できるかを制御することで、データ・プライバシー規制への準拠を確保するためのルールをチームがセットアップします。 チームは、プラットフォーム全体でデータを保護するデータ保護ルールを作成します。 チームは、これらのデータ保護ルールを使用して、データの内容、形式、意味、またはデータにアクセスするユーザーの ID に基づいて機密データをマスクすることができます。

使用できるもの できること 最適な使用のタイミング
データ保護ルール データ資産内のデータ値へのアクセスを拒否したり、データ値をマスキングしたりすることにより、無許可アクセスから機密情報を保護します。

ユーザー定義の細分レベルでデータを動的かつ一貫してマスクします。
プラットフォーム全体でデータ・プライバシーを自動的に適用する必要があります。

プライバシー規制にも準拠しながら、データの可用性とユーティリティーを保持する必要があります。
マスキング・フロー 実動データのコピーまたはサブセットを抽出するときに、拡張フォーマット保持データ・マスキング機能を使用します。 匿名化されたトレーニング・データと、データ保全性を保持するテスト・セットが必要です。
ポリシーとガバナンス・ルール データ・セキュリティーに関する組織のガイドライン、規制、標準、または手順について説明し、文書化します。

ガバナンス・ポリシーを実装するために必要な動作またはアクションについて説明します。
データを使用するユーザーに、データ・ガバナンス・ポリシーを理解してもらう必要があります。


例: ゴールデン・バンクのデータ保護ルール

住宅ローン承認の予測モデルを作成するには、ゴールデン・バンクのデータ・サイエンティストは、機密データを含むデータ・セットにアクセスする必要があります。 例えば、データ・サイエンティストは、住宅ローン申請者に関するデータを含む表にアクセスしたいと考えています。この表には、社会保障番号を含む列が含まれています。

ガバナンス・チーム・メンバーは、社会保障番号をマスクするデータ保護ルールを作成します。 データ資産内の列に割り当てられたデータ・クラスが「US 社会保障番号」の場合、その列の値は 10 X に置き換えられます。

ガバナンス・チーム・メンバーは、データ保護ルールを含むポリシーを作成します。 ポリシーは、ルールを実装するビジネス上の理由を記述します。 後で、データ・サイエンティストなどのユーザーがデータ列にマスクされたアイコンを表示するときに、データ保護ルールを表示し、関連するポリシーを表示して、データがマスクされる理由を理解できます。

3. カタログで共有するデータのキュレート

データ・スチュワードは、プロジェクト内の高品質のデータ資産をキュレーションし、データを必要とするユーザーがそれらを見つけられるカタログに公開します。 データ・スチュワードは、データを記述するメタデータとしてガバナンス成果物を割り当て、データのセマンティック検索に通知することにより、データ資産を強化します。

使用できるもの できること 最適な使用のタイミング
Metadata import 接続に関連付けられたデータのテクニカル・メタデータを自動的にインポートして、データ資産を作成します。 1 つのデータ・ソースから多数のデータ資産を作成する必要があります。

以前にインポートしたデータ資産を更新する必要があります。
メタデータのエンリッチメント 1 回の実行で複数のデータ資産のプロファイルを作成して、データ・クラスを自動的に割り当て、列のデータ・タイプと形式を識別します。

ビジネス用語を資産に自動的に割り当て、データ分類に基づいて用語候補を生成します。

インポート・ジョブとエンリッチ・ジョブを定期的に再実行して、データ資産に対する変更を検出して評価します。
インポートした多くのデータ資産をキュレートして公開する必要があります。
データ品質分析 欠損値やデータ・クラス違反などのデータ品質の共通ディメンションをスキャンするために、1 回の実行で複数のデータ・セットに対して品質分析を実行します。
データの内容と構造に対する変更を継続的に追跡し、変更されたデータを再帰的に分析します。
データの品質がデータ分析またはモデルの精度に影響を与える可能性があるかどうかを把握する必要があります。

ユーザーは、修復するデータ・セットを特定する必要があります。
カタログ キュレートされた資産を公開して、組織内のコラボレーター間で共有します。 関連付けられたメタデータ、関係、および資産の履歴を表示するデータ資産を保管するには、中央リポジトリーが必要です。


例: ゴールデン・バンクのデータ・キュレーション

ガバナンス・チームのデータ・スチュワードが、プロジェクトにデータ資産を作成するためのメタデータのインポートを開始します。 メタデータのインポート後、ゴールデン・バンクには、「ID」という名前の列を持つ表を表す 2 つのデータ資産があります。 メタデータ・エンリッチの後、これらの列は、割り当てられたメタデータによって明確に区別されます。

  • 1 つの列には、ビジネス用語「Commercial client」と「Company identifier」、およびデータ・クラス「Diamond-level clients」が割り当てられます。
  • もう 1 つの列には、ビジネス用語「個人 ID (Personal identifier)」と「個人 (Private individual)」、およびデータ・クラス「米国社会保障番号 (US Social Security Number)」が割り当てられます。

データ・スチュワードは、データ資産に対してデータ品質分析を実行して、データ品質スコア全体がゴールデン・バンクのしきい値 95% を超えることを確認します。

ガバナンス・チーム・リーダーは、カタログ「住宅ローン承認カタログ」を作成し、データ・スチュワードとデータ・サイエンティストをカタログ・コラボレーターとして追加します。 データ・スチュワードは、プロジェクトで作成したデータ資産をカタログに公開します。

4. データの検索と使用

カタログは、チームがデータを理解し、適切なデータを適切な用途に使用できるようにします。 データ・サイエンティストやその他のタイプのユーザーは、企業のアクセス・ポリシーやデータ保護ポリシーに準拠した状態を維持しながら、必要なデータに対する支援を行うことができます。 カタログからプロジェクトにデータ資産を追加して、共同でデータの準備、分析、およびモデル化を行うことができます。

使用できるもの できること 最適な使用のタイミング
カタログ 組織内のコラボレーター間で共有するために資産を編成します。

AI を活用したセマンティック検索と推奨を活用して、ユーザーが必要なものを見つけられるようにします。
ユーザーは、高品質のデータの理解、コラボレーション、エンリッチ、およびアクセスを容易に行う必要があります。

ビジネス・ユーザー間のデータとコラボレーションの可視性を高める必要があります。

ユーザーは、物理的な形式や場所を理解せずに、資産の移動やコピーを行うことなく、データの表示、アクセス、操作、分析を行う必要があります。

ユーザーは、資産のレーティングおよびレビューによって資産を強化する必要があります。
グローバル検索 アクセス権限があるすべてのプロジェクト、カタログ、およびデプロイメント・スペースで資産を検索します。

アクセス権限があるカテゴリー全体でガバナンス成果物を検索します。
データ、別のタイプの資産、またはガバナンス成果物を検索する必要があります。
Data Refinery データをクレンジングして、正しくないデータ、不完全データ、不適切にフォーマットされたデータ、または複製されたデータを修正または削除します。

列のフィルタリング、ソート、結合、または削除によってデータをカスタマイズするためにデータをシェーピングします。
データの品質や有用性を向上させる必要があります。


例: ゴールデン・バンクのカタログ

データ・サイエンティストは、カタログ内で必要なデータ資産を見つけ、それらの資産をプロジェクトにコピーします。 データ・サイエンティストは、プロジェクトでデータを精製して、モデルをトレーニングするための準備をすることができます。

データ・プライバシーとデータ・ガバナンスのチュートリアル

チュートリアル 説明 チュートリアルの専門知識
データを信頼する データをエンリッチし、データ品質分析を実行することで、信頼できるデータ資産を作成します。 Metadata import およびメタデータ・エンリッチメント・ツールを実行します。
データの保護 Cloud Pak for Data as a Service全体のデータへのアクセスを制御します。 データ保護ルールを作成します。
データを知る データの評価、共有、シェーピング、分析を行います。 カタログを探索して、 Data Refinery ツールを実行します。
仮想化データの管理 仮想化データを強化し、仮想データを確実に保護します。 Watson Query インターフェース、プロジェクト、およびカタログを使用して、仮想化データを管理します。


データ・プライバシーとガバナンスの詳細はこちら

親トピック: データ・ファブリック・ソリューションの概要