データ・ガバナンス・チュートリアル: 仮想化データの管理
この 「高品質データのキュレート」チュートリアル、 データ保護チュートリアル、およびデータ・ファブリック試用版のデータ統合ユース・ケースでの 仮想化外部データ・チュートリアル の完了後に仮想化されたデータを管理するには、このチュートリアルを実行します。 お客様の目標は、住宅ローン申請者と申請者が含まれる仮想データ、および無許可アクセスのクレジット・スコアを保護することです。 すべてのゴールデン・バンクの従業員がその個人情報にアクセスできないように、社会保障番号などの特定の個人情報をマスクする必要があります。
このチュートリアルのストーリーは、ゴールデン・バンクには、3 つの外部データ・ソースに保管されている高品質の顧客ローン・データにアクセスする必要があるいくつかの部門があるということです。 ガバナンス・チームのデータ・スチュワードは、仮想化データを強化し、仮想化データを確実に保護する必要があります。
以下のアニメーション・イメージは、このチュートリアルを終了するまでに実行する内容のクイック・プレビューを提供します。 仮想データをプロジェクトに追加してから、そのデータをビジネス用語でエンリッチし、 IBM Knowledge Catalog データ保護ルールが Cloud Pak for Data as a Serviceを使用してデータをマスクする方法を確認します。 イメージをクリックすると、より大きなイメージが表示されます。
チュートリアルをプレビューする
このチュートリアルでは、以下のタスクを実行します:
- 前提条件をセットアップします。
- タスク 1: 仮想化データのガバナンスを有効にします。
- タスク 2: 仮想表に対して SQL 照会を実行する。
- タスク 3: 仮想化データをプロジェクトにコピーします。
- タスク 4: 仮想化データの強化。
- タスク 5: メタデータ・エンリッチの結果を表示します。
- 作業 6: 仮想表をカタログに公開する
- クリーンアップ
このチュートリアルのステップをプレビューするには、このビデオをご覧ください。 ビデオに表示されるユーザー・インターフェースには若干の違いがある場合があります。 このビデオは、作成されたチュートリアルと一緒に使用することを目的としています。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
このチュートリアルを完了するためのヒント
このチュートリアルを正常に完了するためのヒントを以下に示します。
ビデオ・ピクチャー・イン・ピクチャーの使用
以下のアニメーション・イメージは、ビデオ・ピクチャー・イン・ピクチャーおよび目次機能の使用方法を示しています。
コミュニティーでのヘルプの利用
このチュートリアルでヘルプが必要な場合は、 Cloud Pak for Data コミュニティー・ディスカッション・フォーラムで質問したり、回答を見つけたりすることができます。
ブラウザー・ウィンドウのセットアップ
このチュートリアルを最適に実行するには、1 つのブラウザー・ウィンドウで Cloud Pak for Data を開き、このチュートリアル・ページを別のブラウザー・ウィンドウで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。 2 つのブラウザー・ウィンドウを横並びに配置して、見やすくすることを検討してください。
前提条件のセットアップ
前提条件チュートリアルの完了
このタスクをプレビューするには、 00:27から始まるビデオをご覧ください。
以下のチュートリアルを実行します。
- 3 つの外部ソースにわたって保管されているデータから仮想表を作成し、ビューを結合するための 「外部データの仮想化」 チュートリアル。
- 高品質データのキュレート ・チュートリアルでは、データ資産をインポートしてエンリッチし、それらをカタログに公開します。
- データを保護するためのデータ保護ルールを作成するための データの保護 チュートリアル。
タスク 1: 仮想化データのガバナンスの有効化
仮想化データのガバナンスを有効にするには、以下の 2 つの必須ステップがあります。
- Watson Queryでデータ保護ルールを適用します。
- IBM Knowledge Catalog と Watson Queryの間で許可をセットアップします。
データ保護ルールの適用
このタスクをプレビューするには、 01:02から始まるビデオをご覧ください。
Watson Queryでデータ保護ルールを適用するには、以下の手順を実行します。
Navigation Menu から、Data >Data virtualizationを選択する。
「ガバナンスを実施するためにプライマリー・カタログをセットアップします」という通知が表示された場合は、 「ガバナンスに移動」をクリックします。 このメッセージが表示されない場合は、サービス・メニューで 「管理」>「サービス設定」をクリックしてから、 「ガバナンス」 タブをクリックします。
「仮想オブジェクトに対してデータ保護ルールを強制」 オプションを有効にし、 「保存」をクリックします。
サービス・メニューから、 「仮想化」>「データ・ソース」に戻ります。
進行状況を確認してください
以下のイメージは、ポリシー実行が有効になっている 「ガバナンス」 タブを示しています。 次に、 IBM Knowledge Catalog と Data Virtualizationの間で許可をセットアップする必要があります。
進行状況を確認してください
以下のイメージは、 IBM Cloud の 「許可 (Authorizations)」 ページと、 IBM Knowledge Catalog と Data Virtualizationの間の許可を示しています。 これで、 Data Virtualizationで管理対象仮想表を照会する準備ができました。
タスク 2: 管理対象仮想表に対する SQL 照会の実行
このタスクをプレビューするには、 02:20から始まるビデオをご覧ください。
データ保護ルールが適用されている場合、仮想表はそれらのルールによって管理されます。 管理対象仮想表に対して SQL 照会を実行するには、以下の手順を実行します。
Watson Query サービス・メニューから、 「SQL の実行」をクリックします。
新しい照会の以下の SELECT ステートメントをコピーして貼り付けます。
<your schema>
を、前にメモしたスキーマ名に置き換えます。SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
照会は SELECT * FROM DV_IBMID_663002GN1Q.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
「すべて実行」をクリックします。
照会が完了したら、 「履歴」 タブで照会を選択します。 「結果」 タブで、テーブルがカリフォルニア州の応募者のみにフィルタリングされていることを確認できます。 データ保護ルールは、 Watson Query、カタログ・プレビュー、カタログ・ダウンロード、 Data Refinery、およびプロジェクト資産プレビューで適用されます。 このルールは資産所有者には適用されません。 02:47 のビデオを視聴して、他のユーザーが SQL 照会を実行したときに表示される内容を確認してください。
進行状況を確認してください
次の図は、別のユーザーの観点からの SQL 照会結果を示しています。 これで、仮想表をプロジェクトにコピーする準備ができました。
タスク 3: 仮想データをプロジェクトにコピーする
このタスクをプレビューするには、 03:02から始まるビデオをご覧ください。
「仮想化外部データ」 チュートリアルでは、仮想表と仮想結合ビューを作成し、それらをデータ統合プロジェクトにコピーしました。 そのプロジェクトを使用してこのチュートリアルを完了する場合は、 タスク 3にスキップしてください。 データ・ガバナンス・プロジェクトを使用してこのチュートリアルを完了する場合は、以下の手順を実行します。
サービス・メニューから、 「仮想化」>「仮想化データ」をクリックします。
以下の表を選択します:
- MORTGAGE_APPLICATION
- 抵当申請者
- CREDIT_SCORE
- アプリケーション・アプリケーション・アプリケーションが結合されました
- APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
割り当て (Assign)をクリックします。
「プロジェクト」で、 「データ・ガバナンス」を選択します。
割り当て (Assign)をクリックします。
仮想オブジェクトが正常に割り当てられたら、プロジェクトにナビゲートします。
「データ・ガバナンス」 プロジェクトで、 「資産」 タブをクリックします。 仮想データ・テーブルは
<your schema>
で始まります。いずれかの仮想データ・テーブルを開きます。 例えば、 APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED 仮想表をクリックして表示します。
データ資産にアクセスするための資格情報を指定します。
「認証方式」で、 「API キー」を選択します。
「外部データの仮想化 (Virtualize external data)」 チュートリアルで作成したものと同じ API キーを貼り付けます。
「接続」 をクリックします。 データ保護ルールは、カタログ・プレビュー、カタログ・ダウンロード、 Data Refinery、およびプロジェクト資産プレビューで適用されます。 このルールは資産所有者には適用されません。 04:09 のビデオを視聴して、他のユーザーが仮想データ・テーブルにアクセスしようとしている様子を確認してください。
進行状況を確認してください
以下のイメージは、異なるユーザーの視点から見た、プロジェクト内のマスクされた列を持つ仮想表を示しています。 これで、データを強化する準備ができました。
タスク 4: 仮想データ・テーブルの強化
このタスクをプレビューするには、 04:21から始まるビデオをご覧ください。
ユーザーがデータをより迅速に見つけるのに役立つ情報を使用して、データ資産を強化できます。 ユーザーはエンリッチメントを使用して、データがタスクに適しているかどうか、データを信頼できるかどうか、およびデータの処理方法を決定できます。 このような情報には、データの意味を定義する用語、所有権を文書化したり品質基準を決定したりする規則、レビューなどが含まれます。 仮想データ・テーブルを強化するには、以下の手順を実行します。
ナビゲーション・トレールで 「データ・ガバナンス」 をクリックして、プロジェクトに戻ります。
上の資産タブをクリックして新しい資産 > メタデータでデータ資産を充実させる。
名前として、以下のテキストをコピー・アンド・ペーストします。
Virtual mortgage data - metadata enrichment
「Next」をクリックして先に進みます。
プロジェクトからデータを選択をクリックしてください。
データ資産を選択してください。
以下の資産の横にあるチェック・ボックスをクリックします。
<your schema>.MORTGAGE_APPLICATION
<your schema>.MORTGAGE_APPLICANT
<your schema>.CREDIT_SCORE
<your schema>.APPLICANTS_APPLICATIONS_JOINED
<your schema>.APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
「選択」をクリックします。
次へ をクリックして、エンリッチメント目標に進みます。
すべてのエンリッチメント目標を選択する:
- プロファイル・データ
- 用語の割り当て
- 基本品質分析の実行
「カテゴリー」で、 「カテゴリーの選択」をクリックします。
[uncategorized] および 「Banking」のみを選択します。
「選択」をクリックします。
サンプリングの場合は、 基本を選択してください。
次へ をクリックしてスケジュールに進みます。
次へ をクリックしてレビューを続行します。
「作成」 をクリックします。
メタデータ・エンリッチ資産が表示されますが、ジョブが完了するまでに数分かかる場合があります。 「最新表示」 アイコン をクリックして、状況が 「キューに登録済み」 から 「進行中」 から 「完了」に変わるのを確認します。 ジョブ実行が完了すると、5 つの資産がリストされます。
進行状況を確認してください
以下のイメージは、完成したメタデータ・エンリッチメントを示しています。 これで、エンリッチされたデータ資産を探索できるようになりました。
タスク 5: メタデータ・エンリッチの結果の表示
このタスクをプレビューするには、 05:48から始まるビデオをご覧ください。
メタデータ・エンリッチメントの実行が完了したら、以下のステップに従って、エンリッチされたデータを表示します。
「仮想住宅ローン・データ-メタデータ・エンリッチメント」 画面で、 「列」 タブをクリックします。
mortgage_applicant
を検索します。「列」のリストで、 your-schema.MORTGAGE_APPLICANT 資産の EMAIL_ADDRESS 列を見つけます。
your_schema.MORTGAGE_APPLICANT 行の EMAIL_ADDRESS の末尾にある 「オーバーフロー」 メニュー をクリックし、 「列の詳細の表示」を選択します。
「詳細」 タブのサイド・パネルに、フォーマット、頻度分布、統計などのプロファイル情報が表示されます。
サイド・パネルで、 「ガバナンス」 タブをクリックします。 このタブには、メタデータ・エンリッチ中に自動的に割り当てられたデータ・クラスとビジネス用語が含まれます。 また、推奨されるビジネス用語およびデータ・クラスが表示され、それらを手動で割り当てることもできます。
提案されたビジネス用語またはデータ・クラスを確認し、手動で割り当てます。 例えば、提案されたビジネス用語として 「住所」 が表示される場合があります。
「提案されたビジネス用語」をクリックします。
「アドレス」で、 「割り当て」をクリックします。
「推奨データ・クラス」をクリックします。
「テキスト」で、 「割り当て」をクリックします。
your_schema.MORTGAGE_APPLICANT 資産行の EMAIL_ADDRESS 列の最後にある 「オーバーフロー」 メニュー をクリックし、 「データ品質詳細の表示」を選択します。
データ品質スコアを表示します。 IBM Knowledge Catalog は、事前作成されたディメンションに従ってすべてのレコードのすべての値を分析することで、各列およびデータ資産のデータ品質スコアを自動的に生成します。
「X」 をクリックして、 「データ品質」 ウィンドウを閉じます。
credit_score
を検索します。your_schema.CREDIT_SCORE 資産の 「CITY」 列で、 「オーバーフロー」 メニュー をクリックし、 「検討済みとしてマーク」を選択します。
「資産」タブをクリックします。
「アセット」のリストで、 your_schema.MORTGAGE_APPLICANT アセットについて、 「オーバーフロー」 メニュー をクリックし、 「アセット詳細の表示」を選択します。
サイド・パネルで、 「ガバナンス」 タブをクリックして、自動割り当てされたビジネス用語を表示します。
「追加」 アイコン (または 「編集」 アイコン ) をクリックして、ビジネス用語を手動で割り当てます。
social
を検索します。 結果が表示されない場合は、 「提案された用語」ではなく、ドロップダウン・リストが 「すべての用語」 に設定されていることを確認してください。「社会保障番号」を選択します。
割り当て (Assign)をクリックします。
進行状況を確認してください
以下のイメージは、レビュー済みおよび強化済みのデータ資産を示しています。 次のステップでは、エンリッチされたデータをカタログに公開して、組織と共有します。
タスク 6: カタログへの仮想表の公開
このタスクをプレビューするには、 7:18から始まるビデオをご覧ください。
これで、仮想化データがビジネス用語で強化されたので、以下の手順に従って仮想表をカタログに公開します。
ナビゲーション・トレールで 「データ・ガバナンス」 をクリックして、プロジェクトに戻ります。
「資産」タブをクリックします。
「データ」>「データ資産」にナビゲートします。
以下の資産の横にあるチェック・ボックスをクリックします。
<your schema>.MORTGAGE_APPLICATION
<your schema>.MORTGAGE_APPLICANT
<your schema>.CREDIT_SCORE
<your schema>.APPLICANTS_APPLICATIONS_JOINED
<your schema>.APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
「カタログに公開」をクリックします。
リストから 「住宅ローン承認カタログ」 (またはカタログ名) を選択し、 「次へ」をクリックします。
「公開後にカタログに移動」のオプションを選択し、 「次へ」をクリックします。
アセットを確認し、 「公開」をクリックします。
「Mortgage Approval Catalog」で、
<your-schema>
を検索します。仮想表の 1 つを開きます。 プロンプトが表示されたら、資格情報を入力します。
「認証方式」で、 「API キー」を選択します。
「外部データの仮想化 (Virtualize external data)」 チュートリアルで作成したものと同じ API キーを貼り付けます。
資産 タブをクリックして、データを表示します。 データ保護ルールは、カタログ・プレビュー、カタログ・ダウンロード、 Data Refinery、およびプロジェクト資産プレビューで適用されます。 このルールは資産所有者には適用されません。 08:17 のビデオを視聴して、他のユーザーがカタログ内の仮想データ・テーブルにアクセスしようとしている様子を確認してください。
進行状況を確認してください
以下のイメージは、ユーザーの観点からのカタログ内の仮想表のデータ・プレビューを示しています。
ゴールデン・バンクのデータ・エンジニアおよびデータ・スチュワードは、仮想化データを強化して、仮想化データが確実に保護されるようにしました。
クリーンアップ (オプション)
データ・ガバナンスのユース・ケースでチュートリアルを再利用する場合は、各前提条件チュートリアルの「 クリーンアップ 」セクションを参照してください。
次のステップ
以下のチュートリアルをお試しください。
別の データ・ファブリックのユース・ケースに登録します。
もっと見る
親トピック: ユース・ケースのチュートリアル