チュートリアル: データを信頼する

このチュートリアルでは、データ・ファブリックしよう試用版の Data Governance and Privacy ユース・ケースで信頼できるデータを提供する方法について説明します。 目標は、データ・ソースに接続し、メタデータでデータ資産をエンリッチし、データ品質分析を実行することで、高品質のデータ資産を作成することです。

このチュートリアルのストーリーは、ゴールデン・バンクには、高品質の顧客住宅ローン・データにアクセスする必要があるいくつかの部門があるということです。 ガバナンス・チームのデータ・スチュワードは、データ・コンシューマーがセルフサービス・カタログで簡単に見つけられる高品質で保護されたデータ資産を提供するために、企業のデータをソートおよび編成する必要があります。

このチュートリアルでは、以下のタスクを実行します:

  1. ビジネス用語を追加します。
  2. カテゴリーを作成します。
  3. データをプロジェクトにインポートします。
  4. データを強化します。
  5. メタデータ・エンリッチメントの結果を表示します。
  6. カタログを作成します。
  7. カタログに資産を公開します。

このチュートリアルでヘルプが必要な場合は、 Cloud Pak for Data コミュニティー・ディスカッション・フォーラムで質問するか、または回答を見つけてください。

ヒント: このチュートリアルを完了するのに最適な方法として、1 つのブラウザー・タブで Cloud Pak for Data as a Service を開き、このチュートリアル・ページを別のブラウザー・タブで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。

前提条件

Cloud Pak for Data as a Service に登録し、Data Governance and Privacy ユース・ケースに必要なサービスをプロビジョンする必要があります。

Cloud Pak for Data as a Service には、以下のいずれかの方法で登録できます:

必要なサービスをプロビジョンする

ビデオを見る このタスクをプレビューするには、 01:03から始まるビデオをご覧ください。

以下のステップに従って、必要なサービスを検証またはプロビジョンします。

  1. Cloud Pak for Data ナビゲーション・メニューから、 「サービス」>「サービス・インスタンス」を選択してください。
  2. 製品 ドロップダウン・ボックスを使用して、既存の Watson Knowledge Catalog サービス・インスタンスがあるかどうかを判別します。
  3. Watson Knowledge Catalog サービス・インスタンスを作成する必要がある場合は、 サービスの追加をクリックしてください。
  4. Watson Knowledge Catalogを選択してください。
  5. 「ライト」プランを選択します。
  6. 「作成」をクリックします。

サンプル・プロジェクトを作成する

ビデオを見るこのタスクをプレビューするには、 01:43から始まるビデオをご覧ください。

このチュートリアル用のサンプル・プロジェクトをまだ作成していない場合は、以下のステップを実行します。

  1. ギャラリーの データ・ガバナンスおよびプライバシーのガイド付きチュートリアルのサンプル・プロジェクト {: new_window}にアクセスします。
  2. 「Create Project」をクリックします。
  3. プロジェクトを Cloud Object Storage インスタンスに関連付けるように求められたら、リストから Cloud Object Storage インスタンスを選択してください。
  4. 「作成」をクリックします。
  5. 新規プロジェクトの表示 をクリックして、プロジェクトと資産が正常に作成されたことを確認します。

ステップ 1: ビジネス用語を追加する

ビデオを見る このタスクをプレビューするには、 02:23から始まるビデオをご覧ください。

ビジネス用語を作成してビジネス概念の定義を標準化し、企業全体で統一されたわかりやすい方法でデータを記述できるようにします。 ビジネス用語は、データの内容、データの機密性、またはデータのその他の要素 (データの対象や目的など) を記述できます。 以下のステップに従って、データ資産を強化するために使用するビジネス用語を作成します。

  1. データ・ガバナンスとプライバシー プロジェクトから、 資産 タブをクリックしてください。
  2. Banking.csv データ資産の オーバーフロー メニューから、 ダウンロードを選択してください。
  3. Cloud Pak for Data as a Service のナビゲーション・メニューから、 「ガバナンス」>「ビジネス用語」を選択してください。
  4. 「ビジネス用語の追加」>「ファイルからインポート」をクリックしてください。
  5. ファイルの追加をクリックします。
    1. Banking.csvを選択してください。
    2. 「Open」をクリックします。
  6. 「次へ」をクリックする。
  7. すべての値を置換を選択してください。
  8. 「インポート」をクリックします。

ステップ 2: カテゴリーを作成する

ビデオを見る このタスクをプレビューするには、 02:23から始まるビデオをご覧ください。

カテゴリーを作成して、データ保護ルールを除くすべてのタイプのガバナンス成果物の論理構造を提供します。 ガバナンス成果物をカテゴリーにグループ化して、見つけやすくしたり、管理したり、可視性を制御したりすることができます。 カテゴリーは、カテゴリーの意味およびカテゴリーの相互関係に基づいて階層に編成できます。 カテゴリーを作成するには、以下の手順に従ってください。

  1. Cloud Pak for Data as a Service のナビゲーション・メニューから、 「ガバナンス」> 「カテゴリー」を選択してください。
  2. 「カテゴリーの追加」>「新規カテゴリー」をクリックしてください。
  3. 名前には、 Banking と入力します。
  4. 「作成」をクリックします。

ステップ 3: プロジェクトへデータをインポートする

ビデオを見る このタスクをプレビューするには、 02:23から始まるビデオをご覧ください。

サンプル・プロジェクトには、プロジェクトにインポートする住宅ローン・ファイルを含む Db2 Warehouse インスタンスへの接続が含まれています。 データ資産をインポートするには、以下の手順に従ってください。

  1. Cloud Pak for Data ナビゲーション・メニューから、 「プロジェクト」>「すべてのプロジェクトの表示」を選択してください。
  2. Data Governance and Privacy プロジェクトをクリックしてください。
  3. 「新規アセット」>「メタデータのインポート」をクリックしてください。
  4. 名前には、 Mortgage data - metadata import と入力します。
  5. 「次へ」をクリックして先に進みます。
  6. ターゲットの選択の場合は、 このプロジェクトを選択し、 次へ をクリックして先に進みます。
  7. スコープの選択の場合は、 接続の選択をクリックしてください。
    1. Data Fabric 試用版- Db2 Warehouse 接続を選択します。
    2. AI_MORTGAGE スキーマを選択してください。
    3. 以下の表を選択します:
      • COMMERICIAL_CLIENT
      • CREDIT_SCORE
      • HOUSE_PRICE
      • MORTGAGE_APPLICANTS
      • MORTGAGE_APPLICATION
    4. 「選択」をクリックします。
  8. 次へ をクリックしてスケジュールに進みます。
  9. 次へ をクリックしてレビューを続行します。
  10. インポートのまとめを確認し、 作成をクリックしてください。 メタデータのインポート・ジョブが開始されます。

ステップ 4: インポートされたデータを強化する

ビデオを見る このタスクをプレビューするには、 02:23から始まるビデオをご覧ください。

インポートされたデータをエンリッチするには、以下の手順に従ってください。

  1. パンくずリストで データ・ガバナンス プロジェクト名をクリックしてください。
  2. 「新規資産」> 「メタデータ・エンリッチメント」をクリックしてください。
  3. 名前には、 Mortgage data - metadata enrichment と入力します。
  4. 「次へ」をクリックして先に進みます。
  5. プロジェクトからデータを選択をクリックしてください。
    1. データ資産を選択してください。
    2. 以下の資産を選択します:
      • COMMERICIAL_CLIENT
      • CREDIT_SCORE
      • HOUSE_PRICE
      • MORTGAGE_APPLICANTS
      • MORTGAGE_APPLICATION
  6. 次へ をクリックして、エンリッチメント目標に進みます。
  7. すべてのエンリッチメント目標を選択する:
    • プロファイル・データ
    • 品質の分析
    • 用語の割り当て
  8. カテゴリーの選択をクリックしてください。
    1. [未分類] および 銀行を選択してください。
    2. 「選択」をクリックします。
  9. サンプリングの場合は、 基本を選択してください。
  10. 次へ をクリックしてスケジュールに進みます。
  11. 次へ をクリックしてレビューを続行します。
  12. 「作成」をクリックします。
  13. 表示される通知で、 ジョブ実行 をクリックして、ジョブの詳細を表示します。 通知を受けない場合は:
    1. パンくずリストで データ・ガバナンス プロジェクト名をクリックしてください。
    2. 「ジョブ」タブをクリックします。
    3. 住宅ローン・データ - メタデータ・エンリッチメント をクリックして、ジョブの詳細を表示します。
  14. ジョブの実行には数分かかることがあります。 それまでは、ジョブ実行の日時をクリックしてログを表示してください。

ステップ 5: メタデータ・エンリッチメントの結果を表示する

ビデオを見る このタスクをプレビューするには、 02:23から始まるビデオをご覧ください。

メタデータ・エンリッチの実行が完了したら、以下の手順に従って、エンリッチされたデータを表示します。

  1. プロジェクトに戻るには、パンくずリストで データ・ガバナンスとプライバシー プロジェクト名をクリックしてください。
  2. 「資産」タブをクリックします。
  3. すべての資産のリストで、 住宅ローン・データ-メタデータ・エンリッチメントをクリックしてください。
  4. カラム タブをクリックしてください。
  5. カラムのリストで、 CREDIT_SCORE 資産の City 列を選択します。
    1. 詳細 タブのサイド・パネルには、フォーマット、頻度分布、統計などのプロファイル情報が表示されます。
      • この分析 (列分析とも呼ばれる) は、データのプロファイルをキャプチャーします。 構造化プロファイルでは、サンプル値、フォーマット (aka パターン)、データ・プロパティーの検出 (長さ、データ・タイプ、最小/最大など)、および頻度分布が提供されます。
      • “CSRidUpdate21”のような不明確な名前の列の場合、メール・アドレスのようなサンプル値は、ユーザーがその列に何が含まれているかを理解するのに役立ちます。 「ZIP」という列の場合、80% 5 桁の米国の郵便番号と 20% 6 桁のカナダの郵便番号を持つ頻度分布は、このデータが世界中のデータベースからのものであることをユーザーが認識するのに役立ちます。 プロファイル作成は、一貫性のある情報を提供して、ユーザーがデータを素早く理解できるようにします。
    2. サイド・パネルで、 ガバナンス タブをクリックして、データ・クラスとビジネス用語の自動割り当てを表示します。
      • 最も重要なデータ要素の検出、評価、および管理は、ビジネス価値の実現、規制標準への準拠、およびリスクの軽減のための前提条件です。 Watson Knowledge Catalog は、人間がデータを認識してキュレーションする方法を反映した特許取得済みテクノロジーによってデータ・キュレーション・プロセスを自動化することで、データ・スチュワードの生産性を向上させます。
      • この自動ビジネス用語割り当ては、ノイズからのデータ確立シグナルにビジネス上の意味を結び付けるのに役立ちます。 この意味の割り当てプロセスは、多くの場合、マッピングや自動タグ付けなどの語句を使用して参照されます。 ビジネス用語を割り当てることの価値は、適切なビジネス用語を持つデータが検索を使用して見つけやすくなり、データ保護ルールを使用して保護しやすくなり、自動化ルールを使用して特定のデータ品質ルールをトリガーすることで分析しやすくなることです。
      • 自動ビジネス用語割り当てと同様に、自動データ・クラス割り当て (データ分類とも呼ばれます) では、ビジネス上の意味と値を自動的に検出できます。 自動データ・クラス割り当ては、実際のデータ値を分析して最適なデータ・クラスを割り当てます。この結果は、自動ビジネス用語割り当てフレームワークで使用されるいくつかの要因の 1 つです。
      • 自動データ・クラス割り当ては、列分析と呼ばれるプロファイルと一緒に実行されます。 IBM は、200以上のデータ・クラスを提供しています。 これらの範囲は、コア・セット (ID、コード、テキスト、数量など) から特定のドメイン (クレジット・カード、メール・アドレスなど) までです。 場合によっては、これらのデータ・クラスは、有効なクレジット・カード番号の構造の検証など、データの検証を提供します。
    3. CREDIT_SCORE 資産の City 列で、 オーバーフロー メニューをクリックし、 データ品質の表示を選択してください。
      • 企業規模でのデータの管理と信頼は、データ品質を分析するための拡張可能なフレームワークに依存します。 事前作成またはカスタマイズされた品質指標を使用することで、ユーザーはデータの性質を 1 つの数値から簡単に理解し、最も重要な資産に対してアクションを実行できます。
      • WKC は、すぐに使用可能な各列およびデータ資産のデータ品質スコアを生成します。 データ品質スコアは、事前作成されたディメンションに従ってすべてのレコードのすべての値を分析することにより、すべてのデータ資産および列について計算されます。 このスコアリングは、データ資産の栄養ラベルのようなものです。これは、データ資産の全体的な品質を収集する標準化されたメトリックのセットです。 このデータ品質スコアを使用することで、お客様は素早くに価値とリスクを見つけることができます。
      • データ品質スコアは、ユーザーがデータ品質の問題を見つけて、診断し、優先順位を付けるのに役立ちます。 スコアは、ビジネス価値を認識と監視することにも役立ちます。 例えば、データ品質スコアが高く、DQ ディメンション違反がほとんど検出されない場合は、データ資産の品質が高いことを確信できます。 完了したら、 X をクリックして データ品質 ウィンドウを閉じます。
    4. データ品質ウィンドウを閉じます。
  6. CREDIT_SCORE 資産の CITY 列で、 オーバーフロー メニューをクリックし、 レビュー済みとしてマークするを選択してください。

ステップ 6: カタログを作成する

ビデオを見る このタスクをプレビューするには、 02:23から始まるビデオをご覧ください。

データのエンリッチが完了したので、これらのデータ資産をカタログに公開して、データ・サイエンティストとデータ・アナリストがエンリッチされたデータ資産を使用できるようにします。 Watson Knowledge Catalog ライト・プランでは、カタログは 1 つしか作成できません。 既にカタログがある場合は、このステップをスキップしてください。 それ以外の場合は、以下の手順に従って、エンリッチされたデータ資産を保存するカタログを作成します。

  1. Cloud Pak for Data ナビゲーション・メニューから、 「カタログ」>「すべてのカタログの表示」を選択してください。
  2. カタログの作成をクリックしてください。
  3. 名前の場合は、Mortgage Approval Catalog と入力します。 先頭または末尾にスペースを付けずに、示されているとおりにカタログ名を入力してください。 カタログを Cloud Object Storage インスタンスに関連付けるように求られたら、リストから Cloud Object Storage を選択してください。
  4. その他のすべてのフィールドについては、デフォルトを受け入れます。
  5. 「作成」をクリックします。

ステップ 7: カタログへデータを公開する

ビデオを見る このタスクをプレビューするには、 02:23から始まるビデオをご覧ください。

以下のステップに従って、エンリッチされたデータ資産をカタログに保存します。

  1. プロジェクトに戻るには、 Cloud Pak for Data ナビゲーション・メニューから 「プロジェクト」>「すべてのプロジェクトの表示」を選択してください。
  2. Data Governance and Privacy プロジェクトをクリックしてください。
  3. 「資産」タブをクリックします。
  4. すべての資産のリストで、 住宅ローン・データ-メタデータ・エンリッチメントをクリックしてください。
  5. リストから CREDIT_SCORE ファイルを選択し、 公開をクリックしてください。
    1. 目標 カタログの場合は、 住宅ローン承認カタログを選択してください。
    2. タグの場合は、 confidential と入力し、 + (正符号) をクリックしてください。
    3. 「公開」をクリックします。
  6. リストから残りの 4 つのファイルを選択し、 公開をクリックしてください。
    1. 目標 カタログの場合は、 住宅ローン承認カタログを選択してください。
    2. 「公開」をクリックします。
  7. Cloud Pak for Data ナビゲーション・メニューから、 「カタログ」>「すべてのカタログの表示」を選択してください。
  8. 住宅ローン承認カタログをクリックしてください。
  9. 5 つのファイルがカタログに追加されたことを確認します。

次のステップ

データ保護ルールとマスキング・フローを作成してデータへのアクセスを制御することで、データを保護する準備ができました。データの保護 チュートリアルを参照してください。

詳細情報

親トピック: データ・ファブリックのチュートリアル