チュートリアル: データの理解

このチュートリアルでは、データ・ファブリック・トライアルの Data Governance と Privacy ユース・ケースを使用して、信頼性の高い保護されたデータを処理します。 目標は、データ・ファブリック内のデータを評価、共有、シェーピング、および分析することです。

このチュートリアルのストーリーは、ゴールデン・バンクには、高品質の顧客住宅ローン・データにアクセスする必要があるいくつかの部門があるということです。 データ・アナリストは、適切なデータを検索して見つけ、その内容を理解して信頼し、他のデータ・アナリストやデータ・サイエンティストが使用できるように準備する必要があります。

このチュートリアルでは、以下のタスクを実行します:

  1. データ資産を理解してソーシャル化します。
  2. 資産を強化し、関係を作成します。
  3. エンリッチされたデータをプロジェクトに追加します。
  4. データの視覚化。
  5. 分析と AI のためにデータを準備します。
  6. Data Refinery フローを実行します。

このチュートリアルでヘルプが必要な場合は、 Cloud Pak for Data コミュニティー・ディスカッション・フォーラム {: new_window}で質問するか、回答を見つけます。

ヒント: このチュートリアルを完了するのに最適な方法として、1 つのブラウザー・タブで Cloud Pak for Data as a Service を開き、このチュートリアル・ページを別のブラウザー・タブで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。

前提条件

Cloud Pak for Data as a Service に登録し、Data Governance and Privacy ユース・ケースに必要なサービスをプロビジョンする必要があります。

Cloud Pak for Data as a Service には、以下のいずれかの方法で登録できます:

必要なサービスをプロビジョンする

以下のステップに従って、必要なサービスを検証またはプロビジョンします。

  1. Cloud Pak for Data ナビゲーション・メニューから、 Services > Service instancesを選択します。
  2. Product ドロップダウン・ボックスを使用して、既存の Watson Knowledge Catalog サービス・インスタンスがあるかどうかを判別します。
  3. Watson Knowledge Catalog サービス・インスタンスを作成する必要がある場合は、 Add serviceをクリックします。
  4. Watson Knowledge Catalogを選択します。
  5. 「ライト」プランを選択します。
  6. 「作成」をクリックします。

データを信頼して保護する

ビデオを見る このタスクをプレビューするには、 00:47から始まるビデオをご覧ください。

以下の 2 つのチュートリアルを完成します:

  • Trust your dataチュートリアルはデータ資産をインポートしてエンリッチし、カタログに公開します。
  • Protect your data チュートリアルはデータ保護ルールとマスキング・フローを作成してデータを保護します。

ステップ 1: データ資産を理解してソーシャル化にする

ビデオを見る このタスクをプレビューするには、 02:23から始まるビデオをご覧ください。

カタログは、他のユーザーと資産を共有する場所です。 組織は、様々な資産によって異なるカタログを作成できます。 ユーザーは、コラボレーターとして追加されたカタログにのみアクセスできます。 データ資産を理解してソーシャル化するには、以下の手順を実行します。

  1. Cloud Pak for Data ナビゲーション・メニューから、 Catalogs > View all catalogsを選択します。
  2. Mortgage Approval Catalogを開きます。
  3. 「主な資産」セクションには、 Recently added 資産、過去の使用状況と人気度に基づいて AI と機械学習から提案される資産 Watson 推奨 する資産、およびカタログ・コラボレーターが評価およびレビューした Highly rated 資産が表示されます。
  4. 主なアセットの非表示 をクリックして、そのセクションを閉じます。
  5. mortgageを検索します。
  6. MORTGAGE_APPLICANTS をクリックして、そのカタログ資産を表示します。 Overview タブには、説明、評価、タグ、資産が配置されている場所、ビジネス用語、分類、関連資産などの資産に関する基本情報が表示されます。
  7. Profile タブをクリックします。 データ・ポリシーが有効になっているカタログに資産が追加されると、 Watson Knowledge Catalog は、それらの列の値に基づいて資産の内容を自動的にプロファイリングおよび分類します。 プロファイル情報は、データ・アナリストやデータ・サイエンティストがデータの内容、品質、およびユーザビリティーを理解するのに非常に役立ちます。 Watson Knowledge Catalog は、データのタイプを識別するためにデータ分類を自動的に推論します。 これらのデータ分類をポリシー制約で使用して、機密データを保護することができます。
  8. 右にスクロールして、 ZIP_CODE 列を選択します。
  9. この列のデータ分類は Commercial and Government Entityです。 この列は簡単に再分類できます。 ドロップダウン・リストをクリックすると、その他の可能な分類とその信頼性レベルが表示されます。 US Zip Codeを選択します。
  10. Asset タブをクリックして、データのプレビューを表示します。
  11. 列メタデータを表示するには、割り当てられたビジネス用語に対応する列の eye アイコンをクリックします。
  12. Review タブをクリックします。 他のユーザーが簡単に資産を見つけることができるように、MORTGAGE_APPLICANTS 資産を評価してコメントを追加することにします。
    1. レーティングに 星 5 個 を選択してください。
    2. 確認のために、This contains high quality customer data from the mortgage system. と入力します。
    3. 「送信」をクリックします。

ステップ 2: 資産をエンリッチし、関係を作成する

ビデオを見る このタスクをプレビューするには、 02:23から始まるビデオをご覧ください。

資産がカタログに追加または公開されると、資産に対してさらに手動エンリッチを実行して、他のユーザーと共有する追加情報を提供できます。 例えば、アセット間の関係を作成して、他のユーザーがアセットのリンク方法を確認できます。 以下のステップに従って、資産をエンリッチし、関係を作成します。

    • MORTGAGE_APPLICANTS カタログ資産の場合は、 * Overview タブをクリックします。
    • Description セクションで、 * Edit アイコンをクリックします。
    • Mortgage applicants from the Mortgage Systemと入力します。
    • 「保存」をクリックします。
  1. この資産は住宅ローン・システムからのものであるため、 ビジネス用語の横にある + (正符号) をクリックします。
    1. defaultを検索します。
    2. Mortgage Defaultを選択します。
    3. 「追加」をクリックします。
  2. このアセットには個人情報が含まれているため、 分類の横にある + (正符号) をクリックします。
    1. Personally Identifiable Informationを選択します。
    2. 「追加」をクリックします。
  3. この資産は他の住宅ローン資産に関連しているため、 Related assetsの横にある Add assetをクリックします。
    1. Is related to を選択し、 Nextをクリックします。
    2. CREDIT_SCORE 資産と MORTGAGE_APPLICATION 資産を選択し、 Addをクリックします。
  4. MORTGAGE_APPLICATION をクリックして、その関連資産を表示します。

ステップ 3: エンリッチメント・データをプロジェクトに追加する

ビデオを見る このタスクをプレビューするには、 02:23から始まるビデオをご覧ください。

データ解析チームは、MORTGAGE_APPLICANTS がお客様の住宅ローン解析プロジェクトに有用であると判断しました。 以下のステップに従って、エンリッチされたデータをプロジェクトに追加します。

  1. コード・ナビゲーター(breadcrumbs)で Mortgage Approval Catalog をクリックします。
  2. MORTGAGE_APPLICANTS カタログ資産の場合、 Overflow メニューから Add to projectを選択します。
    1. Data Governance and Privacy プロジェクトを選択します。
    2. 「追加」をクリックします。
  3. 通知が表示されたら、 Go to projectをクリックします。 通知を見落としたら、以下のようにします:
    1. Cloud Pak for Data ナビゲーション・メニューをクリックし、 Projects > View all projectsを選択します。
    2. Data Governance and Privacy プロジェクトをクリックします。
  4. プロジェクトで、 Assets タブをクリックして、 MORTGAGE_APPLICANTS データ資産と Data Fabric 試用版- Db2 Warehouse 接続資産を表示します。

ステップ 4: データを視覚化する

ビデオを見る このタスクをプレビューするには、 02:23から始まるビデオをご覧ください。

MORTGAGE_APPLICANTS のデータは、分析ツールおよびモデルの準備を整えるために若干のクレンジングおよび改良を必要とします。 Data Refinery の可視化機能は、ユーザーがデータの内容をより素早く簡単に理解できるようにします。これにより、どのようにデータを形成する必要があるかを判断できます。可視化は、データの最初の 5,000 行に基づいていることに注意してください。 データを視覚化するには、以下の手順を実行します。

  1. MORTGAGE_APPLICANTS データ資産をクリックして、データをプレビューします。
  2. Refine をクリックして Data Refinery でデータ資産を開き、データが読み取られて処理されるまで待機します。
  3. 視覚化 (Visualizations) タブをクリックします。
  4. 視覚化する列の場合は、 STATEを選択します。
  5. データの視覚化(Visualize data)をクリックします。 このツールは、この列に最適なグラフ・タイプとして円グラフを選択します。 バー、ワード・クラウド、およびサンバーストの横に青色のドットで示された、いくつかの推奨されるグラフ・タイプがあることに注意してください。
  6. Bubble グラフ・タイプを選択します。 バブルは、特定のデータ・セットの値の分布を素早く視覚化するための 1 つの簡単な方法です。
    • Chart type ドロップダウンから、 * Heat map グラフ・タイプを選択します。
  7. このグラフ・タイプには 2 つの列が必要です。 以下の列を選択します:
      • Column フィールドには、 * STATEを選択します。
      • Row フィールドには、 * EDUCATIONを選択します。
  8. ヒート・マップを使用すると、凡例のレバーを調整して、気になる範囲をズームインするできます。

ステップ 5: 分析と AI 用のデータの準備

ビデオを見る このタスクをプレビューするには、 02:23から始まるビデオをご覧ください。

MORTGAGE_APPLICANTS のデータを準備するには、以下を行います:

  • 名前を姓と名に分割します。
  • Name 列の名前を FULL_NAME に変更します。

データを準備するには、以下のステップを実行します。

  1. Data タブをクリックします。
  2. 名前 (Name) 列を「名 (First Name)」と「姓 (Last Name)」に分割したいです。 名前 (Name) 列を選択します。
  3. ステップ (Steps) パネルで、 新規ステップ (New step) をクリックします。
    1. 整理 (Organize) セクションまでスクロールし、 列の分割 (Split column) を選択します。
    2. 新しい列の名前 フィールドに、 FIRST_NAME, LAST_NAME を入力します (2 つの新しい列名の間にコンマとスペースがあることに注意してください)。
    3. 「適用」をクリックします。 新しい IRST_NAME 列と LAST_NAME 列が、元の 名前 (NAME) 列の横に表示されます。
  4. 名前 (Name) 列の名前を変更して、応募者のフルネームであることを示す必要があります。 名前 (Name) 列で、 編集 (Edit) (鉛筆) アイコンをクリックします。
    1. FULL_NAMEと入力します。
    2. キーボードで「Enter」キーを押します。

ステップ 6: Data Refinery フローの実行

ビデオを見る このタスクをプレビューするには、 02:23から始まるビデオをご覧ください。

これでデータのクレンジングが完了したので、以下の手順に従って Data Refinery フローを実行します。

  1. 情報 (Information) パネルが右側に表示されます。 表示されていない場合は、パネルをクリックし、ツールバーの 情報 (Information) アイコンをクリックします。
  2. デフォルトでは、ターゲット・データ・セットはプロジェクトに保管されます。 編集 (Edit) をクリックして、ターゲットの場所を変更します。 このシナリオでは、デフォルト名 (MORTGAGE_APPLICANTS_shaped ) と出力場所 (Data Governance and Privacy プロジェクト) を保持する必要があります。 完了 (Done) をクリックして、 データ (Data) タブに戻ります。
  3. ツールバーで、 ジョブ (Jobs) アイコンをクリックし、 保存してジョブを作成 (Save and create a job) を選択します。
    保存してジョブを作成
    1. 名前 (Name) の場合は、Job to refine MORTGAGE_APPLICANTS と入力します。
    2. 次へ (Next) をクリックして、ジョブの構成に進みます。
    3. デフォルトを受け入れ、 次へ (Next) をクリックしてジョブのスケジュールを続行します。
    4. スケジュールをオフのままにし、 次へ (Next) をクリックして通知設定に進みます。
    5. 通知のデフォルトを受け入れ、 次へ (Next) をクリックしてレビューを続行します。
    6. ジョブ設定を確認し、 作成して実行 (Create and run) をクリックします。
  4. 通知が表示されたら、 ジョブの詳細 (job details) をクリックします。 通知を見落としたら、以下のようにします:
    1. コード・ナビゲーション (breadcrumbs) で データ・ガバナンスとプライバシー (Data Governance and Privacy) プロジェクトをクリックします。
    2. 「ジョブ」タブをクリックします。
    3. MORTGAGE_APPLICANTS を詳細化するジョブ (Job to refine MORTGAGE_APPLICANTS) ジョブをクリックします。
  5. 最新表示 (Refresh) アイコンをクリックして、状況を更新します。 ジョブの実行が完了すると、 状況 (Status) 完了 (Completed) に変わります。
  6. パンくずリストで データ・ガバナンスとプライバシー (Data Governance and Privacy) プロジェクトをクリックして、新規アセットを表示します:
    • MORTGAGE_APPLICANTS_flow: The Data Refinery flow
    • MORTGAGE_APPLICANTS_shaped: ターゲットの成形データ資産
  7. MORTGAGE_APPLICANTS_shaped をクリックして、データ資産をプレビューします。 更新された列名と 2 つの新しい列に注意してください。

詳細情報

親トピック: データ・ファブリック・チュートリアル