0 / 0
資料の 英語版 に戻る
データ・ガバナンス・チュートリアル: 高品質データのキュレート
最終更新: 2024年11月28日
データ・ガバナンス・チュートリアル: 高品質データのキュレート

このチュートリアルでは、データ・ファブリック評価版のデータ・ガバナンスのユース・ケースを使用して、信頼できるデータを準備する方法について説明します。 目標は、データをエンリッチし、データ品質分析を実行することで、信頼できるデータ資産を作成することです。

クイック・スタート: このチュートリアルのサンプル・プロジェクトをまだ作成していない場合は、リソース・ハブの データ・ガバナンス・サンプル・プロジェクト にアクセスします。

このチュートリアルのストーリーは、ゴールデン・バンクには、高品質の顧客住宅ローン・データにアクセスする必要があるいくつかの部門があるということです。 ガバナンス・チームのデータ・スチュワードは、企業のデータをソートおよび編成して、データ・コンシューマーがセルフサービス・カタログで簡単に見つけられる高品質で保護されたデータ資産を提供する必要があります。

以下のアニメーション化されたイメージは、外部データ・ソースからメタデータをインポートし、自動割り当てされたビジネス用語を使用してそのデータをエンリッチし、エンリッチされたデータを表示し、エンリッチされたデータをカタログに公開する、このチュートリアルの終わりまでに実行する内容のクイック・プレビューを提供します。 イメージをクリックすると、より大きなイメージが表示されます。

アニメーション化されたイメージ

チュートリアルをプレビューする

このチュートリアルでは、以下のタスクを実行します:

ビデオを見る このチュートリアルのステップをプレビューするには、このビデオをご覧ください。 ビデオに表示されるユーザー・インターフェースには若干の違いがある場合があります。 このビデオは、作成されたチュートリアルと一緒に使用することを目的としています。

このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。





このチュートリアルを完了するためのヒント
このチュートリアルを正常に完了するためのヒントを以下に示します。

ビデオ・ピクチャー・イン・ピクチャーの使用

ヒント: ビデオを開始してから、チュートリアルをスクロールすると、ビデオはピクチャー・イン・ピクチャー・モードに移行します。 ピクチャー・イン・ピクチャーを最大限に活用するには、ビデオの目次を閉じます。 ピクチャー・イン・ピクチャー・モードを使用して、このチュートリアルのタスクを完了する際にビデオをフォローすることができます。 後続の各タスクのタイム・スタンプをクリックします。

以下のアニメーション・イメージは、ビデオ・ピクチャー・イン・ピクチャーおよび目次機能の使用方法を示しています。

ピクト・イン・ピクチャーおよび章の使用法

コミュニティーでのヘルプの利用

このチュートリアルでヘルプが必要な場合は、Cloud Pak for DataCommunityディスカッションフォーラムで質問したり、回答を見つけることができます。

ブラウザー・ウィンドウのセットアップ

このチュートリアルを最適に実行するには、1 つのブラウザー・ウィンドウで Cloud Pak for Data を開き、このチュートリアル・ページを別のブラウザー・ウィンドウで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。 2 つのブラウザー・ウィンドウを横並びに配置して、見やすくすることを検討してください。

横並びのチュートリアルと UI

ヒント: ユーザー・インターフェースでこのチュートリアルを実行しているときにガイド・ツアーが表示された場合は、 「後で行うこともあります」をクリックします。



前提条件のセットアップ

Cloud Pak for Data as a Service への登録

Cloud Pak for Data as a Service に登録し、データ統合ユース・ケースに必要なサービスをプロビジョンする必要があります。

  • 既存の Cloud Pak for Data as a Service アカウントがある場合は、このチュートリアルを開始できます。 ライト・プランのアカウントを持っている場合、このチュートリアルを実行できるのはアカウントごとに 1 人のユーザーのみです。
  • Cloud Pak for Data as a Service アカウントがまだない場合は、 データ・ファブリックのトライアルに登録してください。

ビデオ・アイコン Cloud Pak for Dataのデータ・ファブリックについては、以下のビデオをご覧ください。

このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。

必要なプロビジョン済みサービスの確認

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、01:05から始まるビデオを見てください。

必要なサービスを検証またはプロビジョンするには、以下の手順を実行します。

  1. ナビゲーションメニューナビゲーション・メニュー」から、「サービス」>「サービスインスタンス」を選択する。

  2. 「製品」 ドロップダウン・リストを使用して、 IBM Knowledge Catalog サービス・インスタンスが存在するかどうかを判別します。

  3. IBM Knowledge Catalog サービス・インスタンスを作成する必要がある場合は、 「サービスの追加」をクリックします。

    1. IBM Knowledge Catalogを選択します。

    2. 「ライト」 プランを選択します。

    3. 「作成」 をクリックします。

  4. 上記のステップを繰り返して、 Cloud Object Storage サービスを検証またはプロビジョンします。

チェックポイント・アイコン進捗状況を確認する

次のイメージは、プロビジョンされたサービス・インスタンスを示しています。

プロビジョンされたサービス

サンプル・プロジェクトを作成する

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、01:38から始まるビデオをご覧ください。

このチュートリアル用のサンプル・プロジェクトをまだ作成していない場合は、以下の手順を実行します。

  1. リソースハブのデータガバナンスサンプルプロジェクトにアクセスします。

  2. 「プロジェクトの作成」をクリックします。

  3. プロジェクトを Cloud Object Storage インスタンスに関連付けるように求められたら、リストから Cloud Object Storage インスタンスを選択してください。

  4. 「作成」 をクリックします。

  5. プロジェクトのインポートが完了するまで待ってから、 「新規プロジェクトの表示」 をクリックして、プロジェクトと資産が正常に作成されたことを確認します。

  6. 「アセット」 タブをクリックして、プロジェクトのアセットを表示します。

  7. Banking.csvデータ資産の行の最後にあるオーバーフローメニューの「オーバーフロー・メニュー」から「Download」を選択し、コンピューターに保存します。 このファイルは後のステップで使用します。

注: このユース・ケースに含まれているチュートリアルを示すガイド・ツアーが表示される場合があります。 ガイド・ツアーのリンクから、これらのチュートリアルの説明が開きます。

チェックポイント・アイコン進捗状況を確認する

以下の画像は、サンプル・プロジェクトの「資産」タブを示しています。 これで、チュートリアルを開始する準備ができました。

サンプル・プロジェクト




タスク 1: カタログの作成

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、02:49から始まるビデオをご覧ください。

データの処理を開始する前に、組織と共有するデータを公開するカタログを作成します。 IBM Knowledge Catalog ライト・プランでは、作成できるカタログは 2 つのみです。 既にカタログがある場合は、このステップをスキップできます。 それ以外の場合は、以下のステップに従ってカタログを作成します。

ヒント: 今回初めてカタログにアクセスする場合は、カタログのツアーを行うかどうかを尋ねるガイド・ツアーが表示されます。 ここでは、 後で実行をクリックしてください。
  1. ナビゲーションメニューナビゲーション・メニュー」から、「カタログ」>「すべてのカタログを見る」を選択します。

  2. 「カタログ」 ページにカタログが表示されている場合は、 タスク 2: カテゴリーの作成にスキップします。 それ以外の場合は、以下の手順に従って新規カタログを作成します。

  3. カタログの作成をクリックしてください。

  4. 「名前」に、表示されているとおりにカタログ名をコピー・アンド・ペーストします。先頭または末尾にスペースは使用しません。

    Mortgage Approval Catalog
    
  5. 「データ保護ルールの適用 (Enforce data protection rules)」を選択し、選択内容を確認して、他のフィールドのデフォルトを受け入れます。

  6. 「作成」 をクリックします。

チェックポイント・アイコン進捗状況を確認する

以下のイメージは、カタログを示しています。 これで、組織と資産を共有する準備ができました。

住宅ローン承認カタログ




タスク 2: カテゴリーの作成

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、03:13から始まるビデオをご覧ください。

カテゴリーには、次のタスクでインポートするビジネス用語を含める必要があります。 カテゴリーは、ガバナンス成果物と、それらの成果物を作成および管理できるユーザーを編成するために、フォルダーのように機能します。 カテゴリーを作成するには、以下の手順を実行します。

  1. Cloud Pak for Dataのナビゲーションメニュー「ナビゲーション・メニュー」から、Governance > Categoresをi選択します。

  2. 「カテゴリーの追加」>「新規カテゴリー」をクリックしてください。

  3. 名前には、 Bankingと入力します。

  4. 「作成」 をクリックします。

チェックポイント・アイコン進捗状況を確認する

以下の画像は、「銀行」カテゴリーを示しています。 これで、ビジネス用語をインポートする準備ができました。

銀行カテゴリー




タスク 3: ビジネス用語の追加

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、03:41から始まるビデオをご覧ください。

次に、ビジネス用語を新しいカテゴリーにインポートします。 これらを使用して、後のステップでデータ資産を強化します。 ビジネス用語は、ビジネス概念の標準化された定義です。これにより、データが統一され、企業全体で容易に理解できるようになります。 ファイルからビジネス用語をインポートするには、以下の手順を実行します。

  1. Cloud Pak for Dataのナビゲーションメニュー「ナビゲーション・メニュー」から、Governance > Business temsをr選択します。

  2. 「ビジネス用語の追加」>「ファイルからインポート」をクリックしてください。

  3. 「ファイルをここにドラッグ・アンド・ドロップするか、アップロードする」をクリックします。

    1. 前にダウンロードした banking.csv ファイルを選択します。

    2. 「開く」をクリックします。

  4. 次へ をクリックします。

  5. 「すべての値を置換」を選択し、 「次へ」をクリックします。

  6. 「タスクに移動」 をクリックして、ドラフトのビジネス用語を表示します。 通知を見逃した場合は、Cloud Pak for Dataのナビゲーションメニュー「ナビゲーション・メニュー」から、Governance > Task inoxをb選択します。

  7. 「ビジネス用語の公開」 チェック・ボックスを選択し、 「公開」をクリックします。 「公開」 をクリックして確認します。

  8. Cloud Pak for Dataのナビゲーションメニュー「ナビゲーション・メニュー」から、Governance > Business temsをr選択すると、公開されているビジネス用語が表示されます。

チェックポイント・アイコン進捗状況を確認する

以下のイメージは、インポートされたビジネス用語を示しています。 これで、データをプロジェクトにインポートして、インポートしたビジネス用語でエンリッチする準備ができました。

インポートされたビジネス用語




タスク 4: プロジェクトへのデータのインポート

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、04:47から始まるビデオをご覧ください。

サンプル・プロジェクトには、住宅ローン資産を含む Db2 Warehouse インスタンスへの接続が含まれています。 データ資産に関連付けられたテクニカル・メタデータをプロジェクトまたはカタログにインポートして、これらの資産をインベントリー、評価、およびカタログすることができます。 テクニカル・メタデータは、データ・オブジェクトの構造を記述します。 データ資産をインポートするには、以下の手順を実行します。

  1. ナビゲーションメニューナビゲーション・メニュー」から、「プロジェクト」 > 「すべてのプロジェクトを表示」を選択します。

  2. 「データ・ガバナンス」 プロジェクトをクリックします。

  3. 「資産」タブをクリックします。

  4. クリック新しいアセット > データアセットのメタデータをインポート

  5. 名前として、以下のテキストをコピー・アンド・ペーストします。

    Mortgage data - metadata import
    
  6. 「Next」をクリックして先に進みます。

  7. 「ターゲットの選択」 ページで、 「このプロジェクト」を選択し、 「次へ」 をクリックして続行します。

  8. 「スコープの選択」 ページで、 「接続の選択」をクリックします。

    1. Data Fabric 試用版- Db2 Warehouse 接続を選択します。

    2. WKC_MORTGAGE スキーマの横にあるチェック・ボックスを選択し、 WKC_MORTGAGE スキーマ名をクリックします。

    3. 以下の表を選択します:

      • クライアントの商用化
      • CREDIT_SCORE
      • HOUSE_PRICE
      • MORTGAGE_APPLICANTS
      • MORTGAGE_APPLICATION
    4. サイド・パネルで資産のリストを確認し、 「選択」をクリックします。

  9. 次へ をクリックしてスケジュールに進みます。 メタデータ・エンリッチは手動で実行できるため、スケジュールをオフのままにしておくことができます。

  10. 「次へ」 をクリックして、 「拡張オプション」に進みます。

  11. 「拡張オプション」 ページでデフォルト値を受け入れ、 「次へ」 をクリックしてレビューを続行します。

  12. インポートのまとめを確認し、 作成をクリックしてください。 メタデータ・インポート・ジョブが開始されます。

  13. 更新アイコン「リフレッシュ」をクリックして、ステータスが「キュー中」→「進行中」→「インポート済み」に変わるのを確認してください。 ジョブ実行が完了すると、5 つの資産がリストされます。

チェックポイント・アイコン進捗状況を確認する

以下のイメージは、完了したメタデータのインポートを示しています。 次のタスクは、インポートされたビジネス用語を使用して、インポートされたデータ資産を強化することです。

Metadata import 資産




タスク 5: インポートされたデータの強化

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、06:07から始まるビデオをご覧ください。

ユーザーがデータを素早く見つけ、そのデータがタスクに適しているかどうか、そのデータを信頼できるかどうか、およびそのデータの処理方法を判断するのに役立つ情報を使用して、データ資産を強化することができます。 このような情報には、データの意味を定義する用語、所有権を文書化したり品質基準を決定したりする規則、レビューなどが含まれます。 インポートしたデータをエンリッチするには、以下の手順を実行します。

  1. ナビゲーショントレイルでデータガバナンスプロジェクト名をクリックします。
    'ナビゲーション・トレール

  2. 上の資産タブをクリックして新しい資産 > メタデータでデータ資産を充実させる

  3. 名前として、以下のテキストをコピー・アンド・ペーストします。

    Mortgage data - metadata enrichment
    
  4. 「Next」をクリックして先に進みます。

  5. プロジェクトからデータを選択をクリックしてください。

    1. Metadata importを選択します。

    2. 「住宅ローン・データ-メタデータのインポート」の横にあるチェック・ボックスをクリックします。 この資産には、以下の資産が含まれます。

      • COMMERICIAL_CLIENT
      • CREDIT_SCORE
      • HOUSE_PRICE
      • MORTGAGE_APPLICANTS
      • MORTGAGE_APPLICATION
    3. 「選択」をクリックします。

  6. 次へ をクリックして、エンリッチメント目標に進みます。

  7. すべてのエンリッチメント目標を選択する:

    • プロファイル・データ
    • 用語の割り当て
    • 基本品質分析の実行
  8. 「カテゴリー」で、 「カテゴリーの選択」をクリックします。

    1. [uncategorized] および 「Banking」のみを選択します。

    2. 「選択」をクリックします。

  9. サンプリングの場合は、 基本を選択してください。

  10. 次へ をクリックしてスケジュールに進みます。 インポートは手動で実行できるため、スケジュールをオフのままにしておくことができます。

  11. 次へ をクリックしてレビューを続行します。

  12. 「作成」 をクリックします。

  13. メタデータ・エンリッチ資産が表示されますが、ジョブが完了するまでに数分かかる場合があります。 更新アイコン「リフレッシュ」をクリックし、ステータスが「未分析」→「進行中」→「終了」と変化するのを確認する。 ジョブ実行が完了すると、5 つの資産がリストされます。

チェックポイント・アイコン進捗状況を確認する

以下のイメージは、完成したメタデータ・エンリッチメントを示しています。 これで、エンリッチされたデータ資産を探索できるようになりました。

メタデータ・エンリッチ資産




タスク 6: メタデータ・エンリッチの結果の表示

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、07:45から始まるビデオをご覧ください。

メタデータ・エンリッチメントの実行が完了したら、以下のステップに従って、エンリッチされたデータを表示します。

  1. 「住宅ローン・データ-メタデータ・エンリッチメント」 画面で、 「列」 タブをクリックします。

  2. のリストで、 抵当申請者 資産の EMAIL_ADDRESS (E) 列を見つけます。

    1. MORTGAGE_APPLICANTS行のEMAIL_ADDRESSの末尾で、オーバーフローメニューオーバーフロー・メニュー」をクリックし、「列の詳細を表示」を選択する。

    2. 「詳細」 タブのサイド・パネルに、フォーマット、頻度分布、統計などのプロファイル情報が表示されます。

    3. サイド・パネルで、 「ガバナンス」 タブをクリックします。 このタブには、メタデータ・エンリッチ中に自動的に割り当てられたデータ・クラスとビジネス用語が含まれます。 また、推奨されるビジネス用語およびデータ・クラスが表示され、それらを手動で割り当てることもできます。

    4. 提案されたビジネス用語またはデータ・クラスを確認し、手動で割り当てます。 例えば、提案されたビジネス用語として 「住所」 が表示される場合があります。

      1. 「提案されたビジネス用語」をクリックします。

      2. 「アドレス」で、 「割り当て」をクリックします。

  3. MORTGAGE_APPLICANTSアセット行のEMAIL_ADDRESS列の最後にあるオーバーフローメニューオーバーフロー・メニュー」をクリックし、「View data quality details」を選択します。

    1. データ品質情報を表示します。 IBM Knowledge Catalog は、事前作成されたディメンションに従ってすべてのレコードのすべての値を分析することで、各列およびデータ資産のデータ品質スコアを自動的に生成します。

    2. 「X」 をクリックして、 「データ品質」 ウィンドウを閉じます。

  4. CREDIT_SCOREアセットのCITY列で、オーバーフローメニューの「オーバーフロー・メニュークリックし、「Mark as reviewed」を選択します。

  5. 「資産」タブをクリックします。

  6. 資産のリストで、MORTGAGE_APPLICANTS資産のオーバーフローメニューオーバーフロー・メニュー」をクリックし、「資産の詳細を表示」を選択します。

    1. サイド・パネルで、 「ガバナンス」 タブをクリックして、ビジネス用語の自動割り当てを表示します。

    2. 編集アイコン「編集」をクリックして、ビジネス用語を手動で割り当てる。

    3. socialを検索します。 結果が表示されない場合は、 「提案された用語」ではなく、ドロップダウン・リストが 「すべての用語」 に設定されていることを確認してください。

    4. 「社会保障番号」を選択します。

    5. 割り当て (Assign)をクリックします。

チェックポイント・アイコン進捗状況を確認する

以下のイメージは、レビュー済みおよび強化済みのデータ資産を示しています。 次のステップでは、エンリッチされたデータをカタログに公開して、組織と共有します。

検討済みの強化されたデータ資産




タスク 7: カタログへのデータの公開

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、09:06から始まるビデオをご覧ください。

データのエンリッチが完了したので、これらのデータ資産をカタログに公開して、データ・サイエンティストとデータ・アナリストがエンリッチされたデータ資産を使用できるようにします。 以下のステップに従って、他のユーザーが信頼できるデータにアクセスできるように、強化されたデータ資産をカタログに保管します。

  1. ナビゲーション・トレールで 「データ・ガバナンス」 プロジェクト名をクリックします。

  2. 「資産」タブをクリックします。

  3. 「データ」>「データ資産」を選択します。

  4. リストから COMMERICIAL_CLIENTHOUSE_PRICEMORTGAGE、および MORTGAGE age_application の各データ資産を選択し、 「カタログに公開」をクリックします。

    1. 「ターゲット」 カタログで、 「住宅ローン承認カタログ」を選択し、 「次へ」をクリックします。

    2. 「タグ」にタグ trustedを入力し、 「+」 (正符号) をクリックしてから、 「次へ」をクリックします。

    3. アセットを確認し、 「公開」をクリックします。

  5. チェック・マークを付けたすべての資産をクリアしてから、リストから CREDIT_SCORE 資産の横にあるチェック・ボックスを選択し、 「カタログに公開」をクリックします。

    1. 「ターゲット」 カタログで、 「住宅ローン承認カタログ」を選択し、 「次へ」をクリックします。

    2. 「タグ」confidentialというタグを入力し、 「+」 (正符号) をクリックします。

    3. タグ trustedを入力し、2 番目のタグの 「+」 (正符号) をクリックします。

    4. 「公開後にカタログに移動」のオプションを選択し、 「次へ」をクリックします。

    5. アセットを確認し、 「公開」をクリックします。

  6. 「住宅ローン承認カタログ」で資産をフィルタリングします。

    1. フィルターアイコンフィルター」をクリックする。

    2. 「タグ」 セクションを展開します。

    3. 「トラステッド」を選択して、 「適用」をクリックします。

    4. 5 つのデータ資産がカタログに追加されたことを確認します。

  7. MORTGAGE_AGENT データ資産の名前を変更します。

    1. MORTGAGE_AGENT 資産を開きます。

    2. 編集名アイコン「名前の編集」をクリックする。

    3. 名前を次のように変更します。

      MORTGAGE_APPLICANTS_TRUST
      
    4. 「適用」をクリックします。

チェックポイント・アイコン進捗状況を確認する

以下のイメージは、カタログに公開された拡張データ資産を示しています。 これで、会社のカタログから信頼できるデータを入手できるようになりました。

カタログに公開された資産



ガバナンス・チームのデータ・スチュワードとして、企業のデータをソートおよび編成して、データ・コンシューマーがセルフサービス・カタログで簡単に見つけることができる、高品質で保護されたデータ資産を提供する方法を学習しました。

次のステップ

データ保護ルールとマスキング・フローを作成してデータへのアクセスを制御することで、データを保護する準備ができました。データの保護 チュートリアルを参照してください。

もっと見る

親トピック: ユース・ケースのチュートリアル

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細