データ・ガバナンス・チュートリアル: 高品質データのキュレート
このチュートリアルでは、データ・ファブリック評価版のデータ・ガバナンスのユース・ケースを使用して、信頼できるデータを準備する方法について説明します。 目標は、データをエンリッチし、データ品質分析を実行することで、信頼できるデータ資産を作成することです。
このチュートリアルのストーリーは、ゴールデン・バンクには、高品質の顧客住宅ローン・データにアクセスする必要があるいくつかの部門があるということです。 ガバナンス・チームのデータ・スチュワードは、企業のデータをソートおよび編成して、データ・コンシューマーがセルフサービス・カタログで簡単に見つけられる高品質で保護されたデータ資産を提供する必要があります。
以下のアニメーション化されたイメージは、外部データ・ソースからメタデータをインポートし、自動割り当てされたビジネス用語を使用してそのデータをエンリッチし、エンリッチされたデータを表示し、エンリッチされたデータをカタログに公開する、このチュートリアルの終わりまでに実行する内容のクイック・プレビューを提供します。 イメージをクリックすると、より大きなイメージが表示されます。
チュートリアルをプレビューする
このチュートリアルでは、以下のタスクを実行します:
- 前提条件をセットアップします。
- タスク 1: カタログの作成
- タスク 2: カテゴリーの作成。
- タスク 3: ビジネス用語の追加。
- タスク 4: プロジェクトへのデータのインポート
- タスク 5: データのエンリッチ。
- タスク 6: メタデータ・エンリッチの結果を表示します。
- タスク 7: カタログへの資産の公開
このチュートリアルのステップをプレビューするには、このビデオをご覧ください。 ビデオに表示されるユーザー・インターフェースには若干の違いがある場合があります。 このビデオは、作成されたチュートリアルと一緒に使用することを目的としています。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
このチュートリアルを完了するためのヒント
ビデオ・ピクチャー・イン・ピクチャーの使用
以下のアニメーション・イメージは、ビデオ・ピクチャー・イン・ピクチャーおよび目次機能の使用方法を示しています。
コミュニティーでのヘルプの利用
このチュートリアルでヘルプが必要な場合は、 Cloud Pak for Data コミュニティー・ディスカッション・フォーラムで質問したり、回答を見つけたりすることができます。
ブラウザー・ウィンドウのセットアップ
このチュートリアルを最適に実行するには、1 つのブラウザー・ウィンドウで Cloud Pak for Data を開き、このチュートリアル・ページを別のブラウザー・ウィンドウで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。 2 つのブラウザー・ウィンドウを横並びに配置して、見やすくすることを検討してください。
前提条件のセットアップ
Cloud Pak for Data as a Service への登録
Cloud Pak for Data as a Service に登録し、データ統合ユース・ケースに必要なサービスをプロビジョンする必要があります。
- 既存の Cloud Pak for Data as a Service アカウントがある場合は、このチュートリアルを開始できます。 ライト・プランのアカウントを持っている場合、このチュートリアルを実行できるのはアカウントごとに 1 人のユーザーのみです。
- Cloud Pak for Data as a Service アカウントがまだない場合は、 データ・ファブリックのトライアルに登録してください。
以下のビデオを視聴して、 Cloud Pak for Dataのデータ・ファブリックについて確認してください。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
必要なプロビジョン済みサービスの確認
このタスクをプレビューするには、 01:05から始まるビデオをご覧ください。
必要なサービスを検証またはプロビジョンするには、以下の手順を実行します。
Cloud Pak for Data のナビゲーション・メニュー から、 「サービス」>「サービス・インスタンス」を選択します。
「製品」 ドロップダウン・リストを使用して、 IBM Knowledge Catalog サービス・インスタンスが存在するかどうかを判別します。
IBM Knowledge Catalog サービス・インスタンスを作成する必要がある場合は、 「サービスの追加」をクリックします。
IBM Knowledge Catalogを選択します。
「ライト」 プランを選択します。
「作成」 をクリックします。
上記のステップを繰り返して、 Cloud Object Storage サービスを検証またはプロビジョンします。
進行状況を確認してください
次のイメージは、プロビジョンされたサービス・インスタンスを示しています。
サンプル・プロジェクトを作成する
このタスクをプレビューするには、 01:38から始まるビデオをご覧ください。
このチュートリアル用のサンプル・プロジェクトをまだ作成していない場合は、以下の手順を実行します。
リソース・ハブの データ・ガバナンス・サンプル・プロジェクト にアクセスします。
「プロジェクトの作成」をクリックします。
プロジェクトを Cloud Object Storage インスタンスに関連付けるように求められたら、リストから Cloud Object Storage インスタンスを選択してください。
「作成」 をクリックします。
プロジェクトのインポートが完了するまで待ってから、 「新規プロジェクトの表示」 をクリックして、プロジェクトと資産が正常に作成されたことを確認します。
「アセット」 タブをクリックして、プロジェクトのアセットを表示します。
Banking.csv データ資産行の末尾にある 「オーバーフロー」 メニューから、 「ダウンロード」を選択し、ご使用のコンピューターに保存します。 このファイルは後のステップで使用します。
進行状況を確認してください
以下の画像は、サンプル・プロジェクトの「資産」タブを示しています。 これで、チュートリアルを開始する準備ができました。
タスク 1: カタログの作成
このタスクをプレビューするには、 02:49から始まるビデオをご覧ください。
データの処理を開始する前に、組織と共有するデータを公開するカタログを作成します。 IBM Knowledge Catalog ライト・プランでは、2 つのカタログのみを作成できます。 既にカタログがある場合は、このステップをスキップできます。 それ以外の場合は、以下のステップに従ってカタログを作成します。
Cloud Pak for Data のナビゲーション・メニュー で、 「カタログ」>「すべてのカタログを表示」を選択します。
「カタログ」 ページにカタログが表示されている場合は、 タスク 2: カテゴリーの作成にスキップします。 それ以外の場合は、以下の手順に従って新規カタログを作成します。
カタログの作成をクリックしてください。
「名前」に、表示されているとおりにカタログ名をコピー・アンド・ペーストします。先頭または末尾にスペースは使用しません。
Mortgage Approval Catalog
「データ保護ルールの適用 (Enforce data protection rules)」を選択し、選択内容を確認して、他のフィールドのデフォルトを受け入れます。
「作成」 をクリックします。
進行状況を確認してください
以下のイメージは、カタログを示しています。 これで、組織と資産を共有する準備ができました。
タスク 2: カテゴリーの作成
このタスクをプレビューするには、 03:13から始まるビデオをご覧ください。
カテゴリーには、次のタスクでインポートするビジネス用語を含める必要があります。 カテゴリーは、ガバナンス成果物と、それらの成果物を作成および管理できるユーザーを編成するために、フォルダーのように機能します。 カテゴリーを作成するには、以下の手順を実行します。
Cloud Pak for Data ナビゲーション・メニュー から、 「ガバナンス」>「カテゴリー」を選択します。
「カテゴリーの追加」>「新規カテゴリー」をクリックしてください。
名前には、
Banking
と入力します。「作成」 をクリックします。
進行状況を確認してください
以下の画像は、「銀行」カテゴリーを示しています。 これで、ビジネス用語をインポートする準備ができました。
タスク 3: ビジネス用語の追加
このタスクをプレビューするには、 03:41から始まるビデオをご覧ください。
次に、ビジネス用語を新しいカテゴリーにインポートします。 これらを使用して、後のステップでデータ資産を強化します。 ビジネス用語は、ビジネス概念の標準化された定義です。これにより、データが統一され、企業全体で容易に理解できるようになります。 ファイルからビジネス用語をインポートするには、以下の手順を実行します。
Cloud Pak for Data ナビゲーション・メニュー から、 「ガバナンス」>「ビジネス用語」を選択します。
「ビジネス用語の追加」>「ファイルからインポート」をクリックしてください。
「ファイルをここにドラッグ・アンド・ドロップするか、アップロードする」をクリックします。
前にダウンロードした banking.csv ファイルを選択します。
「開く」をクリックします。
次へ をクリックします。
「すべての値を置換」を選択し、 「次へ」をクリックします。
「タスクに移動」 をクリックして、ドラフトのビジネス用語を表示します。 通知を見逃した場合は、 Cloud Pak for Data ナビゲーション・メニュー から、 「ガバナンス」>「タスク受信トレイ」を選択します。
「ビジネス用語の公開」 チェック・ボックスを選択し、 「公開」をクリックします。 「公開」 をクリックして確認します。
Cloud Pak for Data のナビゲーション・メニュー から、 「ガバナンス」>「ビジネス用語」 を選択して、公開されているビジネス用語を表示します。
進行状況を確認してください
以下のイメージは、インポートされたビジネス用語を示しています。 これで、データをプロジェクトにインポートして、インポートしたビジネス用語でエンリッチする準備ができました。
タスク 4: プロジェクトへのデータのインポート
このタスクをプレビューするには、 04:47から始まるビデオをご覧ください。
サンプル・プロジェクトには、住宅ローン資産を含む Db2 Warehouse インスタンスへの接続が含まれています。 データ資産に関連付けられたテクニカル・メタデータをプロジェクトまたはカタログにインポートして、これらの資産をインベントリー、評価、およびカタログすることができます。 テクニカル・メタデータは、データ・オブジェクトの構造を記述します。 データ資産をインポートするには、以下の手順を実行します。
Cloud Pak for Data のナビゲーション・メニュー から、 「プロジェクト」>「すべてのプロジェクトを表示」を選択します。
「データ・ガバナンス」 プロジェクトをクリックします。
「資産」タブをクリックします。
新規資産をクリックしてください。
資産タイプの 「メタデータのインポート」 を選択します。
名前として、以下のテキストをコピー・アンド・ペーストします。
Mortgage data - metadata import
「Next」をクリックして先に進みます。
「ターゲットの選択」 ページで、 「このプロジェクト」を選択し、 「次へ」 をクリックして続行します。
「スコープの選択」 ページで、 「接続の選択」をクリックします。
Data Fabric 試用版- Db2 Warehouse 接続を選択します。
WKC_MORTGAGE スキーマの横にあるチェック・ボックスを選択し、 WKC_MORTGAGE スキーマ名をクリックします。
以下の表を選択します:
- クライアントの商用化
- CREDIT_SCORE
- HOUSE_PRICE
- MORTGAGE_APPLICANTS
- MORTGAGE_APPLICATION
サイド・パネルで資産のリストを確認し、 「選択」をクリックします。
次へ をクリックしてスケジュールに進みます。 メタデータ・エンリッチは手動で実行できるため、スケジュールをオフのままにしておくことができます。
「次へ」 をクリックして、 「拡張オプション」に進みます。
「拡張オプション」 ページでデフォルト値を受け入れ、 「次へ」 をクリックしてレビューを続行します。
インポートのまとめを確認し、 作成をクリックしてください。 メタデータ・インポート・ジョブが開始されます。
「最新表示」 アイコンをクリックして、状況が 「キューに登録済み」 から 「進行中」 から 「インポート済み」に変わるのを確認します。 ジョブ実行が完了すると、5 つの資産がリストされます。
進行状況を確認してください
以下のイメージは、完了したメタデータのインポートを示しています。 次のタスクは、インポートされたビジネス用語を使用して、インポートされたデータ資産を強化することです。
タスク 5: インポートされたデータの強化
このタスクをプレビューするには、 06:07から始まるビデオをご覧ください。
ユーザーがデータを素早く見つけ、そのデータがタスクに適しているかどうか、そのデータを信頼できるかどうか、およびそのデータの処理方法を判断するのに役立つ情報を使用して、データ資産を強化することができます。 このような情報には、データの意味を定義する用語、所有権を文書化したり品質基準を決定したりする規則、レビューなどが含まれます。 インポートしたデータをエンリッチするには、以下の手順を実行します。
ナビゲーション・トレールで 「データ・ガバナンス」 プロジェクト名をクリックします。
「アセット」 タブで、 「新規アセット」をクリックします。
資産タイプの 「メタデータ・エンリッチメント」 を選択します。
名前として、以下のテキストをコピー・アンド・ペーストします。
Mortgage data - metadata enrichment
「Next」をクリックして先に進みます。
プロジェクトからデータを選択をクリックしてください。
Metadata importを選択します。
「住宅ローン・データ-メタデータのインポート」の横にあるチェック・ボックスをクリックします。 この資産には、以下の資産が含まれます。
- COMMERICIAL_CLIENT
- CREDIT_SCORE
- HOUSE_PRICE
- MORTGAGE_APPLICANTS
- MORTGAGE_APPLICATION
「選択」をクリックします。
次へ をクリックして、エンリッチメント目標に進みます。
すべてのエンリッチメント目標を選択する:
- プロファイル・データ
- 品質の分析
- 用語の割り当て
「カテゴリー」で、 「カテゴリーの選択」をクリックします。
[uncategorized] および 「Banking」のみを選択します。
「選択」をクリックします。
サンプリングの場合は、 基本を選択してください。
次へ をクリックしてスケジュールに進みます。 インポートは手動で実行できるため、スケジュールをオフのままにしておくことができます。
次へ をクリックしてレビューを続行します。
「作成」 をクリックします。
メタデータ・エンリッチ資産が表示されますが、ジョブが完了するまでに数分かかる場合があります。 「最新表示」 アイコンをクリックすると、 「未分析」 から 「進行中」 から 「完了」への状況の変化が表示されます。 ジョブ実行が完了すると、5 つの資産がリストされます。
進行状況を確認してください
以下のイメージは、完成したメタデータ・エンリッチメントを示しています。 これで、エンリッチされたデータ資産を探索できるようになりました。
タスク 6: メタデータ・エンリッチの結果の表示
このタスクをプレビューするには、 07:45から始まるビデオをご覧ください。
メタデータ・エンリッチメントの実行が完了したら、以下のステップに従って、エンリッチされたデータを表示します。
「住宅ローン・データ-メタデータ・エンリッチメント」 画面で、 「列」 タブをクリックします。
列のリストで、 抵当申請者 資産の EMAIL_ADDRESS (E) 列を見つけます。
MORTGAGE age_Agent 行の EMAIL_ADDRESS の末尾にある 「オーバーフロー」 メニューをクリックし、 「列の詳細の表示」を選択します。
「詳細」 タブのサイド・パネルに、フォーマット、頻度分布、統計などのプロファイル情報が表示されます。
サイド・パネルで、 「ガバナンス」 タブをクリックします。 このタブには、メタデータ・エンリッチ中に自動的に割り当てられたデータ・クラスとビジネス用語が含まれます。 また、推奨されるビジネス用語およびデータ・クラスが表示され、それらを手動で割り当てることもできます。
提案された用語を確認し、手動で割り当てます。
「提案されたビジネス用語」をクリックします。
「アドレス」で、 「割り当て」をクリックします。
「住宅ローン申請者」 資産行の 「EMAIL_ADDRESS」 列の末尾にある 「オーバーフロー」 メニューをクリックし、 「データ品質の詳細の表示」を選択します。
データ品質情報を表示します。 IBM Knowledge Catalog は、事前に作成されたディメンションに従ってすべてのレコードのすべての値を分析することで、各列およびデータ資産のデータ品質スコアを自動的に生成します。
「X」 をクリックして、 「データ品質」 ウィンドウを閉じます。
CREDIT_SCORE アセットの CITY 列で、 「オーバーフロー」 メニューをクリックし、 「レビュー済みとしてマーク」を選択します。
「資産」タブをクリックします。
資産のリストで、 抵当申請者 アセットの オーバーフロー メニューをクリックし、 資産の詳細の表示を選択します。
サイド・パネルで、 「ガバナンス」 タブをクリックして、ビジネス用語の自動割り当てを表示します。
「編集」 アイコンをクリックして、ビジネス用語を手動で割り当てます。
social
を検索します。 結果が表示されない場合は、 「提案された用語」ではなく、ドロップダウン・リストが 「すべての用語」 に設定されていることを確認してください。「社会保障番号」を選択します。
割り当て (Assign)をクリックします。
進行状況を確認してください
以下のイメージは、レビュー済みおよび強化済みのデータ資産を示しています。 次のステップでは、エンリッチされたデータをカタログに公開して、組織と共有します。
タスク 7: カタログへのデータの公開
このタスクをプレビューするには、 09:06から始まるビデオをご覧ください。
データのエンリッチが完了したので、これらのデータ資産をカタログに公開して、データ・サイエンティストとデータ・アナリストがエンリッチされたデータ資産を使用できるようにします。 以下のステップに従って、他のユーザーが信頼できるデータにアクセスできるように、強化されたデータ資産をカタログに保管します。
ナビゲーション・トレールで 「データ・ガバナンス」 プロジェクト名をクリックします。
「資産」タブをクリックします。
「データ」>「データ資産」を選択します。
リストから COMMERICIAL_CLIENT、 HOUSE_PRICE、 MORTGAGE、および MORTGAGE age_application の各データ資産を選択し、 「カタログに公開」をクリックします。
「ターゲット」 カタログで、 「住宅ローン承認カタログ」を選択し、 「次へ」をクリックします。
「タグ」にタグ
trusted
を入力し、 「+」 (正符号) をクリックしてから、 「次へ」をクリックします。アセットを確認し、 「公開」をクリックします。
チェック・マークを付けたすべての資産をクリアしてから、リストから CREDIT_SCORE 資産の横にあるチェック・ボックスを選択し、 「カタログに公開」をクリックします。
「ターゲット」 カタログで、 「住宅ローン承認カタログ」を選択し、 「次へ」をクリックします。
「タグ」に
confidential
というタグを入力し、 「+」 (正符号) をクリックします。タグ
trusted
を入力し、2 番目のタグの 「+」 (正符号) をクリックします。「公開後にカタログに移動」のオプションを選択し、 「次へ」をクリックします。
アセットを確認し、 「公開」をクリックします。
「住宅ローン承認カタログ」で資産をフィルタリングします。
「フィルター」 アイコンをクリックします。
「タグ」 セクションを展開します。
「トラステッド」を選択して、 「適用」をクリックします。
5 つのデータ資産がカタログに追加されたことを確認します。
MORTGAGE_AGENT データ資産の名前を変更します。
MORTGAGE_AGENT 資産を開きます。
「名前の編集」 アイコンをクリックします。
名前を次のように変更します。
MORTGAGE_APPLICANTS_TRUST
「適用」をクリックします。
進行状況を確認してください
以下のイメージは、カタログに公開された拡張データ資産を示しています。 これで、会社のカタログから信頼できるデータを入手できるようになりました。
ガバナンス・チームのデータ・スチュワードとして、企業のデータをソートおよび編成して、データ・コンシューマーがセルフサービス・カタログで簡単に見つけることができる、高品質で保護されたデータ資産を提供する方法を学習しました。
次のステップ
データ保護ルールとマスキング・フローを作成してデータへのアクセスを制御することで、データを保護する準備ができました。データの保護 チュートリアルを参照してください。
もっと見る
以下のチュートリアルをお試しください。
親トピック: ユース・ケースのチュートリアル