翻訳が最新ではありません

このページの翻訳は最新バージョンを表していません。最新の更新については、資料の英語版を参照してください。

データ・ガバナンス・チュートリアル: 高品質データのキュレート

最終更新: 2025年4月05日

このチュートリアルでは、データ・ファブリック・トライアルの watsonx.data インテリジェンスのユースケースを使用して、信頼できるデータを準備する方法を学ぶことができます。目標は、データをエンリッチし、データ品質分析を実行することで、信頼できるデータ資産を作成することです。

クイック・スタート: このチュートリアルのサンプル・プロジェクトをまだ作成していない場合は、リソース・ハブのデータ・ガバナンス・サンプル・プロジェクトにアクセスします。

このチュートリアルのストーリーは、ゴールデン・バンクには、高品質の顧客住宅ローン・データにアクセスする必要があるいくつかの部門があるということです。ガバナンス・チームのデータ・スチュワードは、企業のデータをソートおよび編成して、データ・コンシューマーがセルフサービス・カタログで簡単に見つけられる高品質で保護されたデータ資産を提供する必要があります。

以下のアニメーション化されたイメージは、外部データ・ソースからメタデータをインポートし、自動割り当てされたビジネス用語を使用してそのデータをエンリッチし、エンリッチされたデータを表示し、エンリッチされたデータをカタログに公開する、このチュートリアルの終わりまでに実行する内容のクイック・プレビューを提供します。イメージをクリックすると、より大きなイメージが表示されます。

アニメーション化されたイメージ

静的イメージ

チュートリアルをプレビューする

このチュートリアルでは、以下のタスクを実行します：

前提条件をセットアップします。
タスク 1: カタログの作成
タスク 2: カテゴリーの作成。
タスク 3: ビジネス用語の追加。
タスク 4: プロジェクトへのデータのインポート
タスク 5: データのエンリッチ。
タスク 6: メタデータ・エンリッチの結果を表示します。
タスク 7: カタログへの資産の公開

ビデオを見るこのチュートリアルのステップをプレビューするには、このビデオをご覧ください。ビデオに表示されるユーザー・インターフェースには若干の違いがある場合があります。このビデオは、作成されたチュートリアルと一緒に使用することを目的としています。

このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。

このチュートリアルを完了するためのヒント

このチュートリアルを正常に完了するためのヒントを以下に示します。

ビデオ・ピクチャー・イン・ピクチャーの使用

ヒント: ビデオを開始してから、チュートリアルをスクロールすると、ビデオはピクチャー・イン・ピクチャー・モードに移行します。ピクチャー・イン・ピクチャーを最大限に活用するには、ビデオの目次を閉じます。ピクチャー・イン・ピクチャー・モードを使用して、このチュートリアルのタスクを完了する際にビデオをフォローすることができます。後続の各タスクのタイム・スタンプをクリックします。

以下のアニメーション・イメージは、ビデオ・ピクチャー・イン・ピクチャーおよび目次機能の使用方法を示しています。

ピクト・イン・ピクチャーおよび章の使用法

コミュニティーでのヘルプの利用

このチュートリアルでヘルプが必要な場合は、Cloud Pak for DataCommunityディスカッションフォーラムで質問したり、回答を見つけることができます。

ブラウザー・ウィンドウのセットアップ

このチュートリアルを最適に実行するには、1 つのブラウザー・ウィンドウで Cloud Pak for Data を開き、このチュートリアル・ページを別のブラウザー・ウィンドウで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。 2 つのブラウザー・ウィンドウを横並びに配置して、見やすくすることを検討してください。

横並びのチュートリアルと UI

ヒント: ユーザー・インターフェースでこのチュートリアルを実行しているときにガイド・ツアーが表示された場合は、 「後で行うこともあります」をクリックします。

前提条件のセットアップ

Cloud Pak for Data as a Service に登録し、データ統合ユース・ケースに必要なサービスをプロビジョンする必要があります。

既存の Cloud Pak for Data as a Service アカウントがある場合は、このチュートリアルを開始できます。ライト・プランのアカウントを持っている場合、このチュートリアルを実行できるのはアカウントごとに 1 人のユーザーのみです。
Cloud Pak for Data as a Service アカウントがまだない場合は、データ・ファブリックのトライアルに登録してください。

ビデオ・アイコン Cloud Pak for Dataのデータ・ファブリックについては、以下のビデオをご覧ください。

このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。

必要なプロビジョン済みサービスの確認

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、01:05から始まるビデオを見てください。

必要なサービスを検証またはプロビジョンするには、以下の手順を実行します。

ナビゲーションメニュー「」から、「サービス」＞「サービスインスタンス」を選択する。
「製品」 ドロップダウン・リストを使用して、 IBM Knowledge Catalog サービス・インスタンスが存在するかどうかを判別します。
IBM Knowledge Catalog サービス・インスタンスを作成する必要がある場合は、 「サービスの追加」をクリックします。
1. IBM Knowledge Catalogを選択します。
2. 「ライト」 プランを選択します。
3. 「作成」 をクリックします。
上記のステップを繰り返して、 Cloud Object Storage サービスを検証またはプロビジョンします。

進捗状況を確認する

次のイメージは、プロビジョンされたサービス・インスタンスを示しています。

サンプル・プロジェクトを作成する

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、01:38から始まるビデオをご覧ください。

このチュートリアル用のサンプル・プロジェクトをまだ作成していない場合は、以下の手順を実行します。

リソースハブのデータガバナンスサンプルプロジェクトにアクセスします。
「プロジェクトの作成」をクリックします。
プロジェクトを Cloud Object Storage インスタンスに関連付けるように求められたら、リストから Cloud Object Storage インスタンスを選択してください。
「作成」 をクリックします。
プロジェクトのインポートが完了するまで待ってから、 「新規プロジェクトの表示」 をクリックして、プロジェクトと資産が正常に作成されたことを確認します。
「アセット」 タブをクリックして、プロジェクトのアセットを表示します。
Banking.csvデータ資産の行の最後にあるオーバーフローメニューの「」から「Download」を選択し、コンピューターに保存します。このファイルは後のステップで使用します。

注: このユース・ケースに含まれているチュートリアルを示すガイド・ツアーが表示される場合があります。ガイド・ツアーのリンクから、これらのチュートリアルの説明が開きます。

進捗状況を確認する

以下の画像は、サンプル・プロジェクトの「資産」タブを示しています。これで、チュートリアルを開始する準備ができました。

タスク 1: カタログの作成

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、02:49から始まるビデオをご覧ください。

データの処理を開始する前に、組織と共有するデータを公開するカタログを作成します。 IBM Knowledge Catalog ライト・プランでは、作成できるカタログは 2 つのみです。既にカタログがある場合は、このステップをスキップできます。それ以外の場合は、以下のステップに従ってカタログを作成します。

ヒント: 今回初めてカタログにアクセスする場合は、カタログのツアーを行うかどうかを尋ねるガイド・ツアーが表示されます。ここでは、 後で実行をクリックしてください。

ナビゲーションメニュー「」から、「カタログ」>「すべてのカタログを見る」を選択します。
「カタログ」 ページにカタログが表示されている場合は、タスク 2: カテゴリーの作成にスキップします。それ以外の場合は、以下の手順に従って新規カタログを作成します。
カタログの作成をクリックしてください。
「名前」に、表示されているとおりにカタログ名をコピー・アンド・ペーストします。先頭または末尾にスペースは使用しません。
```
Mortgage Approval Catalog
```
「データ保護ルールの適用 (Enforce data protection rules)」を選択し、選択内容を確認して、他のフィールドのデフォルトを受け入れます。
「作成」 をクリックします。

進捗状況を確認する

以下のイメージは、カタログを示しています。これで、組織と資産を共有する準備ができました。

タスク 2: カテゴリーの作成

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、03:13から始まるビデオをご覧ください。

カテゴリーには、次のタスクでインポートするビジネス用語を含める必要があります。カテゴリーは、ガバナンス成果物と、それらの成果物を作成および管理できるユーザーを編成するために、フォルダーのように機能します。カテゴリーを作成するには、以下の手順を実行します。

Cloud Pak for Dataのナビゲーションメニュー「」から、Governance > Categoresをi選択します。
「カテゴリーの追加」>「新規カテゴリー」をクリックしてください。
名前には、と入力します。
「作成」 をクリックします。

進捗状況を確認する

以下の画像は、「銀行」カテゴリーを示しています。これで、ビジネス用語をインポートする準備ができました。

タスク 3: ビジネス用語の追加

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、03:41から始まるビデオをご覧ください。

次に、ビジネス用語を新しいカテゴリーにインポートします。これらを使用して、後のステップでデータ資産を強化します。ビジネス用語は、ビジネス概念の標準化された定義です。これにより、データが統一され、企業全体で容易に理解できるようになります。ファイルからビジネス用語をインポートするには、以下の手順を実行します。

Cloud Pak for Dataのナビゲーションメニュー「」から、Governance > Business temsをr選択します。
「ビジネス用語の追加」>「ファイルからインポート」をクリックしてください。
「ファイルをここにドラッグ・アンド・ドロップするか、アップロードする」をクリックします。
1. 前にダウンロードした banking.csv ファイルを選択します。
2. 「開く」をクリックします。
次へをクリックします。
「すべての値を置換」を選択し、 「次へ」をクリックします。
「タスクに移動」 をクリックして、ドラフトのビジネス用語を表示します。通知を見逃した場合は、Cloud Pak for Dataのナビゲーションメニュー「」から、Governance > Task inoxをb選択します。
「ビジネス用語の公開」 チェック・ボックスを選択し、 「公開」をクリックします。 「公開」 をクリックして確認します。
Cloud Pak for Dataのナビゲーションメニュー「」から、Governance > Business temsをr選択すると、公開されているビジネス用語が表示されます。

進捗状況を確認する

以下のイメージは、インポートされたビジネス用語を示しています。これで、データをプロジェクトにインポートして、インポートしたビジネス用語でエンリッチする準備ができました。

タスク 4: プロジェクトへのデータのインポート

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、04:47から始まるビデオをご覧ください。

サンプル・プロジェクトには、住宅ローン資産を含む Db2 Warehouse インスタンスへの接続が含まれています。データ資産に関連付けられたテクニカル・メタデータをプロジェクトまたはカタログにインポートして、これらの資産をインベントリー、評価、およびカタログすることができます。テクニカル・メタデータは、データ・オブジェクトの構造を記述します。

データ資産をインポートするには、以下の手順を実行します。

ナビゲーションメニューのから 、「プロジェクト」>「すべてのプロジェクトを表示」 を選択します。
「データ・ガバナンス」 プロジェクトをクリックします。
「資産」タブをクリックします。
クリック新しいアセット > データアセットのメタデータをインポート。

名前として、以下のテキストをコピー・アンド・ペーストします。

Mortgage data - metadata import

「Next」をクリックして先に進みます。
目標を定義するページで、以下の手順に従います
1. Select 資産をインポートする to import and view assets of various types in a project or catalog.
2. ターゲットについては、 このプロジェクトに追加を選択します。
3. 「Next」をクリックして先に進みます。
「ソースとスコープの選択 」ページで、以下の手順に従います
1. 「接続」 の隣にある 「選択」 をクリックします。
2. Data Fabric トライアル - Db2 Warehouse 接続を選択し、 [選択] をクリックします。
3. 適用範囲 の隣にある 選択 > 資産を選択 をクリックします。
4. WKC_MORTGAGEスキーマを選択します。
5. 以下の表を選択します：
  - クライアントの商用化
  - CREDIT_SCORE
  - HOUSE_PRICE
  - MORTGAGE_APPLICANTS
  - MORTGAGE_APPLICATION
6. サイド・パネルで資産のリストを確認し、 「選択」をクリックします。
「次へ」をクリックして 、「ジョブの詳細を定義 」ページに進みます。メタデータのインポートを手動で実行することもできますので、スケジュールはオフのままにしておいてください。
「次へ」 をクリックして、 「詳細オプションの設定」 ページに進みます。
「拡張オプション」 ページでデフォルト値を受け入れ、 「次へ」 をクリックしてレビューを続行します。
インポートのまとめを確認し、作成をクリックしてください。メタデータ・インポート・ジョブが開始されます。
更新アイコン をクリックすると、ステータスが 「キューに入れられた」 から 「処理中」 そして 「インポート済み」 に変わっていくのが確認できます。ジョブ実行が完了すると、5 つの資産がリストされます。

進捗状況を確認する

以下のイメージは、完了したメタデータのインポートを示しています。次のタスクは、インポートされたビジネス用語を使用して、インポートされたデータ資産を強化することです。

タスク 5: インポートされたデータの強化

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、 06:07 から始まるビデオをご覧ください。

ユーザーがデータを素早く見つけ、そのデータがタスクに適しているかどうか、そのデータを信頼できるかどうか、およびそのデータの処理方法を判断するのに役立つ情報を使用して、データ資産を強化することができます。このような情報には、データの意味を定義する用語、所有権を文書化したり品質基準を決定したりする規則、レビューなどが含まれます。インポートしたデータをエンリッチするには、以下の手順を実行します。

ナビゲーション・トレイルのデータガバナンス・プロジェクト名をクリックします。
上の資産タブをクリックして新しい資産 > メタデータでデータ資産を充実させる。

名前として、以下のテキストをコピー・アンド・ペーストします。

Mortgage data - metadata enrichment

「Next」をクリックして先に進みます。
プロジェクトからデータを選択をクリックしてください。
1. Metadata importを選択します。
2. 「住宅ローン・データ-メタデータのインポート」の横にあるチェック・ボックスをクリックします。この資産には、以下の資産が含まれます。
  - COMMERICIAL_CLIENT
  - CREDIT_SCORE
  - HOUSE_PRICE
  - MORTGAGE_APPLICANTS
  - MORTGAGE_APPLICATION
3. 「選択」をクリックします。
次へをクリックして、エンリッチメント目標に進みます。
すべてのエンリッチメント目標を選択する:
- プロファイル・データ
- 用語の割り当て
- 基本品質分析の実行
「カテゴリー」で、 「カテゴリーの選択」をクリックします。
1. [uncategorized] および 「Banking」のみを選択します。
2. 「選択」をクリックします。
サンプリングの場合は、基本を選択してください。
次へをクリックしてスケジュールに進みます。インポートは手動で実行できるため、スケジュールをオフのままにしておくことができます。
次へをクリックしてレビューを続行します。
「作成」 をクリックします。
メタデータ・エンリッチ資産が表示されますが、ジョブが完了するまでに数分かかる場合があります。 更新アイコン をクリックすると、ステータスが 「未分析」 から 「処理中」 そして 「完了」 に変わっていくのが確認できます。ジョブ実行が完了すると、5 つの資産がリストされます。

進捗状況を確認する

以下のイメージは、完成したメタデータ・エンリッチメントを示しています。これで、エンリッチされたデータ資産を探索できるようになりました。

タスク 6: メタデータ・エンリッチの結果の表示

プレビュー・チュートリアル・ビデオこのタスクのプレビューを見るには、 7分45秒から始まるビデオをご覧ください。

メタデータ・エンリッチメントの実行が完了したら、以下のステップに従って、エンリッチされたデータを表示します。

「住宅ローン・データ-メタデータ・エンリッチメント」 画面で、 「列」 タブをクリックします。
列のリストで、 抵当申請者 資産の EMAIL_ADDRESS (E) 列を見つけます。
1. MORTGAGE_APPLICANTS行 のEMAIL_ADDRESS の末尾で、 オーバーフローメニュー をクリックし、 列の詳細を表示を選択します。
2. 「詳細」 タブのサイド・パネルに、フォーマット、頻度分布、統計などのプロファイル情報が表示されます。
3. サイド・パネルで、 「ガバナンス」 タブをクリックします。このタブには、メタデータ・エンリッチ中に自動的に割り当てられたデータ・クラスとビジネス用語が含まれます。また、推奨されるビジネス用語およびデータ・クラスが表示され、それらを手動で割り当てることもできます。
4. 提案されたビジネス用語またはデータ・クラスを確認し、手動で割り当てます。例えば、提案されたビジネス用語として 「住所」 が表示される場合があります。
  1. 「提案されたビジネス用語」をクリックします。
  2. 「アドレス」で、 「割り当て」をクリックします。
At the end of the メールアドレス column for the 住宅ローン申請者 asset row, click the 溢れる menu , and choose データ品質の詳細を表示.
1. データ品質情報を表示します。 IBM Knowledge Catalog は、事前作成されたディメンションに従ってすべてのレコードのすべての値を分析することで、各列およびデータ資産のデータ品質スコアを自動的に生成します。
2. 「X」 をクリックして、 「データ品質」 ウィンドウを閉じます。
For the CITY column for the CREDIT_SCORE asset, click the 溢れる menu , and choose 確認済みとしてマークする.
「資産」タブをクリックします。
In the list of 資産, for the 住宅ローン申請者 asset, click the 溢れる menu , and choose 資産を表示.
1. サイド・パネルで、 「ガバナンス」 タブをクリックして、ビジネス用語の自動割り当てを表示します。
2. 編集アイコン をクリックして、ビジネス条件を手動で割り当てます。
3. socialを検索します。結果が表示されない場合は、 「提案された用語」ではなく、ドロップダウン・リストが 「すべての用語」 に設定されていることを確認してください。
4. 「社会保障番号」を選択します。
5. 割り当て (Assign)をクリックします。

進捗状況を確認する

以下のイメージは、レビュー済みおよび強化済みのデータ資産を示しています。次のステップでは、エンリッチされたデータをカタログに公開して、組織と共有します。

タスク 7: カタログへのデータの公開

プレビュー・チュートリアル・ビデオこのタスクのプレビューを見るには、 9:06 から始まるビデオをご覧ください。

データのエンリッチが完了したので、これらのデータ資産をカタログに公開して、データ・サイエンティストとデータ・アナリストがエンリッチされたデータ資産を使用できるようにします。以下のステップに従って、他のユーザーが信頼できるデータにアクセスできるように、強化されたデータ資産をカタログに保管します。

ナビゲーション・トレールで 「データ・ガバナンス」 プロジェクト名をクリックします。
「資産」タブをクリックします。
「データ」>「データ資産」を選択します。
リストから COMMERICIAL_CLIENT、 HOUSE_PRICE、 MORTGAGE、および MORTGAGE age_application の各データ資産を選択し、 「カタログに公開」をクリックします。
1. 「ターゲット」 カタログで、 「住宅ローン承認カタログ」を選択し、 「次へ」をクリックします。
2. 「タグ」にタグを入力し、 「+」 (正符号) をクリックしてから、 「次へ」をクリックします。
3. アセットを確認し、 「公開」をクリックします。
チェック・マークを付けたすべての資産をクリアしてから、リストから CREDIT_SCORE 資産の横にあるチェック・ボックスを選択し、 「カタログに公開」をクリックします。
1. 「ターゲット」 カタログで、 「住宅ローン承認カタログ」を選択し、 「次へ」をクリックします。
2. 「タグ」にというタグを入力し、 「+」 (正符号) をクリックします。
3. タグを入力し、2 番目のタグの 「+」 (正符号) をクリックします。
4. 「公開後にカタログに移動」のオプションを選択し、 「次へ」をクリックします。
5. アセットを確認し、 「公開」をクリックします。
「住宅ローン承認カタログ」で資産をフィルタリングします。
1. フィルタアイコン をクリックします。
2. 「タグ」 セクションを展開します。
3. 「トラステッド」を選択して、 「適用」をクリックします。
4. 5 つのデータ資産がカタログに追加されたことを確認します。
MORTGAGE_AGENT データ資産の名前を変更します。
1. MORTGAGE_AGENT 資産を開きます。
2. 名前の編集アイコンをクリックします。
3. 名前を次のように変更します。
```
MORTGAGE_APPLICANTS_TRUST
```
4. 「適用」をクリックします。