このチュートリアルでは、データ・ファブリック試用版のデータ統合ユース・ケースを使用して、3 つの外部データ・ソースに保管されているデータを仮想化します。 あなたの目標は、Data Virtualizationを使用して仮想テーブルを作成し、Db2 Warehouse、PostgreSQLデータベース、MongoDBデータベースの3つのデータソースにまたがる既存のデータから、仮想テーブルを結合することです。 チュートリアルの「データの統合」を完了した場合は、DataStageを使用して、このチュートリアルがData Virtualizationを使用して達成するのと同じタスクの多くを実行しました。
このチュートリアルでは、ゴールデン・バンクは、適格性を満たしていないローン申請者には融資できないという新しい規制を遵守する必要があると説明しています。 Data Virtualizationを使用して、異なるデータソースのデータをデータの移動なしに結合し、プロジェクト内の他のデータサイエンティストやデータエンジニアが仮想データを利用できるようにします。
以下のアニメーション・イメージは、このチュートリアルを終了するまでに実行する内容のクイック・プレビューを提供します。 外部データ・ソースに接続し、仮想表と仮想ビューを作成し、それらをプロジェクトに追加します。 イメージをクリックすると、より大きいイメージが表示されます。
チュートリアルをプレビューする
このチュートリアルでは、以下のタスクを実行します:
- 前提条件をセットアップします。
- タスク 1: Platform assets catalogを確認します。
- タスク 2: Platform assets catalogにデータ接続を追加します。
- タスク3:データData Virtualization化にデータソースを追加する。
- タスク 4: データ表の仮想化。
- タスク 5: 仮想表を結合して仮想結合ビューを作成する。
- タスク 6: API キーの生成
- タスク 7: プロジェクト内の仮想結合ビューにアクセスします。
- クリーンアップ (オプション)
このチュートリアルのステップをプレビューするには、このビデオをご覧ください。 ビデオに表示されるユーザー・インターフェースには若干の違いがある場合があります。 このビデオは、作成されたチュートリアルと一緒に使用することを目的としています。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
このチュートリアルを完了するためのヒント
このチュートリアルを正常に完了するためのヒントを以下に示します。
ビデオ・ピクチャー・イン・ピクチャーの使用
以下のアニメーション・イメージは、ビデオ・ピクチャー・イン・ピクチャーおよび目次機能の使用方法を示しています。
コミュニティーでのヘルプの利用
このチュートリアルでヘルプが必要な場合は、Cloud Pak for DataCommunityディスカッションフォーラムで質問したり、回答を見つけることができます。
ブラウザー・ウィンドウのセットアップ
このチュートリアルを最適に実行するには、1 つのブラウザー・ウィンドウで Cloud Pak for Data を開き、このチュートリアル・ページを別のブラウザー・ウィンドウで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。 2 つのブラウザー・ウィンドウを横並びに配置して、見やすくすることを検討してください。
前提条件のセットアップ
Cloud Pak for Data as a Service への登録
Cloud Pak for Data as a Service に登録し、データ統合ユース・ケースに必要なサービスをプロビジョンする必要があります。
- 既存の Cloud Pak for Data as a Service アカウントがある場合は、このチュートリアルを開始できます。 ライト・プランのアカウントを持っている場合、このチュートリアルを実行できるのはアカウントごとに 1 人のユーザーのみです。
- Cloud Pak for Data as a Service アカウントがまだない場合は、 データ・ファブリックのトライアルに登録してください。
Cloud Pak for Dataのデータ・ファブリックについては、以下のビデオをご覧ください。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
必要なプロビジョン済みサービスの確認
このタスクをプレビューするには、01:06から始まるビデオを見てください。
必要なサービスを検証またはプロビジョンするには、以下の手順を実行します。
ナビゲーションメニュー「」から、「サービス」>「サービスインスタンス」を選択する。
Productドロップダウンリストを使用して、既存のData Virtualizationサービスインスタンスが存在するかどうかを判断します。
Data Virtualizationサービスインスタンスを作成する必要がある場合は、[Add service]をクリックします。
Data Virtualizationを選択します。
「ライト」 プランを選択します。
「作成」 をクリックします。
Data Virtualizationサービスがプロビジョニングされるまで待ちます。
これらのステップを繰り返して、以下の追加サービスを確認またはプロビジョニングします:
- IBM Knowledge Catalog
- Cloud Object Storage
進捗状況を確認する
次のイメージは、プロビジョンされたサービス・インスタンスを示しています。
サンプル・プロジェクトを作成する
このタスクをプレビューするには、01:46から始まるビデオを見てください。
このチュートリアルのサンプル・プロジェクトが既にある場合は、 タスク 1にスキップします。 そうでない場合は、以下のステップに従ってください。
リソースハブのデータ統合サンプルプロジェクトにアクセスします。
「プロジェクトの作成」をクリックします。
プロジェクトを Cloud Object Storage インスタンスに関連付けるように求められたら、リストから Cloud Object Storage インスタンスを選択してください。
「作成」 をクリックします。
プロジェクトのインポートが完了するまで待ってから、 「新規プロジェクトの表示」 をクリックして、プロジェクトと資産が正常に作成されたことを確認します。
「資産」 タブをクリックして、接続と DataStage フローを表示します。
進捗状況を確認する
以下の画像は、サンプル・プロジェクトの「資産」タブを示しています。 これで、チュートリアルを開始する準備ができました。
タスク 1: Platform assets catalog の確認
このタスクをプレビューするには、02:42から始まるビデオをご覧ください。
外部データ・ソースへの接続は、プラットフォーム・レベルまたはサービス・レベルのいずれかで追加できます。 Platform assets catalogを使用してプラットフォームレベルで接続を追加すると、これらの接続をプロジェクト、カタログ、Data Virtualizationデータソースに簡単に含めることができます。 以下の手順に従って、 Platform assets catalogを確認します。
ナビゲーションメニュー「」から、「データ」>「プラットフォーム接続」を選択する。
既存の接続が表示されている場合は、既に Platform assets catalogがあるため、 タスク 2にスキップできます。 接続が表示されなくても、新しい接続を作成するオプションが表示されれば、タスク2に進むことができます。
'Platform assets catalogがない場合は、カタログの作成をクリックします。
リストから Cloud Object Storage を選択します。
「重複資産の処理」のデフォルト値を受け入れます。
「作成」 をクリックします。 「プラットフォーム接続」 ページが表示されます。
進捗状況を確認する
以下の図は、プラットフォーム接続を示しています。 ここから、接続を作成できます。 サンプル・プロジェクトには接続が含まれているため、サンプル・プロジェクトからこのカタログに外部データ・ソースの接続を追加できます。
タスク 2: Platform assets catalog
このタスクをプレビューするには、03:22から始まるビデオをご覧ください。
データ統合サンプル・プロジェクトには、外部データ・ソースへの接続がいくつか含まれています。 次に、Platform assets catalogに3つの接続を追加し、Data Virtualizationでこれらの接続を利用できるようにします。 以下のステップに従って、サンプル・プロジェクトから Platform assets catalogに接続を公開します。
ナビゲーションメニュー「」から「Projects」 > 「View all projects」を選択します。
「データ統合」 プロジェクトをクリックします。
「資産」タブをクリックします。
「アセット・タイプ」で、 「データ・アクセス」>「接続」をクリックします。
以下の接続資産を選択します。
- Data Fabric 評価版- Db2 Warehouse
- Data Fabric 試用版- MongoDB
- Data Fabric 試用版- Databases for PostgreSQL
「カタログに公開」をクリックします。
リストから 「プラットフォーム資産カタログ」 を選択し、 「次へ」をクリックします。
アセットを確認し、 「公開」をクリックします。
ナビゲーションメニュー「」から「データ」>「プラットフォーム接続」を選択し、カタログに公開されている3つの接続を確認する。
進捗状況を確認する
次の図は、3 つのプラットフォーム接続を示しています。 これで、データ・ソースを追加する準備ができました。
タスク3:データData Virtualization化にデータソースを追加する
このタスクをプレビューするには、04:05から始まるビデオを見てください。
これで、これらの外部データソースをPlatform assets catalogから Data Virtualizationに追加できます。 データ・ソースを追加するには、以下の手順を実行します。
ナビゲーションメニュー「」から、「データ」>「Data virtualization」を選択する。
注: 「ガバナンスを実施するためにプライマリー・カタログをセットアップします」という通知が表示された場合は、この通知を安全に閉じることができます。 プライマリー・カタログのセットアップはオプションです。データ・ソース・ページのテーブル・ビューで、接続の追加 > 既存のプラットフォー接続をムクリックする。
'Data Fabric 「Trial- Db2 Warehouse」を選択します。
追加 をクリックします。
これらのステップを繰り返して、 Data Fabric Trial-Mongo DB 接続と Data Fabric Trial- Databases for PostgreSQL 接続を追加します。
進捗状況を確認する
以下のイメージは、データ・ソースを示しています。 これで、これらの外部データ・ソースに保管されているデータから仮想表を作成する準備ができました。
タスク 4: データ・テーブルの仮想化
このタスクをプレビューするには、04:40から始まるビデオをご覧ください。
MORTGAGE_APPLICATION、 MORTGAGE アプリケーション、および CREDIT_SCORES の各テーブルを仮想化する必要があります。 後で、最初の 2 つの仮想表を 3 番目の表と結合して、新しい仮想結合ビューを作成できます。 データ・テーブルを仮想化するには、以下の手順を実行します。
サービスメニューから「仮想化」>「仮想化」をクリックする。
'必要に応じて、「 表 」ビューに変更し、表がロードされるまで待ちます。これには最大 30 秒かかる場合があります。 表の完全なリストを表示するには、 「最新表示」 をクリックする必要がある場合があります。 「使用可能な表」が表示されたら、すべての表がロードされています。 テーブルの数は変わるかもしれない。
'「テーブル」 タブで、以下の基準に基づいてテーブルをフィルタリングします。
コネクター: IBM Db2 Warehouse および PostgreSQL
データベース: Data Fabric Trial- Db2 Warehouse および Data Fabric Trial- Databases for PostgreSQL
スキーマ: BANKING
仮想化する MORTGAGE_APPLICATION表、 MORTGAGE age_app表、および CREDIT_SCORE 表を選択します。 表名の上にカーソルを移動すると、フルネームが表示され、正しい表名を選択していることが確認できます。
「カートに追加」をクリックします。
選択内容を表示するには、 「カートの表示」 をクリックします。 ここから、表とスキーマの名前を編集したり、カートから選択を削除したりすることができます。
現時点では、 「プロジェクトに割り当て」の横のチェック・ボックスをクリアします。 このアクションにより、仮想表が 「仮想化データ」 ページで使用可能になります。
仮想化をクリックしてください。
「確認」 をクリックして、表の仮想化を開始します。
仮想化が完了したら、 「仮想化データに移動」 をクリックして、新しく作成した表を表示します。
進捗状況を確認する
以下の画像は、 「仮想化データ」 ページを示しています。 これで、これらの仮想表を結合して仮想表を作成する準備ができました。
タスク 5: 仮想表の結合による仮想結合ビューの作成
MORTGAGE と MORTGAGE AGE_APPLICATION の仮想表を結合することにより、仮想結合ビューを作成します。 次に、結果の仮想オブジェクトを CREDIT_SCORE 仮想表に結合して、2 番目の仮想結合ビューを作成します。
仮想結合ビュー 1: MORTGAGE と MORTGAGE_APPLICATION の仮想表を結合します
このタスクをプレビューするには、05:59から始まるビデオをご覧ください。
最初の仮想結合ビューを作成するには、以下の手順を実行します。
「仮想化データ」 ページで、仮想化する MORTGAGE_APPLICATION 表と MORTGAGE age_申請者 表を選択します。
スキーマ名をメモします。 この名前は、後で SQL 照会を実行するときに必要になります。
「結合」をクリックします。
MORTGAGE_APPLICATIONテーブルのカラム・リストで、IDカラムとMORTGAGE_APPLICANTテーブルのIDカラムをドラッグして接続する。
'両方の表のすべての列を選択します。
「プレビュー」 をクリックして、結合された表のプレビューを表示します。
プレビュー・ウィンドウを閉じます。
「SQL エディターで開く」をクリックし、結合キャンバスに戻ることができないという通知が表示されたら、 「続行」 をクリックします。 SQL エディターを使用すると、データ・セットに対して照会を実行できます。 この場合、カリフォルニアの応募者をフィルタリングするときに、データ・セットに含まれるレコードをプレビューする必要があります。
スキーマをコピーしてから、既存の照会を削除します。 次の SQL ステートメントにスキーマを挿入する必要があります。
新規照会の以下の SELECT ステートメントをコピーして貼り付けます。
<your schema>
を、前にメモしたスキーマ名に置き換えます。SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
クエリは次のようになります。SELECT * FROMDV_IBMID_663002GN1Q.MORTGAGE_APPLICANTWHERE STATE_CODE LIKE 'CA'
'「すべて実行」をクリックします。
照会が完了したら、 「履歴」 タブで照会を選択します。 「結果」 タブで、テーブルがカリフォルニア州の応募者のみにフィルタリングされていることを確認できます。
「戻る」 をクリックして、SQL エディターを閉じます。
カリフォルニアの応募者でフィルタリングされたデータ・セットをプレビューしたので、このフィルター基準を仮想結合ビューに追加します。 MORTGAGE_申込者 表で、フィルター基準に関する以下のステートメントをコピー・アンド・ペーストします。
<your schema>
を、前にメモしたスキーマ名に置き換えます。"<your-schema>"."MORTGAGE_APPLICANT"."STATE_CODE"='CA'
あなたのフィルター基準は、"DV_IBMID_663002GN1Q". "MORTGAGE_APPLICANT". "STATE_CODE" ='CA'"に似ています
次へ をクリックします。
列名を編集して、両方の表で同じ名前の列を区別することができます。 この場合は、デフォルトの列名のままにして、 「次へ」をクリックします。
「割り当ておよびレビュー」 ページで、 「ビュー名」に
APPLICANTS_APPLICATIONS_JOINED
と入力します。現時点では、 「プロジェクトに割り当て」 オプションをクリアします。 後で仮想オブジェクトを作成し、それをデータ統合プロジェクトに割り当てます。
「ビューの作成」をクリックします。
仮想化が完了したら、 「仮想化データに移動」 をクリックして、新しく作成した結合ビューを表示します。
進捗状況を確認する
以下の画像は、 「仮想化データ」 ページを示しています。 これで、2 番目の仮想結合ビューを作成する準備ができました。
仮想結合ビュー 2: APPLICANTS_APPLICATIONS_JOIN および CREDIT_SCORE 仮想表を結合する
このタスクをプレビューするには、07:47から始まるビデオをご覧ください。
2 番目の仮想結合ビューを作成するには、以下の手順を実行します。
「仮想化データ (Virtualized data)」 ページで、仮想化する APPLICANTS_APPLICATIONS_JOINED テーブルと CREDIT_SCORE テーブルを選択します。
「結合」をクリックします。
APPLICANTS_APPLICATIONS_JOINED 表の列のリストで、 EMAIL_ADDRESS 列を CREDIT_SCORE 表の EMAIL_ADDRESS 列にドラッグして接続します。
「プレビュー」 をクリックして、結合された表のプレビューを表示します。
プレビュー・ウィンドウを閉じます。
次へ をクリックします。
デフォルトの列名を受け入れて、 「次へ」をクリックします。
「割り当ておよびレビュー」 ページで、 「ビュー名」に
APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
と入力します。今回は、 「プロジェクトへの割り当て」 を選択したままにして、 「データ統合」 プロジェクトを選択します。
「ビューの作成」をクリックします。
仮想化が完了したら、 「仮想化データに移動」 をクリックして、新しく作成した結合ビューを表示します。
進捗状況を確認する
以下の画像は、 「仮想化データ」 ページを示しています。 これで、プロジェクト内の仮想データを処理する準備ができました。
タスク 6: API キーの生成
このタスクをプレビューするには、08:27から始まるビデオをご覧ください。
仮想化された資産を表示するには、API キーの形式で個人の資格情報を指定する必要があります。 保存された API キーがまだない場合は、以下の手順に従って API キーを作成します。
IBM CloudコンソールのAPI keys ページにアクセスします。 プロンプトが出されたらログインします。
「API キー」 ページで、 「 IBM Cloud API キーの作成」をクリックします。 既存の API キーがある場合は、このボタンに 「作成」というラベルを付けることができます。
名前および説明を入力します。
「作成」 をクリックします。
API キーをコピーします 。
将来使用するために API キーをダウンロードします。
進捗状況を確認する
以下のイメージは、「API キー」ページを示しています。 これで、プロジェクト内の仮想表を表示する準備ができました。
タスク 7: プロジェクト内の仮想結合ビューへのアクセス
このタスクをプレビューするには、09:01から始まるビデオをご覧ください。
仮想テーブルがData Virtualization化への接続とともにプロジェクトに追加されました。 以下のステップに従ってプロジェクトを開き、仮想データと、仮想データにアクセスするために必要な接続情報を確認します。
Cloud Pak for Dataにスイッチバックします。 ナビゲーションメニュー「」から、「プロジェクト」 > 「すべてのプロジェクトを表示」を選択します。
「データ統合」 プロジェクトを開きます。
「資産」タブをクリックします。
任意の仮想化データを開きます。 例えば、スキーマ名で始まり、その後に APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED が続くデータ資産をクリックして、そのデータ資産を表示します。
データ資産にアクセスするための資格情報を指定します。
「認証方式」で、 「API キー」を選択します。
APIキーを貼り付けます。
'「接続」 をクリックします。
データ資産をスクロールして、カリフォルニア州のすべての応募者を表示します。
進行状況を確認する
以下のイメージは、プロジェクト内の仮想データを示しています。 これで、仮想データを分析する準備ができました。
ゴールデンバンクのデータ・エンジニアとして、あなたはData Virtualizationを利用して、異なるデータ・ソース、異なるタイプのデータを組み合わせました。 SQL 構文を使用し、データを移動せずにアクセス・データと結合データを使用しました。
クリーンアップ (オプション)
データ統合ユース・ケースのチュートリアルを再利用する場合は、以下の成果物を削除します。
成果物 | 削除方法 |
---|---|
Platform assets catalog 内の接続 | カタログからアセットを削除する |
仮想化データ | 仮想化データ ・ページで、テーブルのオーバーフロー・メニュー「」にアクセスし、「削除」を選択する。 |
データ・ソース | データData virtualization ソース・ページで、接続の削除アイコン「」をクリックする。 |
データ統合サンプル・プロジェクト | プロジェクトの削除 |
次のステップ
その他のチュートリアルをお試しください。
別の データ・ファブリックのユース・ケースに登録します。
もっと見る
親トピック: ユース・ケースのチュートリアル