0 / 0
資料の 英語版 に戻る
データ統合チュートリアル: 外部データの仮想化

データ統合チュートリアル: 外部データの仮想化

このチュートリアルでは、データ・ファブリック試用版のデータ統合ユース・ケースを使用して、3 つの外部データ・ソースに保管されているデータを仮想化します。 目標は、 Watson Query を使用して仮想表を作成し、3 つのデータ・ソース ( Db2 Warehouse、 PostgreSQL データベース、および MongoDB データベース) に存在する既存のデータから仮想表を結合することです。 「データの統合 (Integrate data)」 チュートリアルを完了した場合は、 DataStage を使用して、このチュートリアルで Watson Queryを使用した場合と同じタスクを多く実行しました。

クイック・スタート: このチュートリアル用のサンプル・プロジェクトをまだ作成していない場合は、リソース・ハブの データ統合サンプル・プロジェクト にアクセスします。

このチュートリアルでは、ゴールデン・バンクは、適格性を満たしていないローン申請者には融資できないという新しい規制を遵守する必要があると説明しています。 Watson Query を使用して、データを移動せずにさまざまなデータ・ソースからのデータを結合し、プロジェクト内の他のデータ・サイエンティストやデータ・エンジニアが仮想データを使用できるようにします。

以下のアニメーション・イメージは、このチュートリアルを終了するまでに実行する内容のクイック・プレビューを提供します。 外部データ・ソースに接続し、仮想表と仮想ビューを作成し、それらをプロジェクトに追加します。 イメージをクリックすると、より大きいイメージが表示されます。

アニメーション化されたイメージ

チュートリアルをプレビューする

このチュートリアルでは、以下のタスクを実行します:

ビデオを見る このチュートリアルのステップをプレビューするには、このビデオをご覧ください。 ビデオに表示されるユーザー・インターフェースには若干の違いがある場合があります。 このビデオは、作成されたチュートリアルと一緒に使用することを目的としています。

このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。





このチュートリアルを完了するためのヒント
このチュートリアルを正常に完了するためのヒントを以下に示します。

ビデオ・ピクチャー・イン・ピクチャーの使用

ヒント: ビデオを開始してから、チュートリアルをスクロールすると、ビデオはピクチャー・イン・ピクチャー・モードに移行します。 ピクチャー・イン・ピクチャーで最良のエクスペリエンスを得るには、ビデオの目次を閉じます。 ピクチャー・イン・ピクチャー・モードを使用して、このチュートリアルのタスクを完了する際にビデオをフォローすることができます。 後続の各タスクのタイム・スタンプをクリックします。

以下のアニメーション・イメージは、ビデオ・ピクチャー・イン・ピクチャーおよび目次機能の使用方法を示しています。

ピクト・イン・ピクチャーおよび章の使用法

コミュニティーでのヘルプの利用

このチュートリアルでヘルプが必要な場合は、 Cloud Pak for Data コミュニティー・ディスカッション・フォーラムで質問したり、回答を見つけたりすることができます。

ブラウザー・ウィンドウのセットアップ

このチュートリアルを最適に実行するには、1 つのブラウザー・ウィンドウで Cloud Pak for Data を開き、このチュートリアル・ページを別のブラウザー・ウィンドウで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。 2 つのブラウザー・ウィンドウを横並びに配置して、見やすくすることを検討してください。

横並びのチュートリアルと UI

ヒント: ユーザー・インターフェースでこのチュートリアルを実行しているときにガイド・ツアーが表示された場合は、 「後で行うこともあります」をクリックします。



前提条件のセットアップ

Cloud Pak for Data as a Service への登録

Cloud Pak for Data as a Service に登録し、データ統合ユース・ケースに必要なサービスをプロビジョンする必要があります。

  • 既存の Cloud Pak for Data as a Service アカウントがある場合は、このチュートリアルを開始できます。 ライト・プランのアカウントを持っている場合、このチュートリアルを実行できるのはアカウントごとに 1 人のユーザーのみです。
  • Cloud Pak for Data as a Service アカウントがまだない場合は、 データ・ファブリックのトライアルに登録してください。

ビデオ・アイコン 以下のビデオを視聴して、 Cloud Pak for Dataのデータ・ファブリックについて確認してください。

このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。

必要なプロビジョン済みサービスの確認

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 01:06から始まるビデオをご覧ください。

必要なサービスを検証またはプロビジョンするには、以下の手順を実行します。

  1. Cloud Pak for Data のナビゲーション・メニュー ナビゲーション・メニューから、 「サービス」>「サービス・インスタンス」を選択します。

  2. 「製品」 ドロップダウン・リストを使用して、既存の Watson Query サービス・インスタンスが存在するかどうかを判別します。

  3. Watson Query サービス・インスタンスを作成する必要がある場合は、 「サービスの追加」をクリックします。

    1. Watson 照会を選択してください。

    2. 「ライト」 プランを選択します。

    3. 「作成」 をクリックします。

  4. Watson Query サービスがプロビジョンされるまでお待ちください。完了するまでに数分かかる場合があります。

  5. これらのステップを繰り返して、以下の追加サービスを確認またはプロビジョニングします:

    • IBM Knowledge Catalog
    • Cloud Object Storage

チェックポイント・アイコン 進行状況を確認してください

次のイメージは、プロビジョンされたサービス・インスタンスを示しています。

プロビジョンされたサービス

サンプル・プロジェクトを作成する

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 01:46から始まるビデオをご覧ください。

このチュートリアルのサンプル・プロジェクトが既にある場合は、 タスク 1にスキップします。 そうでない場合は、以下のステップに従ってください。

  1. リソース・ハブの データ統合サンプル・プロジェクト にアクセスします。

  2. 「プロジェクトの作成」をクリックします。

  3. プロジェクトを Cloud Object Storage インスタンスに関連付けるように求められたら、リストから Cloud Object Storage インスタンスを選択してください。

  4. 「作成」 をクリックします。

  5. プロジェクトのインポートが完了するまで待ってから、 「新規プロジェクトの表示」 をクリックして、プロジェクトと資産が正常に作成されたことを確認します。

  6. 「資産」 タブをクリックして、接続と DataStage フローを表示します。

注: このユース・ケースに含まれているチュートリアルを示すガイド・ツアーが表示される場合があります。 ガイド・ツアーのリンクから、これらのチュートリアルの説明が開きます。

チェックポイント・アイコン 進行状況を確認してください

以下の画像は、サンプル・プロジェクトの「資産」タブを示しています。 これで、チュートリアルを開始する準備ができました。

サンプル・プロジェクト




タスク 1: Platform assets catalog の確認

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 02:42から始まるビデオをご覧ください。

外部データ・ソースへの接続は、プラットフォーム・レベルまたはサービス・レベルのいずれかで追加できます。 Platform assets catalogを使用してプラットフォーム・レベルで接続を追加すると、それらの接続をプロジェクト、カタログ、および Watson Query データ・ソースに簡単に組み込むことができます。 以下の手順に従って、 Platform assets catalogを確認します。

  1. Cloud Pak for Data のナビゲーション・メニュー ナビゲーション・メニューから、 「データ」>「プラットフォーム接続」を選択します。

  2. 既存の接続が表示されている場合は、既に Platform assets catalogがあるため、 タスク 2にスキップできます。 接続が表示されないが、新規接続を作成するオプションが表示される場合は、 タスク 2にスキップできます。
    「新規接続」ボタン

  3. Platform assets catalogがない場合は、 「カタログの作成」をクリックします。 プラットフォーム資産カタログの作成

  4. リストから Cloud Object Storage を選択します。

  5. 「重複資産の処理」のデフォルト値を受け入れます。

  6. 「作成」 をクリックします。 「プラットフォーム接続」 ページが表示されます。

チェックポイント・アイコン 進行状況を確認してください

以下の図は、プラットフォーム接続を示しています。 ここから、接続を作成できます。 サンプル・プロジェクトには接続が含まれているため、サンプル・プロジェクトからこのカタログに外部データ・ソースの接続を追加できます。

Platform assets catalog




タスク 2: Platform assets catalog

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 03:22から始まるビデオをご覧ください。

データ統合サンプル・プロジェクトには、外部データ・ソースへの接続がいくつか含まれています。 次に、 Platform assets catalogに 3 つの接続を追加し、それらの接続を Watson Queryで使用できるようにします。 以下のステップに従って、サンプル・プロジェクトから Platform assets catalogに接続を公開します。

  1. Cloud Pak for Data のナビゲーション・メニュー ナビゲーション・メニューから、 「プロジェクト」>「すべてのプロジェクトを表示」を選択します。

  2. 「データ統合」 プロジェクトをクリックします。

  3. 「資産」タブをクリックします。

  4. 「アセット・タイプ」で、 「データ・アクセス」>「接続」をクリックします。

  5. 以下の接続資産を選択します。

    • Data Fabric 評価版- Db2 Warehouse
    • Data Fabric 試用版- MongoDB
    • Data Fabric 試用版- Databases for PostgreSQL
  6. 「カタログに公開」をクリックします。

    1. リストから 「プラットフォーム資産カタログ」 を選択し、 「次へ」をクリックします。

    2. アセットを確認し、 「公開」をクリックします。

  7. Cloud Pak for Data のナビゲーション・メニュー ナビゲーション・メニューで、 「データ」>「プラットフォーム接続」 を選択して、カタログに公開されている 3 つの接続を確認します。

チェックポイント・アイコン 進行状況を確認してください

次の図は、3 つのプラットフォーム接続を示しています。 これで、データ・ソースを追加する準備ができました。

3 つのプラットフォーム接続




タスク 3: Watson Query へのデータ・ソースの追加

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 04:05から始まるビデオをご覧ください。

これらの外部データ・ソースを Platform assets catalog から Watson Queryに追加できるようになりました。 データ・ソースを追加するには、以下の手順を実行します。

  1. Cloud Pak for Data ナビゲーション・メニュー ナビゲーション・メニューから、 「データ」> Data virtualizationを選択します。

    注: 「ガバナンスを実施するためにプライマリー・カタログをセットアップします」という通知が表示された場合は、この通知を安全に閉じることができます。 プライマリー・カタログのセットアップはオプションです。
  2. 「データ・ソース」 ページの 「テーブル・ビュー」で、 「接続の追加」>「既存のプラットフォーム接続」をクリックします。
    既存の接続の追加

  3. Data Fabric 「Trial- Db2 Warehouse」を選択します。

  4. 追加 をクリックします。

  5. これらのステップを繰り返して、 Data Fabric Trial-Mongo DB 接続と Data Fabric Trial- Databases for PostgreSQL 接続を追加します。

チェックポイント・アイコン 進行状況を確認してください

以下のイメージは、データ・ソースを示しています。 これで、これらの外部データ・ソースに保管されているデータから仮想表を作成する準備ができました。

データ・ソース




タスク 4: データ・テーブルの仮想化

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 04:40から始まるビデオをご覧ください。

MORTGAGE_APPLICATIONMORTGAGE アプリケーション、および CREDIT_SCORES の各テーブルを仮想化する必要があります。 後で、最初の 2 つの仮想表を 3 番目の表と結合して、新しい仮想結合ビューを作成できます。 データ・テーブルを仮想化するには、以下の手順を実行します。

  1. サービス・メニューから、 「仮想化」>「仮想化」をクリックします。
    サービス・メニューでの仮想化

  2. 必要に応じて、「 」ビューに変更し、表がロードされるまで待ちます。これには最大 30 秒かかる場合があります。 表の完全なリストを表示するには、 「最新表示」 をクリックする必要がある場合があります。 「使用可能な表」が表示されたら、すべての表がロードされています。 表の数は異なる場合があります。
    使用可能な表のリストの仮想化

  3. 「テーブル」 タブで、以下の基準に基づいてテーブルをフィルタリングします。

    1. コネクター: IBM Db2 Warehouse および PostgreSQL

    2. データベース: Data Fabric Trial- Db2 Warehouse および Data Fabric Trial- Databases for PostgreSQL

    3. スキーマ: BANKING

  4. 仮想化する MORTGAGE_APPLICATION表、 MORTGAGE age_app表、および CREDIT_SCORE 表を選択します。 表名の上にカーソルを移動すると、フルネームが表示され、正しい表名を選択していることが確認できます。

  5. 「カートに追加」をクリックします。

  6. 選択内容を表示するには、 「カートの表示」 をクリックします。 ここから、表とスキーマの名前を編集したり、カートから選択を削除したりすることができます。

  7. 現時点では、 「プロジェクトに割り当て」の横のチェック・ボックスをクリアします。 このアクションにより、仮想表が 「仮想化データ」 ページで使用可能になります。

  8. 仮想化をクリックしてください。

  9. 「確認」 をクリックして、表の仮想化を開始します。

  10. 仮想化が完了したら、 「仮想化データに移動」 をクリックして、新しく作成した表を表示します。

チェックポイント・アイコン 進行状況を確認してください

以下の画像は、 「仮想化データ」 ページを示しています。 これで、これらの仮想表を結合して仮想表を作成する準備ができました。

仮想化データ




タスク 5: 仮想表の結合による仮想結合ビューの作成

MORTGAGE と MORTGAGE AGE_APPLICATION の仮想表を結合することにより、仮想結合ビューを作成します。 次に、結果の仮想オブジェクトを CREDIT_SCORE 仮想表に結合して、2 番目の仮想結合ビューを作成します。

仮想結合ビュー 1: MORTGAGE と MORTGAGE_APPLICATION の仮想表を結合します

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 05:59から始まるビデオをご覧ください。

最初の仮想結合ビューを作成するには、以下の手順を実行します。

  1. 「仮想化データ」 ページで、仮想化する MORTGAGE_APPLICATION 表と MORTGAGE age_申請者 表を選択します。

  2. スキーマ名をメモします。 この名前は、後で SQL 照会を実行するときに必要になります。

  3. 「結合」をクリックします。

  4. モーゲージ・アプリケーション テーブルの列のリストで、 ID 列を 抵当申請者 テーブルの ID 列にドラッグして接続します。
    キーの ID を使用して仮想オブジェクトを結合

  5. 両方の表のすべての列を選択します。

  6. 「プレビュー」 をクリックして、結合された表のプレビューを表示します。

  7. プレビュー・ウィンドウを閉じます。

  8. 「SQL エディターで開く」をクリックし、結合キャンバスに戻ることができないという通知が表示されたら、 「続行」 をクリックします。 SQL エディターを使用すると、データ・セットに対して照会を実行できます。 この場合、カリフォルニアの応募者をフィルタリングするときに、データ・セットに含まれるレコードをプレビューする必要があります。

    SQL エディターのオープン

    1. スキーマをコピーしてから、既存の照会を削除します。 次の SQL ステートメントにスキーマを挿入する必要があります。

    2. 新規照会の以下の SELECT ステートメントをコピーして貼り付けます。 <your schema> を、前にメモしたスキーマ名に置き換えます。

      SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
      

      照会は SELECT * FROM DV_IBMID_663002GN1Q.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
      SELECT ステートメント

    3. 「すべて実行」をクリックします。

    4. 照会が完了したら、 「履歴」 タブで照会を選択します。 「結果」 タブで、テーブルがカリフォルニア州の応募者のみにフィルタリングされていることを確認できます。

    5. 「戻る」 をクリックして、SQL エディターを閉じます。

  9. カリフォルニアの応募者でフィルタリングされたデータ・セットをプレビューしたので、このフィルター基準を仮想結合ビューに追加します。 MORTGAGE_申込者 表で、フィルター基準に関する以下のステートメントをコピー・アンド・ペーストします。 <your schema> を、前にメモしたスキーマ名に置き換えます。

    "<your-schema>"."MORTGAGE_APPLICANT"."STATE_CODE"='CA'
    

    フィルター基準は、 "DV_IBMID_663002GN1Q". "MORTGAGE age_er". "STATE_CODE" = 'CA' のようになります。

    フィルター基準

  10. 次へ をクリックします。

  11. 列名を編集して、両方の表で同じ名前の列を区別することができます。 この場合は、デフォルトの列名のままにして、 「次へ」をクリックします。

  12. 「割り当ておよびレビュー」 ページで、 「ビュー名」APPLICANTS_APPLICATIONS_JOINEDと入力します。

  13. 現時点では、 「プロジェクトに割り当て」 オプションをクリアします。 後で仮想オブジェクトを作成し、それをデータ統合プロジェクトに割り当てます。

  14. 「ビューの作成」をクリックします。

  15. 仮想化が完了したら、 「仮想化データに移動」 をクリックして、新しく作成した結合ビューを表示します。

チェックポイント・アイコン 進行状況を確認してください

以下の画像は、 「仮想化データ」 ページを示しています。 これで、2 番目の仮想結合ビューを作成する準備ができました。

仮想化データ

仮想結合ビュー 2: APPLICANTS_APPLICATIONS_JOIN および CREDIT_SCORE 仮想表を結合する

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 07:47から始まるビデオをご覧ください。

2 番目の仮想結合ビューを作成するには、以下の手順を実行します。

  1. 「仮想化データ (Virtualized data)」 ページで、仮想化する APPLICANTS_APPLICATIONS_JOINED テーブルと CREDIT_SCORE テーブルを選択します。

  2. 「結合」をクリックします。

  3. APPLICANTS_APPLICATIONS_JOINED 表の列のリストで、 EMAIL_ADDRESS 列を CREDIT_SCORE 表の EMAIL_ADDRESS 列にドラッグして接続します。

  4. 「プレビュー」 をクリックして、結合された表のプレビューを表示します。

  5. プレビュー・ウィンドウを閉じます。

  6. 次へ をクリックします。

  7. デフォルトの列名を受け入れて、 「次へ」をクリックします。

  8. 「割り当ておよびレビュー」 ページで、 「ビュー名」APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINEDと入力します。

  9. 今回は、 「プロジェクトへの割り当て」 を選択したままにして、 「データ統合」 プロジェクトを選択します。

  10. 「ビューの作成」をクリックします。

  11. 仮想化が完了したら、 「仮想化データに移動」 をクリックして、新しく作成した結合ビューを表示します。

チェックポイント・アイコン 進行状況を確認してください

以下の画像は、 「仮想化データ」 ページを示しています。 これで、プロジェクト内の仮想データを処理する準備ができました。

仮想化データ




タスク 6: API キーの生成

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 08:27から始まるビデオをご覧ください。

仮想化された資産を表示するには、API キーの形式で個人の資格情報を指定する必要があります。 保存された API キーがまだない場合は、以下の手順に従って API キーを作成します。

  1. IBM Cloud コンソールの 「API キー」ページ にアクセスします。 プロンプトが出されたらログインします。

  2. 「API キー」 ページで、 「 IBM Cloud API キーの作成」をクリックします。 既存の API キーがある場合は、このボタンに 「作成」というラベルを付けることができます。

  3. 名前および説明を入力します。

  4. 「作成」 をクリックします。

  5. API キーをコピーします 。

  6. 将来使用するために API キーをダウンロードします。

チェックポイント・アイコン 進行状況を確認してください

以下のイメージは、「API キー」ページを示しています。 これで、プロジェクト内の仮想表を表示する準備ができました。

「API キー」ページ




タスク 7: プロジェクト内の仮想結合ビューへのアクセス

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 09:01から始まるビデオをご覧ください。

仮想表が Watson Queryへの接続とともにプロジェクトに追加されました。 以下のステップに従ってプロジェクトを開き、仮想データと、仮想データにアクセスするために必要な接続情報を確認します。

  1. Cloud Pak for Dataにスイッチバックします。 ナビゲーション・メニュー ナビゲーション・メニューから、 「プロジェクト」>「すべてのプロジェクトを表示」を選択します。

  2. 「データ統合」 プロジェクトを開きます。

  3. 「資産」タブをクリックします。

  4. 任意の仮想化データを開きます。 例えば、スキーマ名で始まり、その後に APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED が続くデータ資産をクリックして、そのデータ資産を表示します。

  5. データ資産にアクセスするための資格情報を指定します。

  6. 「認証方式」で、 「API キー」を選択します。

  7. API キーを貼り付けます。
    API キーの貼り付け

  8. 「接続」 をクリックします。

  9. データ資産をスクロールして、カリフォルニア州のすべての応募者を表示します。

チェックポイント・アイコン 進行状況を確認してください

以下のイメージは、プロジェクト内の仮想データを示しています。 これで、仮想データを分析する準備ができました。

仮想表の表示



ゴールデン・バンクのデータ・エンジニアは、 Watson Query を使用して、さまざまなデータ・ソースからのデータとさまざまなタイプのデータを結合しました。 SQL 構文を使用し、データを移動せずにアクセス・データと結合データを使用しました。


クリーンアップ (オプション)

データ統合ユース・ケースのチュートリアルを再利用する場合は、以下の成果物を削除します。

成果物 削除方法
Platform assets catalog 内の接続 カタログからの資産の削除
仮想化データ 「データ」> Data virtualizationにナビゲートします。 「仮想化データ」 ページで、表の 「オーバーフロー」 メニュー オーバーフロー・メニュー にアクセスし、 「削除」を選択します。
データ・ソース 「データ」> Data virtualizationにナビゲートします。 「データ・ソース」 ページで、接続の 「削除」 アイコン 削除 をクリックします。
データ統合サンプル・プロジェクト プロジェクトの削除

次のステップ

もっと見る

親トピック: ユース・ケースのチュートリアル

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細