マルチクラウド・データ統合チュートリアル: データを統合する

このチュートリアルは、データ・ファブリック試用版の Multicloud Data Integration ユース・ケースを使用して、3 つの外部データ・ソースに保管されているデータを変換します。 目標は、 DataStage を使用してデータを変換し、その変換されたデータを単一の出力ファイルにデリバーすることです。

このチュートリアルでは、ゴールデン・バンクは、適格性を満たしていないローン申請者には融資できないという新しい規制を遵守する必要があると説明しています。 ゴールデン・バンクのデータ・エンジニアは現在、 DataStage を使用して、匿名化された住宅ローン申請データを住宅ローン申請者の個人情報と集約します。 貸し手は、この情報を使用して、住宅ローン申請を承認または拒否する必要があるかどうかを判断できます。 ユーザーのリーダーシップがいくつかのリスク・アナリストを追加しました。これらのアナリストは、各クレジット・スコア範囲の借り手に提示する推奨金利を毎日計算します。 この情報を、金融業者と共有するスプレッドシートに統合する必要があります。これには、各申請者のクレジット・スコア情報、申請者の債務合計、および金利ルックアップ・テーブルが含まれます。 次に、データをターゲット output .csv ファイルにロードします。

このチュートリアルでは、以下のタスクを実行します:

  1. 既存の DataStage フローを実行します。
  2. DataStage フローを以下のように編集します:
    1. PostgreSQL データを追加します。
    2. 別の Join ステージを追加します。
    3. Transformer ステージを追加します。
    4. MongoDB データを追加します。
    5. Lookup ステージを追加します。
  3. 順次ファイル・ノードを編集して、 DataStage フローを実行します。
  4. カタログを作成します。
  5. 出力を表示して、カタログに公開します。

このチュートリアルでヘルプが必要な場合は、 Cloud Pak for Data コミュニティー・ディスカッション・フォーラムで質問するか、または回答を見つけてください。

ヒント: このチュートリアルを完了するのに最適な方法として、1 つのブラウザー・タブで Cloud Pak for Data as a Service を開き、このチュートリアル・ページを別のブラウザー・タブで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。

チュートリアルをプレビューする

ビデオを見る このチュートリアルのステップをプレビューするには、このビデオをご覧ください。

このビデオでは、本書に記載されている手順に従う代わりの方法として、視覚方式を提供します。

前提条件

Cloud Pak for Data as a Service に登録し、Multicloud Data Integration ユース・ケースに必要なサービスをプロビジョンする必要があります。

Cloud Pak for Data as a Service には、以下のいずれかの方法で登録できます:

必要なサービスのプロビジョン

以下のステップに従って、必要なサービスを検証またはプロビジョンします。

ビデオを見る このタスクをプレビューするには、 01:09から始まるビデオをご覧ください。

  1. Cloud Pak for Data ナビゲーション・メニューから、 「サービス」>「サービス・インスタンス」を選択してください。
  2. 製品 ドロップダウン・ボックスを使用して、既存の DataStage サービス・インスタンスがあるかどうかを判別します。
  3. DataStage サービス・インスタンスを作成する必要がある場合は、 サービスの追加をクリックしてください。
  4. DataStageを選択してください。
  5. 「ライト」プランを選択します。
  6. 「作成」をクリックします。
  7. これらのステップを繰り返して、以下の追加サービスを確認またはプロビジョニングします:
    • Watson Knowledge Catalog
    • Cloud Object Storage

サンプル・プロジェクトを作成する

このチュートリアル用のサンプル・プロジェクトをまだ作成していない場合は、以下のステップを実行します:

ビデオを見る このタスクをプレビューするには、 01:44から始まるビデオをご覧ください。

  1. ギャラリーの Multicloud Data Integration ガイド付きチュートリアルのサンプル・プロジェクト にアクセスします。
  2. 「Create Project」をクリックします。
  3. プロジェクトを Cloud Object Storage インスタンスに関連付けるように求められたら、リストから Cloud Object Storage インスタンスを選択してください。
  4. 「作成」をクリックします。
  5. 新規プロジェクトの表示 をクリックして、プロジェクトと資産が正常に作成されたことを確認します。

ステップ 1: 既存の DataStage フローを実行する

以下のステップに従って、住宅ローン申請者と住宅ローン申請者のデータ・セットを結合する CSV ファイルをプロジェクト内に作成する DataStage フローを実行します。

ビデオを見る このタスクをプレビューするには、 02:24から始まるビデオをご覧ください。

  1. マルチクラウド・データ統合 プロジェクトから、 資産 タブをクリックして、プロジェクト内のすべての資産を表示します。
  2. 「フロー」 > 「 DataStage フロー」をクリックしてください。 DataStage フローが閲覧されない場合は、サービス・インスタンスをチェックし、 DataStage インスタンスが正常にプロビジョンされたことを確認してください。 必要なサービスのプロビジョンを参照してください。
  3. リスト内の マルチクラウド・データ統合 フローをクリックして開きます。 このフローは、 Db2 Warehouseに保管されている Mortgage Applicants 表と Mortgage Applications 表を結合し、カリフォルニア州のレコードに合わせてデータをフィルタリングし、出力として CSV 形式の順次ファイルを作成します。
  4. MORTGAGE_APPLICATIONS_1 ノードをダブルクリックして設定を表示します。
    1. 「プロパティー」セクションを展開します。
    2. スクロールダウンして、 データのプレビューをクリックしてください。 このデータ・セットには、住宅ローン・アプリケーションに関する情報収集が含まれています。
    3. 「閉じる」をクリックします。
  5. MORTGAGE_APPLICANTS_1 ノードをダブルクリックして設定を表示します。
    1. 「プロパティー」セクションを展開します。
    2. スクロールダウンして、 データのプレビューをクリックしてください。 このデータ・セットには、ローン申請者に関する情報が含まれています。
    3. 「閉じる」をクリックします。
  6. コンパイルをクリックし、次に 実行をクリックしてください。 あるいは、 実行 をクリックして、 DataStage フローをコンパイルして実行することもできます。
  7. ツールバーの ログ をクリックして、フローの進行状況を監視します。 実行が完了するまで約 1 分かかる場合があります。
  8. 実行が正常に完了したら、パンくずリストで マルチクラウド・データ統合 をクリックしてプロジェクトに戻ります。
  9. 資産 タブで、 「データ」>「データ資産」をクリックしtください。
  10. MORTGAGE_INTEREST_RATES.CSV ファイルを開きます。 このファイルには、結合キーの ID を使用して、住宅ローン申請者と住宅ローン申請データ・セットの両方の列が含まれていることが分かります。

ステップ 2: DataStage フローを編集する

以下のステップに従って、 DataStage フローを編集し、Join ノードの設定を変更します。

ビデオを見る このタスクをプレビューするには、 04:16から始まるビデオをご覧ください。

  1. 「フロー」 > 「 DataStage フロー」をクリックしてください。
  2. マルチクラウド・データ統合 フローを開きます。
  3. Join_on_ID ノードをダブルクリックして設定を編集します。
  4. 出力 タブをクリックし、 カラム セクションを展開して、結合されたデータ・セット内の列のリストを表示します。
  5. 「編集」をクリックします。
  6. EMAIL_ADDRESS 列名には、 キーを選択してください。
  7. 適用して戻る をクリックして、 Join_on_ID ノード設定に戻ります。
  8. 保存 をクリックして、 Join_on_ID ノード設定を保存します。

ステップ 3: PostgreSQL データを追加する

PostgreSQL データベースに保管されているクレジット・スコア・データを DataStage フローに追加するには、以下のステップを実行します。

ビデオを見る このタスクをプレビューするには、 04:57から始まるビデオをご覧ください。

  1. ノード・パレットで、 コネクター セクションを展開します。
  2. アセット・ブラウザー コネクターを MORTGAGE_APPLICANTS_1 ノードの横のキャンバスにドラッグします。
  3. 資産を見つけるには、 「接続」> 「データ・ファブリック試用 - Databases for PostgreSQL 」> 「BANKING」> 「CREDIT_SCORE」を選択してください。
  4. アイコンをクリックして、各応募者のクレジット・スコア・データをプレビューします。
  5. 「追加」をクリックします。

ステップ 4: 別の Join ステージを追加する

以下の手順に従って、別の Join ステージを追加して、フィルタリングされた住宅ローン申請/住宅ローン申請者の Join データと DataStage フロー内のクレジット・スコア・データを結合します。

ビデオを見る このタスクをプレビューするには、 05:28から始まるビデオをご覧ください。

  1. ノード・パレットで、 Stages セクションを展開します。
  2. Join ステージをキャンバスにドラッグし、 Filter_State_Code ノードと Sequential_file_1 ノードの間の Link_4 の上にノードをドロップします。
  3. CREDIT_SCORE_1 コネクターの上にカーソルを移動すると、矢印が表示されます。 矢印を Join ステージに接続します。
  4. CREDIT_SCORE_1 ノードをダブルクリックして設定を編集します。
    1. 出力 タブをクリックし、 カラム セクションを展開して、結合されたデータ・セット内の列のリストを表示します。
    2. 「編集」をクリックします。
    3. EMAIL_ADDRESS および CREDIT_SCORE 列名の場合は、 キーを選択してください。
    4. 適用して戻る をクリックして、 CREDIT_SCORE_1 ノード設定に戻ります。
    5. 保存 をクリックして、 CREDIT_SCORE_1 ノード設定を保存します。
  5. Join_1 ノードをダブルクリックして設定を編集します。
    1. プロパティー セクションを展開します。
    2. 「キーの追加」をクリックします。
      1. 再度 キーの追加 をクリックしてください。
      2. ドロップダウン・リストから EMAIL_ADDRESS を選択してください。
      3. 「適用」をクリックします。
    3. 適用して戻る をクリックして、 Join_1 ノード設定に戻ります。
    4. Join_1 ノード名を Join_on_emailに変更します。
    5. 保存 をクリックして、 Join_1 ノード設定を保存します。

ステップ 5: Transformer ステージを追加する

以下のステップを実行して、LOAN_AMOUNT 列とCREDITCARD_DEBT を合計して新しい列を作成する「トランスフォーマー」ステージを追加します。

ビデオを見る このタスクをプレビューするには、 06:42から始まるビデオをご覧ください。

  1. Transformer ステージをキャンバスにドラッグし、 Join_on_email ノードと Sequential_file_1 ノードの間の Link_5 の上にノードをドロップします。
  2. Transformer ノードをダブルクリックして設定を編集します。
    1. 「出力」 タブをクリックします。
      1. 列の追加をクリックしてください。
      2. 列のリストの下部までスクロールして、新しい列を表示します。
      3. 列に TOTAL_DEBTという名前を付けます。
      4. 行の出力仕様列の 鉛筆 アイコンをクリックしてください。
      5. 電卓 アイコンをクリックして、式ビルダーを開きます。
      6. LOAN_AMOUNTを検索し、列名をダブルクリックして式に追加します。
      7. 正符号 +を入力します。
      8. CREDITCARD_DEBTを検索し、列名をダブルクリックして式に追加します。
      9. 最後の式が Link_5.LOAN_AMOUNT + Link_5.CREDITCARD_DEBTであることを確認します。
      10. 適用して戻る をクリックして、 トランスフォーマー ページに戻ります。
    2. 保存して戻る をクリックして、キャンバスに戻ります。

ステップ 6: MongoDB データを追加する

以下のステップに従って、新しいデータ資産コネクターを MongoDB データベースに追加することで、金利をフローに組み込みます。

ビデオを見る このタスクをプレビューするには、 07:30から始まるビデオをご覧ください。

  1. ノード・パレットで、 コネクター セクションを展開します。
  2. アセット・ブラウザー コネクターを CREDIT_SCORE_1 ノードの横のキャンバスにドラッグします。
  3. 資産を見つけるには、 「接続」> 「データ・ファブリック試用 - Mongo DB」> 「DOCUMENT」> 「DS_INTEREST_RATES」を選択してください。
  4. アイコンをクリックして、各クレジット・スコア範囲の金利をプレビューします。 STARTING_LIMIT 列と ENDING_LIMIT 列の値を使用して、申請者のクレジット・スコアに基づいて適切な金利を検索します。 ID 列は不要であるため、次のステップでその列を削除します。
  5. 「追加」をクリックします。

ステップ 7: Lookup ステージを追加する

各応募者のクレジット・スコアに基づいて、適切な金利を検索する必要があります。 以下のステップに従って、Lookup ステージを追加し、各金利のクレジット・スコア限度の開始と終了の範囲を指定します。

ビデオを見る このタスクをプレビューするには、 08:19から始まるビデオをご覧ください。

  1. ルックアップ ステージをキャンバスにドラッグし、 Transformer_1 ノードと Sequential_file_1 ノードの間の Link_7 の上にノードをドロップします。
  2. DS_INTEREST_RATES_1 コネクターを Lookup_1 ステージに接続します。
  3. DS_INTEREST_RATES_1 ノードをダブルクリックして設定を編集します。
  4. 「出力」 タブをクリックします。
    1. カラム セクションを展開し、 編集をクリックしてください。
    2. _ID 列を選択してください。
    3. この不要な列を削除するには、 削除 アイコンをクリックしてください。
    4. 適用して戻る をクリックして、 DS_INTEREST_RATES_1 ノード設定に戻ります。
    5. 保存 をクリックして、 DS_INTEREST_RATES_1 ノードに対する変更を保存します。
  5. Lookup_1 ノードをダブルクリックして設定を編集します。
  6. プロパティー セクションを展開します。
    1. 列に範囲を適用 フィールドには、 CREDIT_SCOREを選択してください。 参照リンク演算子、および 範囲列 フィールドが表示されます。
    2. 参照リンクの場合は、 Link_9を選択してください。
    3. 最初の 演算子の場合は、 <を選択してください。
    4. 最初の 範囲列の場合は、 ENDING_LIMITを選択してください。
    5. 2 番目の 演算子の場合は、 >を選択してください。
    6. 2 番目の 範囲列の場合は、 STARTING_LIMITを選択してください。
  7. 「出力」 タブをクリックします。
    1. カラム セクションを展開し、 編集をクリックしてください。
    2. STARTING_LIMIT列と ENDING_LIMIT 列を選択してください。
    3. これらの不要な出力を削除するには、 削除 アイコンをクリックしてください。
    4. 適用して戻る をクリックして、 Lookup_1 ノード設定に戻ります。
    5. 保存 をクリックして、 Lookup_1 ノードに対する変更を保存します。

ステップ 8: 順次ファイル・ノードを編集し、 DataStage フローを実行する

以下のステップに従って順次ファイル・ノードを編集し、プロジェクト内にデータ資産として最終出力ファイルを作成してから、 DataStage フローをコンパイルして実行します。

ビデオを見る このタスクをプレビューするには、 09:39から始まるビデオをご覧ください。

  1. Sequential_file_1 ノードをダブルクリックして設定を編集します。
  2. 入力 タブをクリックしてください。
  3. データ資産の作成を選択してください。
  4. データ資産名の場合は、 MORTGAGE_APPLICANTS_INTEREST_RATES.CSVと入力します。
  5. プロパティー セクションを展開します。
  6. ターゲット・ファイルの場合は、 MORTGAGE_APPLICANTS_INTEREST_RATES.CSVと入力します。
  7. 「保存」をクリックします。
  8. 実行 をクリックします。これにより、 DataStage フローがコンパイルされ、実行されます。
  9. ツールバーの ログ をクリックして、フローの進行状況を監視します。

ステップ 9: カタログを作成する

ゴールデン・バンクの他のデータ・エンジニアやビジネス・アナリストは、住宅ローン金利にアクセスする必要があります。 Watson Knowledge Catalog ライト・プランでは、カタログは 1 つしか作成できません。 既にカタログがある場合は、このステップをスキップしてください。 それ以外の場合は、以下のステップに従ってカタログを作成し、金利データ・セットを公開できるカタログを作成します。

ビデオを見る このタスクをプレビューするには、 10:10から始まるビデオをご覧ください。

  1. Cloud Pak for Data ナビゲーション・メニューから、 「カタログ」>「すべてのカタログの表示」を選択してください。
  2. カタログの作成をクリックしてください。
  3. 名前の場合は、 Mortgage Approval Catalogと入力します。 先頭または末尾にスペースを付けずに、示されているとおりにカタログ名を入力します。 カタログを Cloud Object Storage インスタンスに関連付けるように求めるプロンプトが出されたら、リストから Cloud Object Storage を選択してください。
  4. その他のすべてのフィールドについては、デフォルトを受け入れます。
  5. 「作成」をクリックします。

ステップ 10: 出力を表示してカタログに公開する

以下のステップに従って、プロジェクト内の出力ファイルを表示し、それをカタログに公開します。

ビデオを見る このタスクをプレビューするには、 10:40から始まるビデオをご覧ください。

  1. Cloud Pak for Data ナビゲーション・メニューから、 「プロジェクト」>「すべてのプロジェクトの表示」を選択してください。
  2. マルチクラウド・データ統合 プロジェクトを開きます。
  3. 資産 タブで、 「データ」>「データ資産」をクリックしtください。
  4. MORTGAGE_APPLICANTS_INTEREST_RATES.CSV ファイルを開きます。
  5. 右にスクロールすると、各データ入力の最後に金利付きの統合データが表示されます。
  6. パンくずリストで マルチクラウド・データ統合 をクリックして、プロジェクトに戻ります。
  7. 資産 タブで、 MORTGAGE_APPLICANTS_INTEREST_RATES.CSV ファイルの行の末尾にある オーバーフロー メニューをクリックし、 カタログに公開を選択してください。
  8. リストから Mortgage Approval Catalog を選択し、 公開をクリックしてください。
  9. Cloud Pak for Data ナビゲーション・メニューから、 「カタログ」>「すべてのカタログの表示」を選択してください。
  10. Mortgage Approval Catalogを開きます。
  11. Mortgageを検索します。
  12. MORTGAGE_APPLICANTS_INTEREST_RATES.CSV ファイルを開きます。
  13. 資産 タブをクリックして、データを表示します。

詳細情報

親トピック: データ・ファブリックのチュートリアル