0 / 0

クイック・スタート: DataStage を使用して、エンタープライズ・データを Snowflake にロードします。

最終更新: 2024年11月28日
クイック・スタート: DataStage を使用して、エンタープライズ・データを Snowflake にロードします。

DataStage は、ユーザーが信頼できるデータ・パイプラインを構築し、分散ランドスケープ全体でデータを調整し、クラウド・ソースとデータウェアハウスの間でデータを移動および変換するのに役立つ、最新化されたデータ統合ツールです。 多くのコネクターの中から、Snowflake にデータを書き込み、読み取り、ロードし、ETL ジョブ設計に統合するための Snowflake コネクターを提供します。 このクイック・スタート・チュートリアルでは、 DataStageを使用してエンタープライズ・データを Snowflake に迅速かつ効率的にロードする方法を説明します。

必須のサービス
DataStage

このチュートリアルでは、以下のタスクを実行します:

このチュートリアルを完了するための所要時間は約 20 分です。

チュートリアルをプレビューする

ビデオを見る このビデオを見て、単純な DataStage フローを作成する方法を確認してください。

このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。




このチュートリアルを完了するためのヒント
このチュートリアルを正常に完了するためのヒントを以下に示します。

ビデオ・ピクチャー・イン・ピクチャーの使用

ヒント: ビデオを開始してから、チュートリアルをスクロールすると、ビデオはピクチャー・イン・ピクチャー・モードに移行します。 ピクチャー・イン・ピクチャーを最大限に活用するには、ビデオの目次を閉じます。 ピクチャー・イン・ピクチャー・モードを使用して、このチュートリアルのタスクを完了する際にビデオをフォローすることができます。 後続の各タスクのタイム・スタンプをクリックします。

以下のアニメーション・イメージは、ビデオ・ピクチャー・イン・ピクチャーおよび目次機能の使用方法を示しています。

ピクト・イン・ピクチャーおよび章の使用法

コミュニティーでのヘルプの利用

このチュートリアルでヘルプが必要な場合は、Cloud Pak for DataCommunityディスカッションフォーラムで質問したり、回答を見つけることができます。

ブラウザー・ウィンドウのセットアップ

このチュートリアルを最適に実行するには、1 つのブラウザー・ウィンドウで Cloud Pak for Data を開き、このチュートリアル・ページを別のブラウザー・ウィンドウで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。 2 つのブラウザー・ウィンドウを横並びに配置して、見やすくすることを検討してください。

横並びのチュートリアルと UI

ヒント: ユーザー・インターフェースでこのチュートリアルを実行しているときにガイド・ツアーが表示された場合は、 「後で行うこともあります」をクリックします。



前提条件のセットアップ

Snowflake トライアル・アカウントに登録する

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 00:05から始まるビデオをご覧ください。

  1. https://www.snowflake.com/

  2. 「無料で開始」をクリックします。

  3. サインアップ・フォームに入力し、 「続行」をクリックします。

  4. 「30 日間の無料トライアルの開始 (START YOUR 30-DAY FREE TRIAL)」 ページで、以下の手順を実行します。

    1. Nowflake エディションを選択します。

    2. クラウド・プロバイダーを選択してください。

    3. 「GET STARTED」をクリックします。

  5. 「Snowflake にご登録いただきありがとうございます」 というメッセージが表示されるまで、質問をスキップしてください。

  6. E メール・アカウントにアクセスし、 Snowflake Computingから E メールを開き、 「クリックしてアクティブ化 (CLICK TO ACTIVATE)」をクリックします。

  7. ユーザー名とパスワードを入力し、 「開始」をクリックします。

チェックポイント・アイコン進捗状況を確認する

以下の画像は、Snowflake ダッシュボードを示しています。

スノーフレーク・ダッシュボード

Cloud Pak for Data as a Service の DataStage トライアルに登録します。

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、00:36から始まるビデオを見てください。

Cloud Pak for Data as a Service に登録し、 DataStage サービスをプロビジョンする必要があります。 DataStageのトライアルページへ。 このリンクを使用して、以下のサービスがプロビジョンされます。

  • DataStage
  • Cloud Object Storage

既存の IBMid を使用

既存の IBMidがある場合は、この短いビデオをご覧ください。

このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。

新しい IBMid を使用する

既存の IBMidがない場合は、このショート・ビデオをご覧ください。

このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。

チェックポイント・アイコン進捗状況を確認する

次の画像は、 Cloud Pak for Data のホーム・ページを示しています。

Cloud Pak for Data ホーム・ページ

プロビジョニング・サービスについて詳しくは、 IBM Cloud サービスの作成および管理を参照してください。

チェックポイント・アイコン進捗状況を確認する

以下のイメージは、必要なプロビジョン済みサービス・インスタンスを示しています。 これで、Snowflake トライアルに登録する準備ができました。

プロビジョンされたサービス




タスク 1: Snowflake データウェアハウスの作成

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、00:51から始まるビデオを見てください。

目標は、 DataStage を使用して Snowflake アカウントにデータをロードすることです。 これを行うには、Snowflake アカウントにデータウェアハウスが必要です。 以下のステップに従って、Snowflake アカウントにデータウェアハウスを作成します。

  1. Snowflake トライアル・アカウントにログインします。

  2. ナビゲーション・パネルで、 「管理」>「ウェアハウス」をクリックします。

    1. 「+ Warehouse」をクリックします。

    2. 「名前」に DATASTAGEDATA と入力します。

    3. 残りのフィールドのデフォルトを受け入れて、 「ウェアハウスの作成」をクリックします。

  3. ナビゲーション・パネルで、 「データ」をクリックします。

    1. 「データベース」 ページで、 「+ データベース」をクリックします。

    2. 名前に DATASTAGEDB と入力し、 作成をクリックしてください。

  4. リストで新しく作成した DATASTAGEDB データベースをクリックし、 「+ Schema」をクリックします。

    1. 「スキーマ」 名として、 MORTGAGE と入力します。

    2. 「作成」 をクリックします。

  5. データベースのリストで、 「DATASTAGEDB」>「MORTGAGE」を選択します。

チェックポイント・アイコン進捗状況を確認する

以下のイメージは、Snowflake 内の DATASTAGEDB データベースを示しています。 これで、接続情報および DataStage フロー用のサンプル・プロジェクトを Cloud Pak for Data に作成する準備ができました。

スノーフレーク内の DATASTAGEDB データベース




タスク 2: DataStage プロジェクトの作成

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、01:46から始まるビデオを見てください。

外部データ・ソースおよび DataStage フローへの接続を保管するためのプロジェクトが必要です。 以下のステップに従って、サンプル・プロジェクトを作成します。

  1. リソースハブのデータ統合サンプルプロジェクトにアクセスします。

  2. 「プロジェクトの作成」をクリックします。

  3. プロジェクトを Cloud Object Storage インスタンスに関連付けるように求められたら、リストから Cloud Object Storage インスタンスを選択してください。

  4. 「作成」 をクリックします。

  5. プロジェクトのインポートが完了するまで待ってから、 「新規プロジェクトの表示」をクリックします。

  6. 「資産」 タブをクリックして、プロジェクトと資産が正常に作成されたことを確認します。

チェックポイント・アイコン進捗状況を確認する

以下の画像は、サンプル・プロジェクトを示しています。 これで、Snowflake への接続を作成する準備ができました。

以下の画像は、サンプル・プロジェクトを示しています。




タスク 3: Snowflake データウェアハウスへの接続の作成

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、02:17から始まるビデオをご覧ください。

DataStage フローで Snowflake データウェアハウスにアクセスできるように、接続情報をプロジェクトに追加する必要があります。 プロジェクト内に接続資産を作成するには、以下の手順を実行します。

  1. 「アセット」 タブで、 「新規アセット」>「データ・ソースへの接続」をクリックします。

  2. スノーフレークを探すコネクタを見つける検索フィールド。

  3. を選択スノーフレーク接続タイプを選択し、

  4. 「接続の作成: Snowflake」 ページで、接続名として Snowflake を入力します。

  5. 「接続の詳細」で、作成したばかりの Snowflake アカウントの情報を使用して、以下のフィールドに入力します。

    • アカウント名: アカウント名は、アカウント ID、リージョン、およびクラウド・プロバイダーを組み合わせたものです。 この情報は、Snowflake アカウントにログインしたときに URL で見つけることができます。

      1. ユーザー名をクリックするとメニューが表示されます。

      2. アカウントにカーソルを合わせてください。

      3. アカウントメニューで、アカウントリンクにカーソルを合わせてください。

      4. 以下の画像のように、アカウントURLをコピーするアイコンをクリックします:

        アカウントリンクURLをコピーする

    • データベース: タイプ DATASTAGEDB

    • 役割: タイプ ACCOUNTADMIN

    • ウェアハウス: タイプ DATASTAGEDATA

    • ユーザー名: Snowflake アカウントのユーザー名を入力します。

    • パスワード: Snowflake アカウントのパスワードを入力します。

  6. 「接続のテスト」 をクリックして、Snowflake アカウントへの接続をテストします。

  7. テストが成功したら、 「作成」をクリックします。 ロケーションと主権を設定せずに接続を作成するよう求めるプロンプトが出された場合は、 「作成」をクリックします。 このアクションにより、Snowflake コネクターが作成されます。このコネクターを使用して、 Db2 Warehouse から Snowflake アカウントにデータをロードできます。

チェックポイント・アイコン進捗状況を確認する

次の図は、新しい接続情報を示しています。 これで、 DataStage フローを作成する準備ができました。

次の図は、新しい接続情報を示しています。




タスク 4: DataStage フローの作成

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、03:20から始まるビデオをご覧ください。

これで、プロジェクトに DataStage 資産を作成する準備ができました。 DataStage フローを作成するには、以下の手順を実行します。

  1. から資産タブをクリックして新しい資産 > データの変換と統合

  2. 「名前」に、 Load Db2 data to Snowflake と入力します。

  3. 「作成」 をクリックします。

チェックポイント・アイコン進捗状況を確認する

以下の画像は、空の DataStage キャンバスを示しています。 これで、 DataStage フローを設計する準備ができました。

以下の画像は、空の DataStage キャンバスを示しています。




タスク 5: DataStage フローの設計

DataStage フローには、2 つのコネクター・ノードが含まれています。ソース・データ資産を指す Db2 Warehouse コネクターと、ターゲット・データ資産を指す Snowflake コネクター、およびデータ資産を結合およびフィルタリングするためのその他のいくつかのノードです。 ノードをキャンバスに追加するには、以下の手順を実行します。

2 つのコネクター・ノードの追加

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、03:36から始まるビデオをご覧ください。

以下のステップに従って、2 つのコネクター・ノードをキャンバスに追加します。

ソース・コネクタ・ノードを追加する

  1. ノード・パレットで、 コネクター セクションを展開します。

  2. 「資産ブラウザー」 コネクターをドラッグして、空のキャンバス上の任意の場所にドロップします。

    最初の資産ブラウザー・ノードをキャンバスにドラッグします

  3. 「資産ブラウザー」 コネクターをキャンバスにドロップすると、資産の選択を求めるプロンプトが出されます。

    1. 資産を見つけるには、 「接続」> Data Fabric 「試用版」- Db2 Warehouse >「BANKING」>「MORTGAGE_APPLICATION」を選択します。

      ヒント: 接続とスキーマを展開するには、チェック・ボックスの代わりに接続名またはスキーマ名をクリックします。
    2. 「追加」 をクリックして、 Db2 Warehouse データ・ソースを DataStage キャンバスにドロップします。

ターゲット・コネクタ・ノードの追加

  1. 「ノード・パレット」で、 「コネクター」 セクションを展開します。

  2. 「資産ブラウザー」 コネクターをドラッグしてキャンバスにドロップし、2 番目のノードとして配置します。

    2 番目の資産ブラウザー・ノードをキャンバスにドラッグします

    1. 資産を見つけるには、 「接続」>「Snowflake」>「住宅ローン」を選択します。

      ヒント: チェック・ボックスをクリックして、MORTGAGE スキーマ名を選択します。
    2. 「追加」 をクリックして、Snowflake 接続を DataStage キャンバスにドロップします。

  3. ノードをリンクするには、矢印が表示されるまで Mortgage_Application_1 ノードの上にカーソルを移動します。 矢印を Snowflake 接続にドラッグして、2 つのノードを接続します。

    キャンバス上の 2 つのノードを接続します。

ソースノードとターゲットノードの設定

  1. MORTGAGE age_application ノードをダブルクリックして、その設定を表示します。

    1. 「出力」 タブをクリックします。

    2. 「ランタイム列伝搬」 オプションにチェック・マークを付けます。 DataStage は、メタデータに関して柔軟性があります。 メタデータが完全に定義されていない状態を処理できます。 この場合、 「ランタイム列伝搬」 を選択して、ジョブの実際の実行時にメタデータに定義されていない追加の列が DataStage ジョブで検出された場合に、これらの追加の列が採用され、ジョブの残りの部分に伝搬されるようにします。 この機能により、スキーマ・ドリフトに対してフロー設計を柔軟にすることができます。

    3. 保存 をクリックします。

      Db2 Warehouse から Snowflake にデータを読み取るため、 Db2 Warehouse コネクターはフローの先頭に配置されます。 目標は、 Db2 Warehouse データを Snowflake にロードすることです。 次に、 Db2 Warehouse コネクターからデータを読み取る Snowflake コネクターを追加します。 したがって、Snowflake コネクターはフローの 2 番目に配置されます。

  2. MORTGAGE_DATA コネクターをダブルクリックして、その設定を確認します。

    1. ノード名を Snowflake_mortgage_data に変更します。

    2. 設定のサイド・パネルで、 「入力」 タブをクリックします。

    3. 「使用法」 セクションを展開します。

    4. 「書き込みモード」では、 「挿入」を選択します。

    5. 「表名」では、スキーマ名の後に APPLICATION を追加して、完全な表名が MORTGAGE.APPLICATIONになるようにします。

    6. 「テーブル・アクション」で、 「作成」を選択します。 この設定により、Snowflake で指定されたデータベースとスキーマに表が作成され、エンタープライズ・データがその表にロードされます。

    7. 「アクション」 セクションの他のすべてのフィールドについては、デフォルト値を受け入れます。

    8. 「保存」 をクリックして変更を更新し、 DataStage フローに戻ります。

データを結合およびフィルタリングするためのノードの追加

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、05:40から始まるビデオをご覧ください。

これで、Snowflake にデータをロードするための基本的な DataStage フローができました。 データを結合およびフィルタリングするために複数のノードを追加するには、以下の手順を実行します。

別のアセット・コネクター・ノードを追加する

  1. ノード・パレットで、 コネクター セクションを展開します。

  2. 「資産ブラウザー」 コネクターを、MORTGAGE age_application ノードの近くのキャンバスにドラッグします。

  3. 「資産ブラウザー」 コネクターをキャンバスにドロップすると、資産の選択を求めるプロンプトが出されます。

    1. 資産を見つけるには、 「接続」> Data Fabric 「試用版」- Db2 Warehouse >「銀行」>「住宅ローン申請者」を選択します。

      ヒント: 接続とスキーマを展開するには、チェック・ボックスの代わりに接続名またはスキーマ名をクリックします。
    2. 「追加」 をクリックして、 Db2 Warehouse データ・ソースを DataStage キャンバスにドロップします。

ジョイン・ステージ・ノードの追加

  1. 「ノード・パレット」で、 「ステージ」 セクションを展開します。

  2. 「ノード・パレット」で、 「結合」 ステージをキャンバスにドラッグし、 MORTGAGE age_application ノードと Snowflake_mortgage age_data ノードの間のリンク・ラインにノードをドロップします。 このアクションは、 MORTGAGE_APPLICATION ノードから JOIN ノード、 Snowflake_mortgage age_data ノードへのリンクを維持します。

  3. 矢印を表示するには、 MORTGAGE コネクターの上にカーソルを移動します。 矢印を Join ステージに接続します。

  4. MORTGAGE_申請者 ノードをダブルクリックして、その設定を確認します。

    1. 「出力」 タブをクリックします。

    2. 「ランタイム列伝搬」 オプションにチェック・マークを付けます。 前述のように、このオプションはスキーマのドリフトに対応します。

    3. 保存 をクリックします。

  5. Join_1 ノードをダブルクリックして設定を編集します。

    1. プロパティー セクションを展開します。

    2. 「鍵の追加」をクリックします。

      1. 再度 キーの追加 をクリックしてください。

      2. 使用可能なキーのリストから 「ID」 を選択します。

      3. 「適用」をクリックします。

      4. 適用して戻る をクリックして、 Join_1 ノード設定に戻ります。

    3. Join_1 ノード名を Join_on_IDに変更します。

    4. 「出力」 タブをクリックします。

    5. スキーマのドリフトに対応するために、 「ランタイム列伝搬」 オプションにチェック・マークを付けます。

    6. 保存 をクリックして、 Join_on_ID ノード設定を保存します。

フィルター・ステージ・ノードの追加

  1. 「ノード・パレット」「ステージ」 セクションで、 「フィルター」 ノードをキャンバスにドラッグし、 Join_on_ID ノードと Snowflake_mortgage age_data ノードの間のリンク・ラインにノードをドロップします。

  2. Filter_1 ノードをダブルクリックして設定を編集します。

    1. プロパティー セクションを展開します。

    2. 述部の下で、 編集をクリックしてください。

      1. Where句列の編集アイコン「編集」をクリックし、「STATE_CODE='CA'入力する。 この条項は、住宅ローン申請をカリフォルニアの申込者のみにフィルタリングします。

      2. 「適用して戻る」をクリックします。

    3. 「出力」 タブをクリックします。

      1. スキーマのドリフトに対応するために、 「ランタイム列伝搬」 オプションにチェック・マークを付けます。
    4. 「保存」 をクリックして、 「フィルター」 ノードの設定を保存します。

チェックポイント・アイコン進捗状況を確認する

以下の画像は、完了した DataStage フローを示しています。 これで、 DataStage ジョブを実行する準備ができました。

以下の画像は、完了した DataStage フローを示しています。




タスク 6: DataStage ジョブの実行

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、07:23から始まるビデオをご覧ください。

これで、 DataStage ジョブをコンパイルして実行し、 Db2 Warehouse から Snowflake に住宅ローン・アプリケーション・データをロードする準備ができました。 DataStage ジョブを実行するには、以下の手順を実行します。

  1. ツールバーで、 「コンパイル」をクリックします。 このアクションにより、 DataStage フローが検証されます。

  2. フローが正常にコンパイルされたら、ツールバーの 「実行」 をクリックして DataStage ジョブを開始します。 実行が完了するまでに数分かかる場合があります。

  3. 実行が完了すると、 「Run successful with warnings」というメッセージが表示されます。

チェックポイント・アイコン進捗状況を確認する

次の図は、正常に実行されたことを示しています。 これで、 DataStage ジョブが正常に完了したので、Snowflake に新しい表を表示できます。

次の図は、正常に実行されたことを示しています。




タスク 7: Snowflake データウェアハウスでのデータ資産の表示

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、07:31から始まるビデオをご覧ください。

データが Snowflake に正しくロードされたかどうかを確認するには、Snowflake ダッシュボードに戻ります。

  1. 「データ」>「データベース」にナビゲートします。

  2. 「DATASTAGEDB」>「MORTGAGE> TABLES」を展開します。

  3. 「アプリケーション」 テーブルを選択します。

  4. テーブル名の下で、 「データのプレビュー」 タブをクリックします。

  5. 「DATASTAGEDATA」 ウェアハウスを選択します。

  6. 「プレビュー」 をクリックして、 DataStageからインポートされた 「住宅ローン・アプリケーション」 データのプレビューを表示します。

チェックポイント・アイコン進捗状況を確認する

以下の画像は、Snowflake にロードされた表を示しています。

次の図は、Snowflake でロードされた表を示しています。



DataStageを使用して、 Db2 Warehouse から Snowflake にエンタープライズ・データを正常にロードしました。


次のステップ

その他のチュートリアルをお試しください。

もっと見る