0 / 0
資料の 英語版 に戻る
クイック・スタート: データを変換する

クイック・スタート: データを変換する

DataStage フローを使用して、さまざまなデータ・ソースからのデータを簡単に統合、クレンジング、および分析できます。 DataStage ツールについて読み、ビデオを見て、データ変換に関する知識はあるがコーディングは必要ないユーザーに適したチュートリアルを学習します。

必須のサービス
Watson Studio
DataStage

基本的なワークフローには、以下のタスクが含まれます:

  1. プロジェクトを作成する プロジェクトは、データを処理するために他のユーザーと共同作業できる場所です。
  2. データをプロジェクトに追加します。 接続を介してリモート・データ・ソースからの CSV ファイルまたはデータを追加できます。
  3. DataStage フローを作成します。
  4. 操作を使用してデータを詳細化するステップを実行します。
  5. データを変換するジョブを作成して実行します。

DataStage について読む

DataStage は、プロジェクト内のデータを変換および統合するために使用できる抽出、変換、およびロード (ETL) ツールです。

DataStage は、使いやすいように設計されており、Cloud Pak for Data に完全に統合されています。 ISX ファイルを使用して既存のレガシー・パラレル・ジョブを DataStage にインポートし、 DataStage キャンバスを使用してフローを作成、編集、およびテストし、フローから生成されたジョブを実行することができます。

DataStage の詳細を読む

DataStage フローを使用してデータの変換に関するビデオをご覧ください

ビデオを見る このビデオを見て、単純な DataStage フローを作成する方法を確認してください。

このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。


データ変換のチュートリアルを試す

このチュートリアルでは、以下のタスクを実行します:

このチュートリアルを完了するための所要時間は約 20 分です。





このチュートリアルを完了するためのヒント
このチュートリアルを正常に完了するためのヒントを以下に示します。

ビデオ・ピクチャー・イン・ピクチャーの使用

ヒント: ビデオを開始してから、チュートリアルをスクロールすると、ビデオはピクチャー・イン・ピクチャー・モードに移行します。 ピクチャー・イン・ピクチャーを最大限に活用するには、ビデオの目次を閉じます。 ピクチャー・イン・ピクチャー・モードを使用して、このチュートリアルのタスクを完了する際にビデオをフォローすることができます。 後続の各タスクのタイム・スタンプをクリックします。

以下のアニメーション・イメージは、ビデオ・ピクチャー・イン・ピクチャーおよび目次機能の使用方法を示しています。

ピクト・イン・ピクチャーおよび章の使用法

コミュニティーでのヘルプの利用

このチュートリアルでヘルプが必要な場合は、 Cloud Pak for Data コミュニティー・ディスカッション・フォーラムで質問したり、回答を見つけたりすることができます。

ブラウザー・ウィンドウのセットアップ

このチュートリアルを最適に実行するには、1 つのブラウザー・ウィンドウで Cloud Pak for Data を開き、このチュートリアル・ページを別のブラウザー・ウィンドウで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。 2 つのブラウザー・ウィンドウを横並びに配置して、見やすくすることを検討してください。

横並びのチュートリアルと UI

ヒント: ユーザー・インターフェースでこのチュートリアルを実行しているときにガイド・ツアーが表示された場合は、 「後で行うこともあります」をクリックします。



タスク 1: プロジェクトを開く

データ・セットと DataStage フローを保管するためのプロジェクトが必要であり、 DataStage サービスをプロビジョンする必要があります。 既存のプロジェクトを開くか、新規プロジェクトを作成してサービスをプロビジョンするには、以下の手順を実行します。

  1. Cloud Pak for Data ナビゲーション・メニュー ナビゲーション・メニューから、 「プロジェクト」>「すべてのプロジェクトを表示」 を選択します。

  2. 既存のプロジェクトをを持っている場合は、それを開きます。

  3. 既存のプロジェクトがない場合は、 「新規プロジェクト」をクリックします。

  4. 「空のプロジェクトの作成」を選択します。

  5. プロジェクトの名前と説明 (オプション) を入力します。

  6. 「作成」 をクリックします。

  7. ナビゲーション・メニュー ナビゲーション・メニューで、 「サービス」>「サービス・インスタンス」をクリックします。

  8. サービスの追加 をクリックし、 DataStageを選択してください。

  9. 「作成」 をクリックします。 プロビジョンされたサービスが サービス・インスタンス ページに表示されます。

詳しくは、またはビデオを視聴するには、 プロジェクトの作成を参照してください。

チェックポイント・アイコン 進行状況を確認してください

以下のイメージは、プロビジョンされたサービスを示しています。

以下のイメージは、プロビジョンされたサービスを示しています。




タスク 2: プロジェクトへのデータ・セットの追加

このチュートリアルで使用するデータ・セットは、リソース・ハブで使用できます。 リソース・ハブでデータ・セットを見つけてプロジェクトに追加するには、以下の手順を実行します。

  1. リソース・ハブ内の Customers データ・セット にアクセスします。

  2. プロジェクトに追加をクリックしてください。

  3. リストからプロジェクトを選択し、 追加をクリックしてください。

  4. データ・セットが追加されたら、 プロジェクトの表示をクリックしてください。

リソース・ハブからプロジェクトへのデータ資産の追加について詳しくは、 ノートブックでのデータのロードおよびアクセスを参照してください。

チェックポイント・アイコン 進行状況を確認してください

以下の画像は、プロジェクトの「資産」タブを示しています。

以下のイメージは、プロジェクトの「資産」タブを示しています。




タスク 3: DataStage フローの作成

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 00:26から始まるビデオをご覧ください。

DataStage フローには、元のデータ資産、フィルター・ノード、ソート・ノード、および変換されたデータ資産の 4 つのノードが含まれます。 DataStage フローを作成するには、以下の手順を実行します。

  1. クリック新しい資産 > データの変換と統合

  2. 名前と説明を提供し、 作成をクリックしてください。

  3. コネクター をクリックし、 アセット・ブラウザー ノードをキャンバスにドラッグ・アンド・ドロップします。

  4. データ資産 > customers.csvを選択し、 追加をクリックしてください。

  5. ノード・パレットで、 段階 セクションを展開し、 フィルター ノードをキャンバスにドラッグします。

  6. ノードをリンクするには、 Customers.csv ノードの青い矢印をクリックして 「フィルター」 ノードにドラッグします。

  7. 段階 セクションで、 ソート ノードをキャンバスにドラッグします。

  8. フィルター ノードを ソート ノードに接続します。

  9. コネクター セクションを展開し、 アセット・ブラウザー ノードをキャンバスにドラッグします。

  10. データ資産 > customers.csvを選択し、 追加をクリックしてください。 後でファイル名を変更して、customer.csv ファイルを上書きしないようにします。

  11. 「ソート」 ノードをこの最後の Customers.csv ノードに接続します。

チェックポイント・アイコン 進行状況を確認してください

以下の図は、初期 DataStage フローを示しています。

次の図は、 DataStage の初期フローを示しています。




タスク 4: ノードの編集

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 03:27から始まるビデオをご覧ください。

キャンバス上の各ノードのプロパティーを編集するには、以下の手順を実行します。

ノード 1: 最初の資産ブラウザー・ノードの編集

  1. 最初の Customer.csv ノードをダブルクリックします。

  2. 右側の 「プロパティー」 パネルで、ノードの名前を Customer Table に変更して、資産ノードの名前を変更します。

  3. 「出力」 タブをクリックします。

  4. カラム セクションを展開し、 編集をクリックしてください。

  5. YTD_SALES 列の場合は、 VARCHAR をクリックし、 DECIMAL を選択して YTD_SALES 列のデータ・タイプを変更します。

  6. 適用して戻る をクリックして、「プロパティー」パネルに戻ります。

  7. 保存 をクリックして、 顧客テーブル ノードに対する変更を保存します。

ノード 2: フィルター・ノードの編集

  1. フィルター ノードをダブルクリックしてください。

  2. プロパティー パネルで、テキスト Filter_1Filter YTD Sales に名前変更して、フィルター・ノードの名前を変更します。

  3. プロパティー セクションを展開します。 述部の下で、 編集をクリックしてください。

    1. where 節の追加をクリックしてください。

    2. 「Where 文節」 列で、 YTD_SALES > 1000と入力します。

    3. 「適用して戻る」をクリックします。

  4. 「出力」 タブをクリックします。

  5. カラム セクションを展開し、 編集をクリックしてください。

    1. すべての列を選択し、このチュートリアルで保持する以下の列を選択解除します。

      • CUST_ID
      • CUSTNAME
      • COUNTRY_CODE
      • EMAIL_ADDRESS
      • PHONE_NUMBER
      • YTD_SALES
      • SALESREP_ID
    2. ごみ箱アイコンをクリックして、選択した残りの列を削除してください。

    3. CUSTNAME 列の名前を CUSTOMERNAMEに変更します。 この変更は、 フィルター ノードの後に続くノードに伝搬されます。

    4. 適用して戻る をクリックして、「プロパティー」パネルに戻ります。

  6. 保存 をクリックして、 フィルター ノードに対する変更を保存します。

ノード 3: ソート・ノードの編集

  1. ソート ノードをダブルクリックしてください。

  2. プロパティー パネルで、テキスト Sort_1Sort YTD Sales に名前変更して、ソート・ノードの名前を変更します。

  3. プロパティー セクションを展開します。

  4. ソート・キーの下で、 編集をクリックしてください。

    1. 「鍵の追加」をクリックします。

    2. キー ドロップダウンから、 YTD_SALESを選択してください。

    3. ソート順の場合は、 降順を選択してください。

    4. 適用 をクリックして、ソート・キー・リストに戻ります。

    5. 適用して戻る をクリックして、「プロパティー」パネルに戻ります。

  5. 「入力」 タブをクリックし、 「列」 セクションを展開して、 CUSTOMERNAME 列名の変更が 「フィルター」 ノードから伝搬されていることを確認します。

  6. 「出力」 タブをクリックし、 「列」 セクションを展開して、 CUSTOMERNAME 列名の変更が 「フィルター」 ノードから伝搬されていることを確認します。

  7. 保存 をクリックして、 ソート ノードに対する変更を保存します。

ノード 4: 最後の資産ブラウザー・ノードの編集

  1. 最後の Customers.csv ノードをダブルクリックします。

  2. 「プロパティー」 パネルで、ノードの名前を Customer filtered table に変更して、資産ノードの名前を変更します。

  3. プロパティー セクションを展開し、チェック・ボックス データ資産の作成を選択してください。

  4. データ資産名 フィールドに Customers filtered と入力し、 保存をクリックしてください。

  5. 「入力」 タブをクリックし、 「列」 セクションを展開して、 CUSTOMERNAME 列名の変更が 「フィルター」 ノードから伝搬されていることを確認します。

  6. 「保存」 をクリックして、 「顧客フィルター・テーブル」 ノードに対する変更を保存します。

チェックポイント・アイコン 進行状況を確認してください

以下の図は、最終的な DataStage フローを示しています。

次の図は、最後の DataStage フローを示しています。




タスク 5: DataStage フローを実行して資産を表示する

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 06:36から始まるビデオをご覧ください。

これで、フローを実行する準備ができました。 以下のステップに従って、フローを実行し、プロジェクト内の変換された資産を表示します。

  1. 保存 をクリックします。

  2. コンパイルをクリックしてください。

  3. 「実行 (Run)」 をクリックします。

  4. (オプション) ログ リンクをクリックして、実行の詳細を表示します。

  5. 最後の 「顧客フィルター・テーブル」 ノードをダブルクリックします。

  6. プロパティー セクションを展開します。

  7. スクロールダウンして、 データのプレビューをクリックしてください。 データが正しくフィルタリングされ、ソートされていることが分かります。

    1. 「グラフ」 パネルをクリックします。

    2. 「視覚化する列」で、 「YTD_SALES」を選択します。

    3. 「グラフ・タイプ」で、 「Q-Q プロット」をクリックします。

    4. 「閉じる」をクリックします。

  8. プロジェクトにデータ資産を作成するようにフローをセットアップしたため、ナビゲーション・トレールでプロジェクト名をクリックして、プロジェクトに戻ります。

  9. 「資産」 タブで、 「顧客フィルター」 資産を開きます。

チェックポイント・アイコン 進行状況を確認してください

以下の画像は、フィルタリングされた顧客のデータ資産を示しています。

以下のイメージは、顧客がフィルタリングしたデータ資産を示しています。



次のステップ

では、データを使用する準備ができました。 例えば、ユーザーまたは他のユーザーは、以下のいずれかのタスクを実行できます:

その他のリソース

親トピック: クイック・スタート・チュートリアル

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細