0 / 0
資料の 英語版 に戻る
クイック・スタート: データを変換する
最終更新: 2024年12月06日
クイック・スタート: データを変換する

DataStage フローを使用して、さまざまなデータ・ソースからのデータを簡単に統合、クレンジング、および分析できます。 DataStage ツールについて読み、ビデオを見て、データ変換に関する知識はあるがコーディングは必要ないユーザーに適したチュートリアルを学習します。

必須のサービス
watsonx.aiスタジオ
DataStage

基本的なワークフローには、以下のタスクが含まれます:

  1. プロジェクトを作成する プロジェクトは、データを処理するために他のユーザーと共同作業できる場所です。
  2. データをプロジェクトに追加します。 接続を介してリモート・データ・ソースからの CSV ファイルまたはデータを追加できます。
  3. DataStage フローを作成します。
  4. 操作を使用してデータを詳細化するステップを実行します。
  5. データを変換するジョブを作成して実行します。

DataStage について読む

DataStage は、プロジェクト内のデータを変換および統合するために使用できる抽出、変換、およびロード (ETL) ツールです。

DataStageは使いやすく設計されており、プラットフォームに完全に統合されている。 ISX ファイルを使用して既存のレガシー・パラレル・ジョブを DataStage にインポートし、 DataStage キャンバスを使用してフローを作成、編集、およびテストし、フローから生成されたジョブを実行することができます。

DataStage の詳細を読む

DataStage フローを使用してデータの変換に関するビデオをご覧ください

ビデオを見る このビデオを見て、単純な DataStage フローを作成する方法を確認してください。

このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。


データ変換のチュートリアルを試す

このチュートリアルでは、以下のタスクを実行します:

このチュートリアルを完了するための所要時間は約 20 分です。





このチュートリアルを完了するためのヒント
このチュートリアルを正常に完了するためのヒントを以下に示します。

ビデオ・ピクチャー・イン・ピクチャーの使用

ヒント: ビデオを開始してから、チュートリアルをスクロールすると、ビデオはピクチャー・イン・ピクチャー・モードに移行します。 ピクチャー・イン・ピクチャーを最大限に活用するには、ビデオの目次を閉じます。 ピクチャー・イン・ピクチャー・モードを使用して、このチュートリアルのタスクを完了する際にビデオをフォローすることができます。 後続の各タスクのタイム・スタンプをクリックします。

以下のアニメーション・イメージは、ビデオ・ピクチャー・イン・ピクチャーおよび目次機能の使用方法を示しています。

ピクト・イン・ピクチャーおよび章の使用法

コミュニティーでのヘルプの利用

このチュートリアルでヘルプが必要な場合は、Cloud Pak for DataCommunityディスカッションフォーラムで質問したり、回答を見つけることができます。

ブラウザー・ウィンドウのセットアップ

このチュートリアルを最適に実行するには、1 つのブラウザー・ウィンドウで Cloud Pak for Data を開き、このチュートリアル・ページを別のブラウザー・ウィンドウで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。 2 つのブラウザー・ウィンドウを横並びに配置して、見やすくすることを検討してください。

横並びのチュートリアルと UI

ヒント: ユーザー・インターフェースでこのチュートリアルを実行しているときにガイド・ツアーが表示された場合は、 「後で行うこともあります」をクリックします。



タスク 1: プロジェクトを開く

データ・セットと DataStage フローを保管するためのプロジェクトが必要であり、 DataStage サービスをプロビジョンする必要があります。 既存のプロジェクトを開くか、新規プロジェクトを作成してサービスをプロビジョンするには、以下の手順を実行します。

  1. ナビゲーションメニューナビゲーション・メニュー」から、「プロジェクト」 > 「すべてのプロジェクトを表示」を選択する

  2. 既存のプロジェクトをを持っている場合は、それを開きます。

  3. 既存のプロジェクトがない場合は、 「新規プロジェクト」をクリックします。

  4. 「空のプロジェクトの作成」を選択します。

  5. プロジェクトの名前と説明 (オプション) を入力します。

  6. 「作成」 をクリックします。

  7. ナビゲーションメニューナビゲーション・メニュー」から、「サービス」>「サービスインスタンス」をクリックする。

  8. サービスの追加 をクリックし、 DataStageを選択してください。

  9. 「作成」 をクリックします。 プロビジョンされたサービスが サービス・インスタンス ページに表示されます。

詳細またはビデオについては、プロジェクトの作成をご覧ください。

チェックポイント・アイコン進捗状況を確認する

以下のイメージは、プロビジョンされたサービスを示しています。

以下のイメージは、プロビジョンされたサービスを示しています。




タスク 2: プロジェクトへのデータ・セットの追加

このチュートリアルで使用するデータ・セットは、リソース・ハブで使用できます。 リソース・ハブでデータ・セットを見つけてプロジェクトに追加するには、以下の手順を実行します。

  1. Resource ハブのCustomers データセットにアクセスします。

  2. プロジェクトに追加をクリックしてください。

  3. リストからプロジェクトを選択し、 追加をクリックしてください。

  4. データ・セットが追加されたら、 プロジェクトの表示をクリックしてください。

リソース・ハブからプロジェクトへのデータ資産の追加について詳しくは、 ノートブックでのデータのロードおよびアクセスを参照してください。

チェックポイント・アイコン進捗状況を確認する

以下の画像は、プロジェクトの「資産」タブを示しています。

以下のイメージは、プロジェクトの「資産」タブを示しています。




タスク 3: DataStage フローの作成

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、00:26から始まるビデオを見てください。

DataStage フローには、元のデータ資産、フィルター・ノード、ソート・ノード、および変換されたデータ資産の 4 つのノードが含まれます。 DataStage フローを作成するには、以下の手順を実行します。

  1. クリック新しい資産 > データの変換と統合

  2. 名前と説明を提供し、 作成をクリックしてください。

  3. コネクター をクリックし、 アセット・ブラウザー ノードをキャンバスにドラッグ・アンド・ドロップします。

  4. データ資産 > customers.csvを選択し、 追加をクリックしてください。

  5. ノード・パレットで、 段階 セクションを展開し、 フィルター ノードをキャンバスにドラッグします。

  6. ノードをリンクするには、 Customers.csv ノードの青い矢印をクリックして 「フィルター」 ノードにドラッグします。

  7. 段階 セクションで、 ソート ノードをキャンバスにドラッグします。

  8. フィルター ノードを ソート ノードに接続します。

  9. コネクター セクションを展開し、 アセット・ブラウザー ノードをキャンバスにドラッグします。

  10. データ資産 > customers.csvを選択し、 追加をクリックしてください。 後でファイル名を変更して、customer.csv ファイルを上書きしないようにします。

  11. 「ソート」 ノードをこの最後の Customers.csv ノードに接続します。

チェックポイント・アイコン進捗状況を確認する

次の画像は、最初のフローを示している。
'

次の画像は、最初の流れを示している。




タスク 4: ノードの編集

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、03:27から始まるビデオをご覧ください。

キャンバス上の各ノードのプロパティーを編集するには、以下の手順を実行します。

ノード 1: 最初の資産ブラウザー・ノードの編集

  1. 最初の Customer.csv ノードをダブルクリックします。

  2. 右側の 「プロパティー」 パネルで、ノードの名前を CustomerTable に変更して、資産ノードの名前を変更します。

  3. 「出力」 タブをクリックします。

  4. カラム セクションを展開し、 編集をクリックしてください。

  5. YTD_ SALES列のデータ型を変更するには、Data typeDECIMALを選択します。

  6. 適用して戻る をクリックして、「プロパティー」パネルに戻ります。

  7. 保存 をクリックして、 顧客テーブル ノードに対する変更を保存します。

ノード 2: フィルター・ノードの編集

  1. フィルター ノードをダブルクリックしてください。

  2. プロパティー パネルで、テキスト Filter_1FilterYTDSales に名前変更して、フィルター・ノードの名前を変更します。

  3. プロパティー セクションを展開します。 述部の下で、 編集をクリックしてください。

    1. 「Where 文節」 列で、 YTD_SALES > 1000と入力します。

    2. 「適用して戻る」をクリックします。

  4. 「出力」 タブをクリックします。

  5. カラム セクションを展開し、 編集をクリックしてください。

    1. すべての列を選択し、このチュートリアルで使用する以下の列の選択を解除する。

      • CUST_ID
      • CUSTNAME
      • COUNTRY_CODE
      • EMAIL_ADDRESS
      • PHONE_NUMBER
      • YTD_SALES
      • SALESREP_ID
    2. 選択した行の削除アイコン「選択された行の削除」をクリックして、残りの選択した列を削除する。

    3. CUSTNAME 列の名前を CUSTOMERNAMEに変更します。 この変更は、 フィルター ノードの後に続くノードに伝搬されます。

    4. 適用して戻る をクリックして、「プロパティー」パネルに戻ります。

  6. 保存 をクリックして、 フィルター ノードに対する変更を保存します。

ノード 3: ソート・ノードの編集

  1. ソート ノードをダブルクリックしてください。

  2. プロパティー パネルで、テキスト Sort_1SortYTDSales に名前変更して、ソート・ノードの名前を変更します。

  3. プロパティー セクションを展開します。

  4. Sorting Keys」の下にある「Add key」をクリックする。

    1. 「鍵の追加」をクリックします。

    2. キー ドロップダウンから、 YTD_SALESを選択してください。

    3. ソート順の場合は、 降順を選択してください。

    4. 適用 をクリックして、ソート・キー・リストに戻ります。

    5. 適用して戻る をクリックして、「プロパティー」パネルに戻ります。

  5. 「入力」 タブをクリックし、 「列」 セクションを展開して、 CUSTOMERNAME 列名の変更が 「フィルター」 ノードから伝搬されていることを確認します。

  6. 「出力」 タブをクリックし、 「列」 セクションを展開して、 CUSTOMERNAME 列名の変更が 「フィルター」 ノードから伝搬されていることを確認します。

  7. 保存 をクリックして、 ソート ノードに対する変更を保存します。

ノード 4: 最後の資産ブラウザー・ノードの編集

  1. 最後の Customers.csv ノードをダブルクリックします。

  2. 「プロパティー」 パネルで、ノードの名前を CustomerFilteredTable に変更して、資産ノードの名前を変更します。

  3. プロパティー セクションを展開し、チェック・ボックス データ資産の作成を選択してください。

  4. データ資産名フィールドに「Customers filtered入力する。

  5. 「入力」 タブをクリックし、 「列」 セクションを展開して、 CUSTOMERNAME 列名の変更が 「フィルター」 ノードから伝搬されていることを確認します。

  6. 「保存」 をクリックして、 「顧客フィルター・テーブル」 ノードに対する変更を保存します。

チェックポイント・アイコン進捗状況を確認する

次の画像は、最終的なフローを示している。
'

以下の画像は最終的なフローを示している。




タスク 5: DataStage フローを実行して資産を表示する

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、06:36から始まるビデオをご覧ください。

これで、フローを実行する準備ができました。 以下のステップに従って、フローを実行し、プロジェクト内の変換された資産を表示します。

  1. 保存 をクリックします。

  2. コンパイルをクリックしてください。

  3. 「実行 (Run)」 をクリックします。

  4. (オプション) ログ リンクをクリックして、実行の詳細を表示します。

  5. 最後の 「顧客フィルター・テーブル」 ノードをダブルクリックします。

  6. プロパティー セクションを展開します。

  7. スクロールダウンして、 データのプレビューをクリックしてください。 データが正しくフィルタリングされ、ソートされていることが分かります。

    1. 「グラフ」 パネルをクリックします。

    2. 「視覚化する列」で、 「YTD_SALES」を選択します。

    3. 「グラフ・タイプ」で、 「Q-Q プロット」をクリックします。

    4. 「閉じる」をクリックします。

  8. プロジェクトにデータ資産を作成するようにフローをセットアップしたため、ナビゲーション・トレールでプロジェクト名をクリックして、プロジェクトに戻ります。

  9. 「資産」 タブで、 「顧客フィルター」 資産を開きます。

チェックポイント・アイコン進捗状況を確認する

以下の画像は、フィルタリングされた顧客のデータ資産を示しています。

以下のイメージは、顧客がフィルタリングしたデータ資産を示しています。



次のステップ

では、データを使用する準備ができました。 例えば、ユーザーまたは他のユーザーは、以下のいずれかのタスクを実行できます:

その他のリソース

親トピック: クイック・スタート・チュートリアル

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細