クイック・スタート: データを変換する | IBM Cloud Pak for Data as a Service

資料の英語版に戻る

クイック・スタート: データを変換する

最終更新: 2024年12月06日

クイック・スタート: データを変換する

DataStage フローを使用して、さまざまなデータ・ソースからのデータを簡単に統合、クレンジング、および分析できます。 DataStage ツールについて読み、ビデオを見て、データ変換に関する知識はあるがコーディングは必要ないユーザーに適したチュートリアルを学習します。

必須のサービス: watsonx.aiスタジオ; DataStage

基本的なワークフローには、以下のタスクが含まれます：

プロジェクトを作成するプロジェクトは、データを処理するために他のユーザーと共同作業できる場所です。
データをプロジェクトに追加します。接続を介してリモート・データ・ソースからの CSV ファイルまたはデータを追加できます。
DataStage フローを作成します。
操作を使用してデータを詳細化するステップを実行します。
データを変換するジョブを作成して実行します。

DataStage について読む

DataStage は、プロジェクト内のデータを変換および統合するために使用できる抽出、変換、およびロード (ETL) ツールです。

DataStageは使いやすく設計されており、プラットフォームに完全に統合されている。 ISX ファイルを使用して既存のレガシー・パラレル・ジョブを DataStage にインポートし、 DataStage キャンバスを使用してフローを作成、編集、およびテストし、フローから生成されたジョブを実行することができます。

DataStage の詳細を読む

DataStage フローを使用してデータの変換に関するビデオをご覧ください

ビデオを見るこのビデオを見て、単純な DataStage フローを作成する方法を確認してください。

このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。

データ変換のチュートリアルを試す

このチュートリアルでは、以下のタスクを実行します：

タスク 1: プロジェクトを開きます。
タスク 2: データ・セットをプロジェクトに追加します。
タスク 3: DataStage フローを作成します。
タスク 4: ノードの編集
タスク 5: DataStage フローを実行して、資産を表示します。

このチュートリアルを完了するための所要時間は約 20 分です。

このチュートリアルを完了するためのヒント

このチュートリアルを正常に完了するためのヒントを以下に示します。

ビデオ・ピクチャー・イン・ピクチャーの使用

ヒント: ビデオを開始してから、チュートリアルをスクロールすると、ビデオはピクチャー・イン・ピクチャー・モードに移行します。ピクチャー・イン・ピクチャーを最大限に活用するには、ビデオの目次を閉じます。ピクチャー・イン・ピクチャー・モードを使用して、このチュートリアルのタスクを完了する際にビデオをフォローすることができます。後続の各タスクのタイム・スタンプをクリックします。

以下のアニメーション・イメージは、ビデオ・ピクチャー・イン・ピクチャーおよび目次機能の使用方法を示しています。

ピクト・イン・ピクチャーおよび章の使用法

コミュニティーでのヘルプの利用

このチュートリアルでヘルプが必要な場合は、Cloud Pak for DataCommunityディスカッションフォーラムで質問したり、回答を見つけることができます。

ブラウザー・ウィンドウのセットアップ

このチュートリアルを最適に実行するには、1 つのブラウザー・ウィンドウで Cloud Pak for Data を開き、このチュートリアル・ページを別のブラウザー・ウィンドウで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。 2 つのブラウザー・ウィンドウを横並びに配置して、見やすくすることを検討してください。

横並びのチュートリアルと UI

ヒント: ユーザー・インターフェースでこのチュートリアルを実行しているときにガイド・ツアーが表示された場合は、 「後で行うこともあります」をクリックします。

タスク 1: プロジェクトを開く

データ・セットと DataStage フローを保管するためのプロジェクトが必要であり、 DataStage サービスをプロビジョンする必要があります。既存のプロジェクトを開くか、新規プロジェクトを作成してサービスをプロビジョンするには、以下の手順を実行します。

ナビゲーションメニュー「」から、「プロジェクト」 > 「すべてのプロジェクトを表示」を選択する
既存のプロジェクトをを持っている場合は、それを開きます。
既存のプロジェクトがない場合は、 「新規プロジェクト」をクリックします。
「空のプロジェクトの作成」を選択します。
プロジェクトの名前と説明 (オプション) を入力します。
「作成」 をクリックします。
ナビゲーションメニュー「」から、「サービス」＞「サービスインスタンス」をクリックする。
サービスの追加 をクリックし、 DataStageを選択してください。
「作成」 をクリックします。プロビジョンされたサービスが サービス・インスタンス ページに表示されます。

詳細またはビデオについては、プロジェクトの作成をご覧ください。

進捗状況を確認する

以下のイメージは、プロビジョンされたサービスを示しています。

タスク 2: プロジェクトへのデータ・セットの追加

このチュートリアルで使用するデータ・セットは、リソース・ハブで使用できます。リソース・ハブでデータ・セットを見つけてプロジェクトに追加するには、以下の手順を実行します。

Resource ハブのCustomers データセットにアクセスします。
プロジェクトに追加をクリックしてください。
リストからプロジェクトを選択し、追加をクリックしてください。
データ・セットが追加されたら、 プロジェクトの表示をクリックしてください。

リソース・ハブからプロジェクトへのデータ資産の追加について詳しくは、ノートブックでのデータのロードおよびアクセスを参照してください。

進捗状況を確認する

以下の画像は、プロジェクトの「資産」タブを示しています。

タスク 3: DataStage フローの作成

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、00:26から始まるビデオを見てください。

DataStage フローには、元のデータ資産、フィルター・ノード、ソート・ノード、および変換されたデータ資産の 4 つのノードが含まれます。 DataStage フローを作成するには、以下の手順を実行します。

クリック新しい資産 > データの変換と統合。
名前と説明を提供し、作成をクリックしてください。
コネクター をクリックし、 アセット・ブラウザー ノードをキャンバスにドラッグ・アンド・ドロップします。
データ資産 > customers.csvを選択し、追加をクリックしてください。
ノード・パレットで、段階セクションを展開し、 フィルター ノードをキャンバスにドラッグします。
ノードをリンクするには、 Customers.csv ノードの青い矢印をクリックして 「フィルター」 ノードにドラッグします。
段階セクションで、 ソート ノードをキャンバスにドラッグします。
フィルター ノードを ソート ノードに接続します。
コネクター セクションを展開し、 アセット・ブラウザー ノードをキャンバスにドラッグします。
データ資産 > customers.csvを選択し、追加をクリックしてください。後でファイル名を変更して、customer.csv ファイルを上書きしないようにします。
「ソート」 ノードをこの最後の Customers.csv ノードに接続します。

進捗状況を確認する

次の画像は、最初のフローを示している。
'

タスク 4: ノードの編集

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、03:27から始まるビデオをご覧ください。

キャンバス上の各ノードのプロパティーを編集するには、以下の手順を実行します。

ノード 1: 最初の資産ブラウザー・ノードの編集

最初の Customer.csv ノードをダブルクリックします。
右側の 「プロパティー」 パネルで、ノードの名前を CustomerTable に変更して、資産ノードの名前を変更します。
「出力」 タブをクリックします。
カラム セクションを展開し、編集をクリックしてください。
YTD_ SALES列のデータ型を変更するには、Data typeで DECIMALを選択します。
適用して戻る をクリックして、「プロパティー」パネルに戻ります。
保存をクリックして、 顧客テーブル ノードに対する変更を保存します。

ノード 2: フィルター・ノードの編集

フィルター ノードをダブルクリックしてください。
プロパティー パネルで、テキスト Filter_1 を FilterYTDSales に名前変更して、フィルター・ノードの名前を変更します。
プロパティー セクションを展開します。述部の下で、編集をクリックしてください。
1. 「Where 文節」 列で、 YTD_SALES > 1000と入力します。
2. 「適用して戻る」をクリックします。
「出力」 タブをクリックします。
カラム セクションを展開し、編集をクリックしてください。
1. すべての列を選択し、このチュートリアルで使用する以下の列の選択を解除する。
  - CUST_ID
  - CUSTNAME
  - COUNTRY_CODE
  - EMAIL_ADDRESS
  - PHONE_NUMBER
  - YTD_SALES
  - SALESREP_ID
2. 選択した行の削除アイコン「」をクリックして、残りの選択した列を削除する。
3. CUSTNAME 列の名前を CUSTOMERNAMEに変更します。この変更は、 フィルター ノードの後に続くノードに伝搬されます。
4. 適用して戻る をクリックして、「プロパティー」パネルに戻ります。
保存をクリックして、 フィルター ノードに対する変更を保存します。

ノード 3: ソート・ノードの編集

ソート ノードをダブルクリックしてください。
プロパティー パネルで、テキスト Sort_1 を SortYTDSales に名前変更して、ソート・ノードの名前を変更します。
プロパティー セクションを展開します。
Sorting Keys」の下にある「Add key」をクリックする。
1. 「鍵の追加」をクリックします。
2. キードロップダウンから、 YTD_SALESを選択してください。
3. ソート順の場合は、降順を選択してください。
4. 適用をクリックして、ソート・キー・リストに戻ります。
5. 適用して戻る をクリックして、「プロパティー」パネルに戻ります。
「入力」 タブをクリックし、 「列」 セクションを展開して、 CUSTOMERNAME 列名の変更が 「フィルター」 ノードから伝搬されていることを確認します。
「出力」 タブをクリックし、 「列」 セクションを展開して、 CUSTOMERNAME 列名の変更が 「フィルター」 ノードから伝搬されていることを確認します。
保存をクリックして、 ソート ノードに対する変更を保存します。

ノード 4: 最後の資産ブラウザー・ノードの編集

最後の Customers.csv ノードをダブルクリックします。
「プロパティー」 パネルで、ノードの名前を CustomerFilteredTable に変更して、資産ノードの名前を変更します。
プロパティー セクションを展開し、チェック・ボックス データ資産の作成を選択してください。
データ資産名フィールドに「Customers filtered入力する。
「入力」 タブをクリックし、 「列」 セクションを展開して、 CUSTOMERNAME 列名の変更が 「フィルター」 ノードから伝搬されていることを確認します。
「保存」 をクリックして、 「顧客フィルター・テーブル」 ノードに対する変更を保存します。

進捗状況を確認する

次の画像は、最終的なフローを示している。
'

タスク 5: DataStage フローを実行して資産を表示する

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、06:36から始まるビデオをご覧ください。

これで、フローを実行する準備ができました。以下のステップに従って、フローを実行し、プロジェクト内の変換された資産を表示します。

保存をクリックします。
コンパイルをクリックしてください。
「実行 (Run)」 をクリックします。
(オプション) ログリンクをクリックして、実行の詳細を表示します。
最後の 「顧客フィルター・テーブル」 ノードをダブルクリックします。
プロパティー セクションを展開します。
スクロールダウンして、 データのプレビューをクリックしてください。データが正しくフィルタリングされ、ソートされていることが分かります。
1. 「グラフ」 パネルをクリックします。
2. 「視覚化する列」で、 「YTD_SALES」を選択します。
3. 「グラフ・タイプ」で、 「Q-Q プロット」をクリックします。
4. 「閉じる」をクリックします。
プロジェクトにデータ資産を作成するようにフローをセットアップしたため、ナビゲーション・トレールでプロジェクト名をクリックして、プロジェクトに戻ります。
「資産」 タブで、 「顧客フィルター」 資産を開きます。

進捗状況を確認する

以下の画像は、フィルタリングされた顧客のデータ資産を示しています。

次のステップ

では、データを使用する準備ができました。例えば、ユーザーまたは他のユーザーは、以下のいずれかのタスクを実行できます：

その他のリソース

詳しくは、ビデオを参照してください。
Resource hubでデータの変換を実際に体験できるサンプルデータセットをご覧ください。
サンプルのDataStageプロジェクトから始めましょう：COVID-19 IBM DataStageによるトラッキング。
この追加チュートリアルを試して、'DataStageフローをより実際に体験してください：新しい'IBM'DataStageサービスを使い始める'.

親トピック: クイック・スタート・チュートリアル