クイック・スタート: データを変換する
DataStage フローを使用して、さまざまなデータ・ソースからのデータを簡単に統合、クレンジング、および分析できます。 DataStage ツールについて読み、ビデオを見て、データ変換に関する知識はあるがコーディングは必要ないユーザーに適したチュートリアルを学習します。
- 必須のサービス
- Watson Studio
- DataStage
基本的なワークフローには、以下のタスクが含まれます:
- プロジェクトを作成する プロジェクトは、データを処理するために他のユーザーと共同作業できる場所です。
- データをプロジェクトに追加します。 接続を介してリモート・データ・ソースからの CSV ファイルまたはデータを追加できます。
- DataStage フローを作成します。
- 操作を使用してデータを詳細化するステップを実行します。
- データを変換するジョブを作成して実行します。
DataStage について読む
DataStage は、プロジェクト内のデータを変換および統合するために使用できる抽出、変換、およびロード (ETL) ツールです。
DataStage は、使いやすいように設計されており、Cloud Pak for Data に完全に統合されています。 ISX ファイルを使用して既存のレガシー・パラレル・ジョブを DataStage にインポートし、 DataStage キャンバスを使用してフローを作成、編集、およびテストし、フローから生成されたジョブを実行することができます。
DataStage フローを使用してデータの変換に関するビデオをご覧ください
このビデオを見て、単純な DataStage フローを作成する方法を確認してください。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
データ変換のチュートリアルを試す
このチュートリアルでは、以下のタスクを実行します:
- タスク 1: プロジェクトを開きます。
- タスク 2: データ・セットをプロジェクトに追加します。
- タスク 3: DataStage フローを作成します。
- タスク 4: ノードの編集
- タスク 5: DataStage フローを実行して、資産を表示します。
このチュートリアルを完了するための所要時間は約 20 分です。
このチュートリアルを完了するためのヒント
このチュートリアルを正常に完了するためのヒントを以下に示します。
ビデオ・ピクチャー・イン・ピクチャーの使用
以下のアニメーション・イメージは、ビデオ・ピクチャー・イン・ピクチャーおよび目次機能の使用方法を示しています。
コミュニティーでのヘルプの利用
このチュートリアルでヘルプが必要な場合は、 Cloud Pak for Data コミュニティー・ディスカッション・フォーラムで質問したり、回答を見つけたりすることができます。
ブラウザー・ウィンドウのセットアップ
このチュートリアルを最適に実行するには、1 つのブラウザー・ウィンドウで Cloud Pak for Data を開き、このチュートリアル・ページを別のブラウザー・ウィンドウで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。 2 つのブラウザー・ウィンドウを横並びに配置して、見やすくすることを検討してください。
タスク 1: プロジェクトを開く
データ・セットと DataStage フローを保管するためのプロジェクトが必要であり、 DataStage サービスをプロビジョンする必要があります。 既存のプロジェクトを開くか、新規プロジェクトを作成してサービスをプロビジョンするには、以下の手順を実行します。
Cloud Pak for Data ナビゲーション・メニュー
から、 「プロジェクト」>「すべてのプロジェクトを表示」 を選択します。
既存のプロジェクトをを持っている場合は、それを開きます。
既存のプロジェクトがない場合は、 「新規プロジェクト」をクリックします。
「空のプロジェクトの作成」を選択します。
プロジェクトの名前と説明 (オプション) を入力します。
「作成」 をクリックします。
ナビゲーション・メニュー
で、 「サービス」>「サービス・インスタンス」をクリックします。
サービスの追加 をクリックし、 DataStageを選択してください。
「作成」 をクリックします。 プロビジョンされたサービスが サービス・インスタンス ページに表示されます。
詳しくは、またはビデオを視聴するには、 プロジェクトの作成を参照してください。
進行状況を確認してください
以下のイメージは、プロビジョンされたサービスを示しています。
タスク 2: プロジェクトへのデータ・セットの追加
このチュートリアルで使用するデータ・セットは、リソース・ハブで使用できます。 リソース・ハブでデータ・セットを見つけてプロジェクトに追加するには、以下の手順を実行します。
リソース・ハブ内の Customers データ・セット にアクセスします。
プロジェクトに追加をクリックしてください。
リストからプロジェクトを選択し、 追加をクリックしてください。
データ・セットが追加されたら、 プロジェクトの表示をクリックしてください。
リソース・ハブからプロジェクトへのデータ資産の追加について詳しくは、 ノートブックでのデータのロードおよびアクセスを参照してください。
進行状況を確認してください
以下の画像は、プロジェクトの「資産」タブを示しています。
タスク 3: DataStage フローの作成
このタスクをプレビューするには、 00:26から始まるビデオをご覧ください。
DataStage フローには、元のデータ資産、フィルター・ノード、ソート・ノード、および変換されたデータ資産の 4 つのノードが含まれます。 DataStage フローを作成するには、以下の手順を実行します。
クリック新しい資産 > データの変換と統合。
名前と説明を提供し、 作成をクリックしてください。
コネクター をクリックし、 アセット・ブラウザー ノードをキャンバスにドラッグ・アンド・ドロップします。
データ資産 > customers.csvを選択し、 追加をクリックしてください。
ノード・パレットで、 段階 セクションを展開し、 フィルター ノードをキャンバスにドラッグします。
ノードをリンクするには、 Customers.csv ノードの青い矢印をクリックして 「フィルター」 ノードにドラッグします。
段階 セクションで、 ソート ノードをキャンバスにドラッグします。
フィルター ノードを ソート ノードに接続します。
コネクター セクションを展開し、 アセット・ブラウザー ノードをキャンバスにドラッグします。
データ資産 > customers.csvを選択し、 追加をクリックしてください。 後でファイル名を変更して、customer.csv ファイルを上書きしないようにします。
「ソート」 ノードをこの最後の Customers.csv ノードに接続します。
進行状況を確認してください
以下の図は、初期 DataStage フローを示しています。
タスク 4: ノードの編集
このタスクをプレビューするには、 03:27から始まるビデオをご覧ください。
キャンバス上の各ノードのプロパティーを編集するには、以下の手順を実行します。
ノード 1: 最初の資産ブラウザー・ノードの編集
最初の Customer.csv ノードをダブルクリックします。
右側の 「プロパティー」 パネルで、ノードの名前を
Customer Table
に変更して、資産ノードの名前を変更します。「出力」 タブをクリックします。
カラム セクションを展開し、 編集をクリックしてください。
YTD_SALES 列の場合は、 VARCHAR をクリックし、 DECIMAL を選択して YTD_SALES 列のデータ・タイプを変更します。
適用して戻る をクリックして、「プロパティー」パネルに戻ります。
保存 をクリックして、 顧客テーブル ノードに対する変更を保存します。
ノード 2: フィルター・ノードの編集
フィルター ノードをダブルクリックしてください。
プロパティー パネルで、テキスト
Filter_1
をFilter YTD Sales
に名前変更して、フィルター・ノードの名前を変更します。プロパティー セクションを展開します。 述部の下で、 編集をクリックしてください。
where 節の追加をクリックしてください。
「Where 文節」 列で、
YTD_SALES > 1000
と入力します。「適用して戻る」をクリックします。
「出力」 タブをクリックします。
カラム セクションを展開し、 編集をクリックしてください。
すべての列を選択し、このチュートリアルで保持する以下の列を選択解除します。
- CUST_ID
- CUSTNAME
- COUNTRY_CODE
- EMAIL_ADDRESS
- PHONE_NUMBER
- YTD_SALES
- SALESREP_ID
ごみ箱アイコンをクリックして、選択した残りの列を削除してください。
CUSTNAME 列の名前を
CUSTOMERNAME
に変更します。 この変更は、 フィルター ノードの後に続くノードに伝搬されます。適用して戻る をクリックして、「プロパティー」パネルに戻ります。
保存 をクリックして、 フィルター ノードに対する変更を保存します。
ノード 3: ソート・ノードの編集
ソート ノードをダブルクリックしてください。
プロパティー パネルで、テキスト
Sort_1
をSort YTD Sales
に名前変更して、ソート・ノードの名前を変更します。プロパティー セクションを展開します。
ソート・キーの下で、 編集をクリックしてください。
「鍵の追加」をクリックします。
キー ドロップダウンから、 YTD_SALESを選択してください。
ソート順の場合は、 降順を選択してください。
適用 をクリックして、ソート・キー・リストに戻ります。
適用して戻る をクリックして、「プロパティー」パネルに戻ります。
「入力」 タブをクリックし、 「列」 セクションを展開して、 CUSTOMERNAME 列名の変更が 「フィルター」 ノードから伝搬されていることを確認します。
「出力」 タブをクリックし、 「列」 セクションを展開して、 CUSTOMERNAME 列名の変更が 「フィルター」 ノードから伝搬されていることを確認します。
保存 をクリックして、 ソート ノードに対する変更を保存します。
ノード 4: 最後の資産ブラウザー・ノードの編集
最後の Customers.csv ノードをダブルクリックします。
「プロパティー」 パネルで、ノードの名前を
Customer filtered table
に変更して、資産ノードの名前を変更します。プロパティー セクションを展開し、チェック・ボックス データ資産の作成を選択してください。
データ資産名 フィールドに
Customers filtered
と入力し、 保存をクリックしてください。「入力」 タブをクリックし、 「列」 セクションを展開して、 CUSTOMERNAME 列名の変更が 「フィルター」 ノードから伝搬されていることを確認します。
「保存」 をクリックして、 「顧客フィルター・テーブル」 ノードに対する変更を保存します。
進行状況を確認してください
以下の図は、最終的な DataStage フローを示しています。
タスク 5: DataStage フローを実行して資産を表示する
このタスクをプレビューするには、 06:36から始まるビデオをご覧ください。
これで、フローを実行する準備ができました。 以下のステップに従って、フローを実行し、プロジェクト内の変換された資産を表示します。
保存 をクリックします。
コンパイルをクリックしてください。
「実行 (Run)」 をクリックします。
(オプション) ログ リンクをクリックして、実行の詳細を表示します。
最後の 「顧客フィルター・テーブル」 ノードをダブルクリックします。
プロパティー セクションを展開します。
スクロールダウンして、 データのプレビューをクリックしてください。 データが正しくフィルタリングされ、ソートされていることが分かります。
「グラフ」 パネルをクリックします。
「視覚化する列」で、 「YTD_SALES」を選択します。
「グラフ・タイプ」で、 「Q-Q プロット」をクリックします。
「閉じる」をクリックします。
プロジェクトにデータ資産を作成するようにフローをセットアップしたため、ナビゲーション・トレールでプロジェクト名をクリックして、プロジェクトに戻ります。
「資産」 タブで、 「顧客フィルター」 資産を開きます。
進行状況を確認してください
以下の画像は、フィルタリングされた顧客のデータ資産を示しています。
次のステップ
では、データを使用する準備ができました。 例えば、ユーザーまたは他のユーザーは、以下のいずれかのタスクを実行できます:
その他のリソース
詳しくは、 ビデオを参照してください。
サンプルの DataStage プロジェクト ( COVID-19 Tracking with IBM DataStage) から始めます。
サンプル・データ・セットを見つけて、 リソース・ハブでデータの変換を実践的に体験してください。
この追加チュートリアルをお試しになると、 DataStage フローをさらに実践できるようになります: 新しい IBM DataStage サービスの使用を開始してください
。
親トピック: クイック・スタート・チュートリアル