クイック・スタート: データを詳細化する

大量の生データを、すぐに分析できる利用可能な高品質の情報に素早く変換することで、データ準備時間を短縮できます。 Data Refinery ツールについて読み、ビデオを見て、コーディングなしで初心者向けのチュートリアルを受けます。

基本的なワークフローには、以下のタスクが含まれます:

  1. プロジェクトを作成する プロジェクトでは、データを処理するために他のユーザーと共同作業する場所です。
  2. データをプロジェクトに追加します。 接続を介してリモート・データ・ソースから CSV ファイルまたはデータを追加できます。
  3. Data Refinery でデータを開きます。
  4. 操作を使用してデータを詳細化するステップを実行します。
  5. データを変換するためにジョブを作成して実行します。

Data Refinery について読んでください

Data Refinery を使用して、グラフィック・フロー・エディターで表データのクレンジングとシェーピングを行います。 対話式テンプレートを使用して、操作、関数、および論理演算子をコーディングすることもできます。 データのクレンジングでは、正しくないデータ、不完全なデータ、フォーマットが適切でないデータ、重複しているデータを修正または削除します。 データのシェーピングでは、列のフィルタリング、ソート、結合または削除、および各種操作の実行によってデータをカスタマイズします。

Data Refinery フローは、データに対する順序付き操作のセットとして作成します。 Data Refinery には、データをプロファイルして検証するためのグラフィカル・インターフェース、およびデータのパースペクティブと洞察を提供する 20 を超えるカスタマイズ可能なグラフが含まれます。 精製されたデータ・セットを保存するときは、通常、そのデータ・セットを、読み取った場所とは別の場所にロードします。 これにより、ソース・データは精製プロセスによって影響を受けません。

データの詳細化について詳しく見る

データの詳細化に関するビデオを見る

ビデオを見る このビデオを見て、データを詳細化にする方法を確認してください。

このビデオでは、本書に記載されている手順に従う代わりの方法として、視覚方式を提供します。

  • 時間 トランスクリプト
    00:00 このビデオでは、Data Refinery を使用して生データをシェーピングする方法を説明します。
    00:05 プロジェクトからデータの詳細化を開始するには、データ資産を閲覧して 「Data Refinery」 で開きます。
    00:14 「詳細」ペインには、データフローの名前と、データの詳細化が終わった後のデータ・フロー出力の名前が表示されます。
    00:21 「ヘルプ」ペインには、現在フォーカスがある要素のコンテキスト・ヘルプが提供され、データの詳細化作業を行います。
    00:31 「データ」タブには、データ・セット内の行と列のサンプル・セットが表示されます。
    00:36 パフォーマンスを向上させるために、シェーパー内のすべての行が表示されるわけではありません。
    00:40 ただし、データの詳細化が完了すると、データ・フローはデータ・セット全体に対して実行されます。
    00:48 「プロファイル」タブには、各列の頻度と要約統計が表示されます。
    00:56 「視覚化」タブは、関心のある列のデータ視覚化を提供します。
    01:03 グラフ・タイプを指定したり、グラフ・オプションを変更したりして、よりよく視覚化することができます。
    01:14 右側のアイコンを使用すると、チャートをイメージとして保存し、チャートを復元し、ズームインおよびズームアウトすることができます。
    01:23 また、「アクション」セクションのアイコンを使用すると、最初からやり直すこと、グラフにデータ・ラベルを表示すること、グラフの詳細またはグラフ・イメージをダウンロードすること、および設定を変更することができます。
    01:38 では、いくつかのデータ・ラングリングを行いましょう。
    01:40 指定された列 (この場合は 「Year」 列) でのソートなど、単純な操作から開始します。
    01:48 例えば、特定の航空会社の遅延のみに焦点を当てたいとします。これにより、データをフィルタリングして、固有の航空会社がユナイテッド航空である行のみを表示することができます。
    02:04 合計遅延を確認すると役に立ちます。
    02:06 到着遅延と出発遅延を結合する新しい列を作成してこれを行います。
    02:13 列タイプは整数であると推測されることに注意してください。
    02:18 「到着遅延」列を選択し、「計算」操作を使用します。
    02:25 この場合、選択した列に出発遅延を追加し、「TotalDelay」という名前の新しい列を作成します。
    02:38 新しい列は、列のリストの末尾に表示されます。
    02:43 間違えた場合、または単に変更することにした場合は、データ・フローにアクセスしてそのステップを削除するだけです。
    02:51 これにより、その特定の操作が元に戻されます。
    02:55 「やり直し」ボタンと「元に戻す」ボタンを使用することもできます。
    02:59 次に、「TotalDelay」 列にフォーカスを置いて、選択操作を使用して列を先頭に移動できるようにします。
    03:09 このコマンドは、TotalDelay 列をリストの最初の列として配置し、それ以降のすべての列を表示します。
    03:19 次に、group_by 操作を使用して、データを Year、Month、および DayofMonth によってグループに分割します。
    03:30 したがって、「TotalDelay」列を選択すると、「Year」列、「Month」列、「DayofMonth」列、および「TotalDelay」列を閲覧できます。
    03:40 最後に、TotalDelay 列の平均値を見つける必要があります。
    03:44 「操作」メニューを展開すると、「編成」セクションに「平均値 」機能を含む「集約」操作が表示されます。
    04:01 これで、合計遅延の平均を表す「delay」という名前の新しい列が作成されました。
    04:10 ここで、データ・フローを実行するために、ジョブを保存して作成します。
    04:17 ジョブの名前を指定して、次の画面に進みます。
    04:21 「構成」ステップでは、ジョブ実行の入出力がどのようなものになるかを確認できます。
    04:29 ジョブのスケジューリングはオプションですが、必要に応じて日付を設定し、ジョブを繰り返すことができます。
    04:38 すべて問題ないように見えるため、ジョブを作成して実行します。
    04:42 データ・フローがフル・データ・セットで実行されることに注意してください。これには数分かかることがあります。
    04:49 それまでは、状況を表示できます。
    04:53 実行が完了したら、「資産」タブに戻り、「Data Refinery」 フローを開いてデータをさらに詳細化できます。
    05:05 例えば、遅延列を降順にソートすることができます。
    05:11 次に、詳細を編集してください。
    05:14 外部データ・ソースなどの代替ロケーションを指定したり、データ・フロー名を変更したり、Data Refinery フロー名を変更したりすることができます。
    05:31 ここで、データ・フローを再度実行します。ただし、今回は、ジョブを保存して表示します。
    05:38 表示するジョブをリストから選択し、ジョブを実行します。
    05:48 実行が完了したら、プロジェクトに戻り、「資産」タブに以下の 3 つのファイルが表示されます:
    05:58 オリジナル。
    06:01 最初の詳細化されたデータ・セットはソートされていない平均遅延を示します。
    06:07 2 番目のデータ・セットには、降順にソートされた遅延列が表示されます。
    06:16 その下に、データ・フローが表示されます。
    06:23 Cloud Pak for Data as a Service の資料には他にもビデオがあります。

データを詳細化するためのチュートリアルをお試しください

このチュートリアルでは、以下を行います。

  • プロジェクトを作成する
  • データをプロジェクトにロードします。
  • Data Refinery でデータ・セットを開きます。
  • プロファイルと視覚化を使用してデータを確認します。
  • Data Refinery フローのジョブを実行します。
  • Data Refinery フローから別のデータ資産を作成します。
  • プロジェクト内のデータ資産と Data Refinery フローを表示します。

このチュートリアルを完了するための所要時間は約 30 分です。

ステップ 1: プロジェクトを作成する

データと Data Refinery フローを保管するためのプロジェクトが必要です。

  1. 既存のプロジェクトがある場合は、それを開きます。 既存のプロジェクトがない場合は、ホーム・ページで プロジェクトの作成 をクリックするか、またはプロジェクト ページで 新規プロジェクト をクリックしてください。
  2. 「空のプロジェクトの作成」を選択します。
  3. プロジェクトの作成 画面で、プロジェクトの名前と説明 (オプション) を追加してください。
  4. 既存の オブジェクト・ストレージ・サービス・インスタンス を選択するか、または新規作成します。

  5. 「作成」をクリックします。

詳細について、またはビデオを見るには、 プロジェクトの作成を参照してください。

ステップ 2: Data Refinery でデータ・セットを開く

以下のステップに従って、Data Refinery フローを作成します。

「プロファイル」タブと「視覚化」タブを使用してデータを探索するには、以下の手順に従ってください。

  1. プロファイル タブをクリックして、データの頻度分布を確認し、外れ値を見つけます。 統計には、各列の 4 分位範囲、最小値、最大値、中央値、および標準偏差が示されます。
  2. 視覚化 タブをクリックしてください。 視覚化するために UniqueCarrier 列を選択してください。 推奨されるグラフは、アイコンの横に青い点が表示されます。 円グラフ アイコンをクリックして、データを視覚化します。 グラフ内で使用可能なさまざまなパースペクティブを使用して、データ内のパターン、接続、および関係を識別します。

ヒント:「プロファイル」と「視覚化」ページを使用して、詳細化するデータの変更を表示します。

ステップ 4: データを詳細化にする

Data Refinery は、 GUI 操作コーディング操作の 2 種類の操作を使用してデータを詳細化にします。 このチュートリアルでは両方の種類の操作を使用します。 データの詳細化は、 Data Refinery フローを構築するための一連のステップです。 このチュートリアルを進めながら、 ステップ パネルを閲覧して進行状況を確認します。 ステップを選択して削除または編集することができます。 間違えた場合は、「元に戻す」アイコン Undo iconをクリックすることもできます。

  1. データ タブに戻ります。
  2. Year 列を選択してください。 アクション メニュー (アクション・アイコン 3 垂直ドット) をクリックし、 降順にソートを選択してください。
  3. ステップ をクリックして、 ステップ パネルを表示します。
  4. 特定の航空会社の遅延にフォーカスする。 このチュートリアルではユナイテッド航空 (UA) を使用しますが、任意の航空会社を選択できます。
    1. 新規ステップをクリックし、GUI 操作 フィルターを選択してください。
    2. UniqueCarrier 列を選択してください。
    3. Operatorの場合は、 Is equal toを選択してください。
    4. には、遅延情報を表示する航空会社のストリングを入力します。 例えば、UAなどです。
    5. 「適用」をクリックします。 UniqueCarrier 列までスクロールして、結果を確認します。
  5. 到着と出発の遅延時間を合計する新規列を作成します。
    1. ArrDelay 列を選択してください。
    2. 値が数値であるすべての列のストリング・データ型を整数データ型に変換するための最初のステップとして、 列タイプの変換 操作が自動的に適用されたことに注意してください。
    3. 新規ステップをクリックし、GUI 操作 計算を選択してください。
    4. Operatorの場合は、 Additionを選択してください。
    5. Columnを選択してから、 DepDelay 列を選択してください。
    6. 結果の新しい列を作成する を選択してください。
    7. 新しい列名の場合は、 TotalDelayと入力します。
    8. 「適用」をクリックします。 新しい列 TotalDelayが、列のリストの末尾に追加されます。
  6. 新しい TotalDelay 列をデータ・セットの先頭に移動します:
    1. コマンド行テキスト・ボックスで、 選択 操作を選択してください。
    2. 選択という語をクリックしてから、 select(`<column>`, everything())を選択してください。
    3. `<column>`をクリックし、 TotalDelay 列を選択してください。 完了すると、コマンドは次のようになります。
      select(`TotalDelay`, everything())
      
    4. 「適用」をクリックします。 今、 TotalDelay 列が最初の列になります。
  7. データを 4 つの列 ( YearMonthDayofMonth、および TotalDelay) に削減します。 group_by コーディング操作を使用して、列を年、月、日のグループに分割してください。
    1. command-line テキスト・ボックスで、 group_by 操作を選択してください。
    2. <column>をクリックしてから、 列を選択してください。
    3. 右括弧の前に ,Month,DayofMonthと入力してください。 完了すると、コマンドは次のようになります。
      group_by(`Year`,Month,DayofMonth)
      
    4. 「適用」をクリックします。
    5. TotalDelay 列には、 選択 コーディング操作を使用します。 コマンド行テキスト・ボックスで、 選択 操作を選択してください。
      <column>をクリックし、 TotalDelay 列を選択してください。 コマンドは次のようになります。
      select(`TotalDelay`)
      
    6. 「適用」をクリックします。 形状化されたデータは、 YearMonthDayofMonth、および TotalDelay の各列で構成されるようになりました。
  8. TotalDelay 列の値の平均を表示し、新しい delay 列を作成してください:
    1. TotalDelay 列が選択されていることを確認し、 新規ステップをクリックしてから、GUI 操作 Aggregateを選択してください。
    2. AGGREGATION 1の場合は、 平均値を選択してください。
    3. 集約列の名前の場合は、 delayと入力してください。
    4. 「適用」をクリックします。 新しい列 遅延 は、すべての遅延時間の平均です。

ステップ 5: Data Refinery フローのジョブを実行する

Data Refinery フローのジョブを実行すると、各ステップがデータ・セット全体で実行されます。 ユーザーはランタイムを選択して、1 回限りのスケジュールか繰り返しのスケジュールを追加します。 Data Refinery フローの出力は、プロジェクトのデータ資産に追加されます。

  1. Data Refinery ツールバーから、ジョブ・アイコンをクリックし、 保存してジョブを作成を選択してください。
  2. ジョブの名前と説明を入力し、 次へをクリックしてください。
  3. ランタイム環境を選択し、 次へをクリックしてください。
  4. (オプション) トグル・ボタンをクリックして実行をスケジュールします。 日付、時刻、およびジョブを繰り返すかどうかを指定し、 次へをクリックしてください。
  5. (オプション) このジョブの通知をオンにし、 次へをクリックしてください。
  6. 詳細を確認し、 作成して実行 をクリックしてジョブを即時に実行してください。
  7. ジョブが作成されたら、通知内の ジョブの詳細 リンクをクリックして、プロジェクト内のジョブを表示します。 あるいは、プロジェクトの ジョブ タブにナビゲートし、ジョブ名をクリックして開くこともできます。
  8. ジョブの 状況完了した場合、プロジェクトのパンくずリストを使用して、プロジェクトの 資産 タブに戻ります。 データ資産 セクションには、Data Refinery フロー airline-data_shaped.csvの出力が表示されます。Data Refinery フロー セクションに、Data Refinery フローのデフォルト名が airline-data.csv_flowと表示されます。

ステップ 6: Data Refinery フローからの別のデータ資産を作成する

Data Refinery フローを編集して、データ・セットをさらに詳細化します。

  1. クリックして airline-data.csv_flowを開きます。 フローが Data Refinery で開きます。
  2. 遅延 列を降順にソートします。
    1. 遅延 列を選択します。
    2. 列の アクション メニュー (アクション・アイコン 3 垂直ドット) をクリックし、 降順にソートを選択します。
  3. 詳細 ペインで、 編集をクリックしてください。
  4. DATA REFINERY FLOW OUTPUT ペインで、 出力の編集をクリックしてください。 DATA SET NAMEairline-data_sorted_shaped.csv に変更します
  5. チェック・マーク をクリックして変更を保存します。
  6. 「完了」をクリックします。
  7. Data Refinery ツールバーから、 ジョブ アイコンをクリックし、 保存してジョブを表示を選択してください。
  8. 航空会社データのジョブを選択してから、 表示をクリックしてください。
  9. 「ジョブ」ウィンドウ ツールバーから、 ジョブの実行 アイコンをクリックしてください。

ステップ 7: プロジェクト内のデータ資産と Data Refinery フローを表示する

次に、元のデータ資産、最初の詳細化データ・セット、および 2 番目の詳細化データ・セットの 3 つのデータ資産を表示します。

  1. ジョブが完了したら、プロジェクト・ページに移動します。
  2. 「資産」タブをクリックします。
  3. データ資産 セクションに、アップロードした元のデータ・セットと、2 つの Data Refinery フローの出力が表示されます。

    • airline-data_sorted_shaped.csv
    • airline-data_csv_shaped
    • airline-data.csv

    airline-data_csv_shaped データ資産をクリックすると、ソートされていない平均遅延が表示されます。 airline-data_sorted_shaped.csv データ資産をクリックすると、降順にソートされた平均遅延が表示されます。 Data Refinery フロー セクションには、Data Refinery フローが表示されます: airline-data.csv_flow.

次のステップ

これで、データを使用する準備ができました。 例えば、ユーザーまたは他のユーザーは、以下のいずれかのタスクを実行できます:

追加リソース

親トピック: データの準備の開始