0 / 0
資料の 英語版 に戻る
クイック・スタート: データを詳細化する

クイック・スタート: データを詳細化する

大量の生データを、すぐに分析できる利用可能な高品質の情報に素早く変換することで、データ準備時間を短縮できます。 Data Refinery ツールについて読み、ビデオを見て、コーディングなしで初心者向けのチュートリアルを受けます。

基本的なワークフローには、以下のタスクが含まれます:

  1. サンドボックスプロジェクトを開く。 プロジェクトは、データを処理するために他のユーザーと共同作業できる場所です。
  2. データをプロジェクトに追加します。 接続を介してリモート・データ・ソースからの CSV ファイルまたはデータを追加できます。
  3. Data Refinery でデータを開きます。
  4. 操作を使用してデータを詳細化するステップを実行します。
  5. データを変換するジョブを作成して実行します。

Data Refinery について読んでください

Data Refinery を使用して、グラフィック・フロー・エディターで表データのクレンジングとシェーピングを行います。 対話式テンプレートを使用して、操作、関数、および論理演算子をコーディングすることもできます。 データのクレンジングの場合は、正しくないデータ、不完全データ、不適切にフォーマットされたデータ、または重複したデータを修正または削除します。 データのシェーピング では、列のフィルタリング、ソート、結合または削除、および各種操作の実行によってデータをカスタマイズします。

Data Refinery フローは、データに対する順序付き操作のセットとして作成します。 Data Refinery には、データをプロファイルして検証するためのグラフィカル・インターフェース、およびデータのパースペクティブと洞察を提供する 20 を超えるカスタマイズ可能なグラフが含まれます。 整形されたデータ・セットを保存するときは、通常、そのデータ・セットを、読み取った場所とは別の場所にロードします。 これにより、ソース・データは整形プロセスによって影響を受けません。

データの詳細化について詳しく見る

データの詳細化に関するビデオを見る

< このビデオを見て、データを詳細化にする方法を確認してください。

このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。


データを詳細化するためのチュートリアルをお試しください

このチュートリアルでは、以下のタスクを実行します:

このチュートリアルを完了するための所要時間は約 30 分です。





このチュートリアルを完了するためのヒント
このチュートリアルを成功させるためのヒントを紹介します。

ビデオのピクチャー・イン・ピクチャーを使う

ヒント:ビデオを開始し、チュートリアルをスクロールすると、ビデオはピクチャ・イン・ピクチャ・モードに移行します。 ピクチャー・イン・ピクチャーで最高の体験をするために、ビデオの目次を閉じてください。 ピクチャ・イン・ピクチャ・モードを使用すると、このチュートリアルのタスクを完了しながらビデオを追うことができます。 各タスクのタイムスタンプをクリックしてください。

次のアニメーション画像は、ビデオのピクチャー・イン・ピクチャーと目次機能の使い方を示しています:

ピクチャー・イン・ピクチャーとチャプターの使い方

地域の助けを借りる

このチュートリアルで助けが必要な場合は、watsonx コミュニティ ディスカッション フォーラムで質問したり、答えを見つけることができます。

ブラウザのウィンドウを設定する

このチュートリアルを最適に完了するには、Cloud Pak for Data を 1 つのブラウザ ウィンドウで開き、このチュートリアルのページを別のブラウザ ウィンドウで開いておくと、2 つのアプリケーションを簡単に切り替えることができます。 2つのブラウザウィンドウを横に並べると、より見やすくなります。

サイド・バイ・サイドのチュートリアルとUI

ヒント: このチュートリアルを完了する際に、ユーザーインターフェイスでガイドツアーが表示された場合は、後でをクリックしてください。



タスク 1:プロジェクトを開く

データと Data Refinery フローを保管するためのプロジェクトが必要です。 サンドボックス・プロジェクトを使うことも、プロジェクトを作成することもできる。

  1. ナビゲーション・メニュー ナビゲーション・メニューから、プロジェクト > すべてのプロジェクトを表示を選択します

  2. サンドボックスプロジェクトを開く。 新しいプロジェクトを使いたい場合:

    1. 新規プロジェクトをクリックしてください。

    2. 「空のプロジェクトの作成」を選択します。

    3. プロジェクトの名前と任意の説明を入力します。

    4. 既存の オブジェクト・ストレージ・サービス・インスタンス を選択するか、または新規作成します。

    5. 「作成」 をクリックします。

チェックポイント・アイコン 進捗状況を確認する



以下の画像は、新しい空のプロジェクトを示しています

次の画像は、新しい空のプロジェクトです。

詳細やビデオについては、プロジェクトの作成をご覧ください。




タスク 2: Data Refinery でデータセットを開く

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 00:05から始まるビデオをご覧ください。

以下の手順に従って、プロジェクトにデータ アセットを追加し、Data Refinery フローを作成してください。 このチュートリアルで使用するデータセットは、リソース・ハブで入手できます。

  1. リソースハブの航空会社データにアクセスします。

  2. プロジェクトに追加をクリックしてください。

  3. リストからプロジェクトを選択し、追加をクリックします。

  4. データ・セットが追加されたら、 プロジェクトの表示をクリックしてください。

    リソース ハブのデータ アセットをプロジェクトに追加する方法の詳細については、ノートブックのデータのロードとアクセスを参照してください。

  5. Assets タブで、airline-data.csv データ アセットをクリックして、その内容をプレビューします。

  6. Prepare dataをクリックしてファイルのサンプルをData Refineryで開き、Data Refineryがデータのサンプルを読み込んで処理するまで待ちます。

  7. 情報ステップパネルを閉じます。

チェックポイント・アイコン 進捗状況を確認する

次の画像は、Data Refinery.

で開いている航空会社のデータ資産です

次の画像は、Data Refinery で開いている航空会社のデータ資産を示しています。




タスク3:プロファイルとビジュアライゼーションでデータを見直す

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 00:47から始まるビデオをご覧ください。

資産の内容は、これらの列の値に基づいて自動的にプロファイリングされ、分類されます。 「プロファイル」タブと「視覚化」タブを使用してデータを探索するには、以下の手順に従ってください。

ヒント: プロファイルページとビジュアライゼーションページを使用して、データを絞り込む際の変化を表示します。
  1. 外れ値を見つけるために、「プロファイル」タブをクリックして、データの度数分布を確認します。

    1. 列をスクロールして、各列の統計を見る。 統計には、各列の 4 分位範囲、最小値、最大値、中央値、および標準偏差が示されます。

    2. バーにカーソルを合わせると、詳細が表示されます。

    以下の画像はプロフィールタブを示しています:
    「プロファイル」タブ

  2. 視覚化 タブをクリックしてください。

    1. 視覚化するために UniqueCarrier 列を選択してください。 推奨されるグラフには、そのアイコンの横に青いドットが表示されます。

    2. パイチャートをクリックする。 グラフ内で使用可能なさまざまなパースペクティブを使用して、データ内のパターン、接続、および関係を識別します。

チェックポイント・アイコン 進捗状況を確認する

次の図は「Visualizations」タブを示しています。 これでデータを絞り込む準備ができた。

「視覚化」タブ




タスク4:データを改良する

Data Refinery の操作

Data Refinery は、 GUI 操作コーディング操作の 2 種類の操作を使用してデータを詳細化にします。 このチュートリアルでは両方の種類の操作を使用します。

  • GUI 操作は複数のステップで構成できます。 新規ステップから操作を選択します。 GUI操作のサブセットは、各カラムのオーバーフローメニュー(オーバーフロー・メニュー)からも利用できます。

    Data Refinery でファイルを開くと、ストリング以外のデータ・タイプを推論されたデータ・タイプ (例えば、整数、日付、ブールなど) に変換するための最初のステップとして、 列タイプの変換操作が自動的に適用されます。 このステップは、元に戻すことも編集することもできます。

  • コーディング操作は、操作、関数、および論理演算子をコーディングするための対話式テンプレートです。 ほとんどの操作には対話式のヘルプがあります。 コマンド・ライン・テキスト・ボックスで操作名をクリックすると、コーディング操作とその構文オプションを確認できます。

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、01:16から始まるビデオを見てください。

データの精製は、Data Refinery フローを構築するための一連のステップです。 このタスクを進める際には、ステップパネルを表示して、進捗状況を確認しましょう。 ステップを選択して削除または編集することができます。 間違えた場合は、元に戻すアイコン元に戻すをクリックすることもできます。 以下の手順でデータを絞り込む:

  1. データ タブに戻ります。

  2. Year 列を選択してください。 オーバーフローメニュー(オーバーフロー・メニュー)をクリックし、降順に並べ替えるを選択します。

  3. ステップをクリックすると、ステップパネルに新しいステップが表示されます。

  4. 特定の航空会社の遅延にフォーカスする。 このチュートリアルではユナイテッド航空 (UA) を使用しますが、任意の航空会社を選択できます。

    1. 新規ステップをクリックし、GUI 操作 フィルターを選択してください。

    2. UniqueCarrier 列を選択してください。

    3. Operatorの場合は、 Is equal toを選択してください。

    4. には、遅延情報を表示する航空会社のストリングを入力します。 例えば、UA.
      フィルター操作 のように

    5. 「適用」をクリックします。 UniqueCarrier 列までスクロールして、結果を確認します。

  5. 到着と出発の遅延時間を合計する新規列を作成します。

    1. DepDelay列を選択する。

    2. 値が数値であるすべての列のストリング・データ型を整数データ型に変換するための最初のステップとして、 列タイプの変換 操作が自動的に適用されたことに注意してください。

    3. 新規ステップをクリックし、GUI 操作 計算を選択してください。

    4. Operatorの場合は、 Additionを選択してください。

    5. を選択し、ArrDelay列を選択する。

    6. 「結果用の新規列を作成する (Create new column for results)」を選択します。

    7. 新しいカラム名には、TotalDelay.
      計算操作と入力する

    8. 新しい列は、列のリストの最後、または元の列の隣に配置することができます。 この場合、元の列の次を選択する。

    9. 「適用」をクリックします。 新しいカラム、TotalDelayが追加される。

  6. 新しい TotalDelay 列をデータ・セットの先頭に移動します:

    1. コマンド行テキスト・ボックスで、 選択 操作を選択してください。

    2. selectという単語をクリックし、select(`<column>`, everything())を選ぶ。

    3. `<column>`をクリックし、 TotalDelay 列を選択してください。 完了すると、コマンドは次のようになります。

      select(`TotalDelay`, everything())
      
    4. 「適用」をクリックします。 今、 TotalDelay 列が最初の列になります。

  7. データを 4 つの列 ( YearMonthDayofMonth、および TotalDelay) に削減します。 group_by コーディング操作を使用して、列を年、月、日のグループに分割してください。

    1. command-line テキスト・ボックスで、 group_by 操作を選択してください。

    2. <column>をクリックしてから、 列を選択してください。

    3. 右括弧の前に ,Month,DayofMonthと入力してください。 完了すると、コマンドは次のようになります。

      group_by(`Year`,Month,DayofMonth)
      
    4. 「適用」をクリックします。

    5. TotalDelay 列には、 選択 コーディング操作を使用します。 コマンド行テキスト・ボックスで、 選択 操作を選択してください。
      <column>をクリックし、 TotalDelay 列を選択してください。 コマンドは次のようになります。

      select(`TotalDelay`)
      
    6. 「適用」をクリックします。 形状化されたデータは、 YearMonthDayofMonth、および TotalDelay の各列で構成されるようになりました。


      Data Refinery フローの最初の 4 行 (「Year」列、「Month」列、「DayofMonth」列、および「TotalDelay」列) 以下の画面は、データの最初の4行を示している

  8. TotalDelayカラムの値の平均を表示し、新しいAverageDelayカラムを作成する:

    1. 「新規ステップ」をクリックし、GUI 操作 「集計」を選択します。

    2. には、TotalDelayを選択します。

    3. 演算子では、平均を選択する。

    4. 集約された列の名前には、AverageDelay.
      集計操作と入力する

    5. 「適用」をクリックします。

      新しい列AverageDelayは、すべての遅延時間の平均である。

チェックポイント・アイコン 進捗状況を確認する



以下の画像は、データの最初の4行を示している

次の画面イメージは、データの最初の4行を示している。




タスク 5: Data Refineryフローのジョブの実行

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 04:16から始まるビデオをご覧ください。

Data Refinery フローのジョブを実行すると、各ステップがデータ・セット全体で実行されます。 ユーザーはランタイムを選択して、1 回限りのスケジュールか繰り返しのスケジュールを追加します。 Data Refinery フローの出力は、プロジェクトのデータ資産に追加されます。 以下の手順に従ってジョブを実行し、洗練されたデータセットを作成します。

  1. Data Refinery ツールバーから求人情報 アイコンをクリックし、ジョブの保存と作成.
    ジョブを保存して作成 を選択する

  2. ジョブの名前と説明を入力し、 次へをクリックしてください。

  3. ランタイム環境を選択し、 次へをクリックしてください。

  4. (オプション) トグル・ボタンをクリックして実行をスケジュールします。 日付、時刻、およびジョブを繰り返すかどうかを指定し、 次へをクリックしてください。

  5. (オプション) このジョブの通知をオンにし、 次へをクリックしてください。

  6. 詳細を確認し、Create and runをクリックすると、すぐにジョブが実行されます。
    create job

  7. ジョブが作成されたら、通知内の ジョブの詳細 リンクをクリックして、プロジェクト内のジョブを表示します。 あるいは、プロジェクトの ジョブ タブにナビゲートし、ジョブ名をクリックして開くこともできます。

  8. ジョブのステータス完了の場合、プロジェクトのナビゲーショントレイルを使用して、プロジェクトの資産タブに戻ります。

  9. Data > Data assets セクションをクリックすると、Data Refinery フローの出力、airline-data_shaped.csv が表示されます。

  10. フロー > Data Refineryフローセクションをクリックすると、Data Refineryフロー、airline-data.csv_flowが表示されます。

チェックポイント・アイコン 進捗状況を確認する

次の画像は、Data Refinery フローと

形成されたアセットのあるアセットタブを示しています

次の図は、Data Refinery フローとシェイプされたアセットがある Assets タブを示しています。




タスク 6: Data Refinery フローから別のデータ アセットを作成する

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、05:26から始まるビデオを見てください。

以下の手順に従って、Data Refinery フローを編集してデータセットをさらに絞り込みます:

  1. airline-data.csv_flow をクリックして、Data Refinery でフローを開きます。

  2. AverageDelayカラムを降順にソートする。

    1. AverageDelay列を選択します。

    2. 列のオーバーフローメニュー(オーバーフロー・メニュー)をクリックし、降順ソートを選択します。

  3. フロー設定アイコンフロー設定をクリックします。

  4. 対象データセットパネルをクリックします。

  5. プロパティの編集をクリックします。

    1. Format target propertiesダイアログで、データ資産名をairline-data_sorted_shaped.csv.
      出力ファイル名の変更 に変更する

    2. 保存をクリックして、フローの設定に戻ります。

  6. 「適用」をクリックして設定を保存します。

  7. Data Refineryツールバーから、ジョブアイコンをクリックし、ジョブの保存と表示を選択します。
    ジョブを保存して表示

  8. 航空会社データのジョブを選択してから、 表示をクリックしてください。

  9. ジョブ・ウィンドウツールバーから、ジョブの実行アイコンをクリックします。
    ジョブの実行

チェックポイント・アイコン 進捗状況を確認する



以下の画像は完了したジョブの詳細です

次の画像は、完了したジョブの詳細を示しています。




タスク 7: プロジェクト内のデータ資産と Data Refinery フローを表示する

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、06:40から始まるビデオを見てください。

次の手順に従って、3つのデータ資産(オリジナル、1つ目の精製データセット、2つ目の精製データセット)を表示します:

  1. ジョブが完了したら、プロジェクト・ページに移動します。

  2. 「資産」タブをクリックします。

  3. データ資産 セクションに、アップロードした元のデータ・セットと、2 つの Data Refinery フローの出力が表示されます。

    • airline-data_sorted_shaped.csv
    • airline-data_csv_shaped
    • airline-data.csv
  4. airline-data_csv_shapedデータアセットをクリックすると、ソートされていない平均遅延が表示されます。 資産タブに戻ります。

  5. airline-data_sorted_shaped.csv データ資産をクリックすると、降順にソートされた平均遅延が表示されます。 資産タブに戻ります。

  6. フロー > Data Refineryフローセクションをクリックすると、Data Refineryフローが表示されます:airline-data.csv_flow.

チェックポイント・アイコン 進捗状況を確認する



以下の画像は、すべてのアセットが表示された「アセット」タブを示しています

次の図は、すべてのアセットが表示されたAssetsタブを示しています。



次のステップ

では、データを使用する準備ができました。 例えば、ユーザーまたは他のユーザーは、以下のいずれかのタスクを実行できます:

その他のリソース

親トピック: クイック・スタート・チュートリアル

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細