Data Refinery フローは、データのクレンジング、シェーピング、および拡張を行うための、順序付けられた一連のステップです。 データ・セットに 操作を適用 して データを精製 すると、カスタマイズされた Data Refinery フローが動的に作成されます。このフローはリアルタイムで変更でき、将来使用するために保存できます。
データを詳細化する際に実行できるアクションを以下に示します。
Data Refinery フローの操作
ステップ
- ステップの取り消しまたは再実行
- ステップの編集、複製、挿入、または削除
- 「スナップショット・ビュー」での Data Refinery フロー・ステップの表示
- Data Refinery フロー・データを CSV ファイルにエクスポート
データ・セットの処理
- Data Refinery フローのソースの変更
- サンプル・サイズの編集
- ソース・プロパティーの編集
- Data Refinery フローのターゲットの変更
- ターゲット・プロパティーの編集
- Data Refinery フロー・ターゲットの名前の変更
プロジェクト・ページのアクション
- 作業を続行するための Data Refinery フローの再オープン
- Data Refinery フローの複製
- Data Refinery フローの削除
- スペースへの Data Refinery フローのプロモート
- プロジェクト・アセットを含むData Refineryフロー・データをエクスポートする
Data Refinery フローの操作
Data Refinery フローの保存
Data Refinery フローを保存するには、Data Refinery ツールバーの 保存 Data Refinery フロー アイコン をクリックします。 Data Refinery フローは、作業しているプロジェクトに保存されます。 後でデータ・セットの精製を続行できるように、Data Refinery フローを保存します。
Data Refinery フローのデフォルト出力は、データ資産 source-file-name_shaped.csvとして保存されます。 例えば、ソース・ファイルがmydata.csv
である場合、Data Refinery フローのデフォルトの名前と出力はmydata_csv_shaped
です。 名前を編集し、 Data Refinery フローのターゲットの変更によって拡張子を追加することができます。
Data Refinery フローのジョブの実行またはスケジュール
Data Refinery は、精製に時間がかかり、処理が困難な場合がある大規模なデータ・セットをサポートします。 迅速かつ効率的に作業できるように、Data Refinery は、データ・セット内の行のサンプル・サブセットに対して動作します。 サンプル・サイズは、1 MB または 10,000 行のうち先に到達した方です。 ユーザーが Data Refinery フローのジョブを実行すると、データ・セット全体が処理されます。 ジョブを実行するときは、ランタイムを選択し、一回限りのスケジュールまたは繰り返しのスケジュールを追加できます。
Data Refineryで、Data Refineryツールバーからジョブアイコンをクリックし、ジョブの保存と作成またはジョブの保存と表示を選択します。
Data Refinery フローを保存した後に、「プロジェクト」ページからそのフローに対するジョブを作成することもできます。 資産タブでData Refineryフローを選択し、オーバーフローアイコンから新規ジョブを選択します。
ジョブの詳細を表示したり、ジョブを編集または実行するには、管理者ロールまたはエディターロールが必要です。 プロジェクトのビューアーロールを使用すると、ジョブの詳細のみを表示できます。
ジョブについて詳しくは、 Data Refineryを参照してください。
Data Refinery フローの名前の変更
Data Refinery ツールバーで、Info pane を開きます。 または、フロー設定アイコンをクリックし、全般タブに移動します。
ステップ
ステップの取り消しまたは再実行
ツールバーの取り消しアイコンまたはやり直しアイコンをクリックします。
ステップの編集、複製、挿入、または削除
ステップ」ペインで、変更したい操作のステップのオーバーフローアイコンをクリックします。 アクション (「編集」、 「複製」、 「前にステップを挿入」、 「後にステップを挿入」、または 「削除」) を選択します。
「編集」を選択すると、 Data Refinery が編集モードになり、編集する操作がコマンド行または「操作」ペインに表示されます。 編集した操作を適用します。
「複製」を選択すると、選択したステップの後に複製されたステップが挿入されます。
「重複」 アクションは、 「結合」 操作または 「結合」 操作では使用できません。
Data Refinery は、 Data Refinery フローを更新して変更を反映し、すべての操作を再実行します。
「スナップショット・ビュー」で Data Refinery フロー・ステップを表示する
任意の時点でのデータの見え方を確認するには、前のステップをクリックして Data Refinery をスナップショット・ビューにします。 例えば、 「データ・ソース」をクリックすると、データの詳細化を開始する前のデータの内容が表示されます。 任意の「操作」ステップをクリックすると、その操作が適用された後のデータの見え方を確認できます。 スナップショット・ビューを終了するには、 「ステップ x/y の表示」 をクリックするか、選択したステップと同じステップをクリックしてスナップショット・ビューに入ります。
Data Refinery フロー・データの CSV ファイルへのエクスポート
ツールバーの Export アイコン をクリックすると、Data Refinery フローの現在のステップのデータを、Data Refinery フロー ジョブを保存または実行せずに CSV ファイルにエクスポートできます。 このオプションは、例えば、進行中の Data Refinery フローのクイック出力が必要な場合に使用します。 データをエクスポートすると、 Data Refinery フローの現行ステップで、CSV ファイルが作成され、コンピューターの 「ダウンロード」 フォルダー (またはユーザー指定のダウンロード・ロケーション) にダウンロードされます。 スナップショット・ビューが表示されている場合、CSV ファイルの出力はクリックしたステップにあります。 データのサンプル (サブセット) を表示している場合は、サンプル・データのみが出力されます。
CSVファイルの入力フィールドに悪意のあるペイロード(計算式など)が含まれている場合、これらの項目が実行される可能性があります。
プロジェクト アセットをエクスポートすることで、Data Refinery フローをエクスポートすることもできます。 詳細については、プロジェクト資産のエクスポートを参照してください。
データ・セットの処理
Data Refinery フローのソースの変更
Data Refinery フローのソースを変更します。 同じ Data Refinery フローを、別のソース・データ・セットで実行します。 ソースを変更するには、以下の 2 つの方法があります。
ステップ・ペインでデータ・ソース」の隣にある「オーバーフロー」アイコンの「クリックし、「編集」 を選択して、別のソース・データ・セットを選択します。
'フロー設定: 同じ場所で複数のデータ・ソースを変更する場合は、この方法を使用できます。 例えば、Join 操作または Union 操作の場合などです。 ツールバーのフロー設定アイコン「」をクリックする。 ソース・データ・セット・タブに移動し、データ・ソースの横にあるオーバーフロー・アイコン「」をクリックする。 「データ・ソースの置換」を選択してから、別のソース・データ・セットを選択します。
最良の結果を得るためには、新しいデータ・セットには、元のデータ・セットと互換性のあるスキーマ (列名、列の数、およびデータ・タイプなど) がなければなりません。 新規データ・セットに別のスキーマがある場合、そのスキーマでは機能しない操作にはエラーが表示されます。 操作を編集または削除したり、ソースをより互換性のあるスキーマを持つものに変更したりできます。
ターゲットに接続を選択した場合、 Data Refineryでサポートされているデータソースのリストにある接続のみを使用できます。
サンプル・サイズの編集
Data Refinery フローのジョブを実行すると、データ・セット全体に対して操作が実行されます。 ただし、 Data Refineryで操作を対話式に適用すると、データ・セットのサイズに応じて、データのサンプルのみが表示されます。
サンプル・サイズを大きくすると、 Data Refinery フロー・ジョブの結果に近い結果が表示されますが、 Data Refineryで結果を表示するのに時間がかかる場合があることに注意してください。 最大は、10,000 行または 1 MB のいずれか早い方のトップ行カウントです。 より迅速に結果を表示するには、サンプル・サイズを小さくします。 データのサイズ、および操作の数と複雑さによっては、サンプル・サイズを試して、データ・セットに最適なものを確認することができます。
ツールバーのフロー設定アイコン「」をクリックする。 ソース・データ・セット・タブに移動し、データ・ソースの横にあるオーバーフロー・アイコン「」をクリックし、サンプルの編集を選択する。
ソース・プロパティーの編集
使用可能なプロパティーは、データ・ソースによって異なります。 データ資産と、さまざまな種類の接続からのデータには、異なるプロパティーを使用できます。 推測されたファイル・フォーマットが正しくない場合にのみ、ファイル・フォーマットを変更してください。 ファイル・フォーマットを変更すると、ソースは新しいフォーマットで読み取られますが、ソース・ファイルは変更されません。 フォーマット・ソース・プロパティーの変更は、反復プロセスである可能性があります。 オプションを適用した後で、データを調べてください。
ツールバーのフロー設定アイコン「」をクリックする。 ソース・データセット・タブに移動し、データ・ソースの横にあるオーバーフロー・アイコン「」をクリックし、フォーマットの編集を選択する。
Data Refinery フローのターゲットの変更
デフォルトでは、 Data Refinery のターゲットは、作業中のプロジェクトにデータ資産として保存されます。
ターゲットの場所を変更するには、ツールバーのフロー設定アイコン「」をクリックする。 「ターゲット・データ・セット」 タブに移動し、 「ターゲットの選択」をクリックして、別のターゲット・ロケーションを選択します。
ターゲットに接続を選択した場合、 Data Refineryでサポートされているデータソースのリストにある接続のみを使用できます。 これらの接続の中には、Data Refineryフローのソースとしてのみ使用できるものもある。
ターゲット・プロパティーの編集
使用可能なプロパティーは、データ・ソースによって異なります。 データ資産と、さまざまな種類の接続からのデータには、異なるプロパティーを使用できます。
対象データセットのプロパティを変更するには、ツールバーのフロー設定アイコン「」をクリックする。 「ターゲット・データ・セット」 タブに移動し、 「プロパティーの編集」をクリックします。
Data Refinery フロー・ターゲットの名前の変更
ターゲット・データ・セットの名前は、ターゲット・プロパティーの編集時に変更できるフィールドに組み込まれます。
デフォルトでは、 Data Refinery のターゲットは、データ資産 source-file-name_shaped.csv としてプロジェクトに保存されます。 例えば、ソースが mydata.csv
の場合、 Data Refinery フローのデフォルトの名前と出力は、データ資産 mydata_csv_shaped
です。
接続からのターゲット・データ・セットには、さまざまなプロパティーおよび命名規則が適用されます。 例えば、データ・セットが Cloud Object Storageにある場合、そのデータ・セットは 「バケット」 フィールドと 「ファイル名」 フィールドで識別されます。 データ・セットが Db2 データベース内にある場合、そのデータ・セットは 「スキーマ名」 フィールドと 「表名」 フィールドで識別されます。
詳細は、ターゲット接続オプションを参照。
プロジェクト・ページのアクション
作業を続行するための Data Refinery フローの再オープン
Data Refinery フローを再オープンし、データの精製を続行するには、プロジェクトの「資産」タブに移動します。 「資産タイプ」の下で、 「フロー」を展開し、 Data Refinery 「フロー」をクリックします。 Data Refinery フロー名をクリックします。
Data Refinery フローの複製
Data Refinery フローのコピーを作成するには、プロジェクトの 「資産」 タブに移動し、 「フロー」を展開して、 Data Refinery フローをクリックします。 Data Refineryフローを選択し、オーバーフローアイコン「」から「複製」を選択する。 Data Refinery フローは、Data Refinery フロー・リストに「元の名前コピー 1」として追加されます。
Data Refinery フローの削除
Data Refinery フローを削除するには、プロジェクトの 「資産」 タブに移動し、 「フロー」を展開して、 Data Refinery フローをクリックします。 Data Refineryフローを選択し、オーバーフローアイコン「」から「削除」を選択する。
スペースへの Data Refinery フローのプロモート
デプロイメント・スペースは、プロジェクトとは別の環境で関連資産のセットを管理するために使用されます。 スペースを使用して、watsonx.aiRuntime のデプロイメント ジョブのデータを準備します。 Data Refinery フローを複数のプロジェクトから 1 つのスペースにプロモートできます。 Data Refinery フローはスペースで編集できないため、Data Refinery フローをプロモートする前に、Data Refinery のステップを完了してください。
Data Refinery フローをスペースにプロモートするには、プロジェクトの 「資産」 タブに移動し、 「フロー」を展開して、 Data Refinery フローをクリックします。 Data Refinery フローを選択します。 Data Refineryフローのオーバーフローアイコン「」をクリックし、「プロモート」を選択する。 Data Refinery フローのソース・ファイルおよびその他の従属データもプロモートされます。
スペースのData Refineryフローのジョブを作成または実行するには、スペースのAssetsタブでData Refineryフローまでスクロールダウンし、Overflowアイコン「」からNew jobアイコン「」をクリックします。 既にジョブを作成している場合は、「ジョブ」タブに移動してジョブを編集するか、ジョブ実行の詳細を表示します。 Data Refinery フロー・ジョブのシェーピングされた出力は、スペースの「資産」タブで使用可能になります。 ジョブの詳細を表示したり、ジョブを編集または実行するには、管理者ロールまたはエディターロールが必要です。 プロジェクトの「ビューアー」ロールでは、ジョブの詳細のみを表示できます。 整形された出力は、watsonx.aiRuntime のジョブの入力データとして使用できます。
プロジェクトからスペースに Data Refinery フローをプロモートし、その Data Refinery フローのターゲットが接続済みデータ資産 である場合、その接続済みデータ資産を手動でプロモートする必要があります。 このアクションにより、スペースで Data Refinery フロー・ジョブを実行したときに、接続済みデータ資産のデータが更新されます。 そうしないと、Data Refinery フロー・ジョブが正常に実行されると、スペース内に新規データ資産が作成されます。
スペースについては、『デプロイメント・スペース』を参照してください。
Data Refinery フロー・データをプロジェクト・アセットとともにエクスポートします
プロジェクト アセットをエクスポートすることで、Data Refinery フローをエクスポートすることもできます。 詳細については、プロジェクト資産のエクスポートを参照してください。
親トピック: データの精製