Data Refinery フローの管理 | IBM Cloud Pak for Data as a Service

資料の英語版に戻る

Data Refinery フローの管理

最終更新: 2024年12月05日

Data Refinery フローの管理

Data Refinery フローは、データのクレンジング、シェーピング、および拡張を行うための、順序付けられた一連のステップです。データ・セットに操作を適用してデータを精製すると、カスタマイズされた Data Refinery フローが動的に作成されます。このフローはリアルタイムで変更でき、将来使用するために保存できます。

データを詳細化する際に実行できるアクションを以下に示します。

Data Refinery フローの操作

Data Refinery フローの保存
Data Refinery フローのジョブの実行またはスケジュール
Data Refinery フローの名前の変更

ステップ

ステップの取り消しまたは再実行
ステップの編集、複製、挿入、または削除
「スナップショット・ビュー」での Data Refinery フロー・ステップの表示
Data Refinery フロー・データを CSV ファイルにエクスポート

データ・セットの処理

Data Refinery フローのソースの変更
サンプル・サイズの編集
ソース・プロパティーの編集
Data Refinery フローのターゲットの変更
ターゲット・プロパティーの編集
Data Refinery フロー・ターゲットの名前の変更

プロジェクト・ページのアクション

作業を続行するための Data Refinery フローの再オープン
Data Refinery フローの複製
Data Refinery フローの削除
スペースへの Data Refinery フローのプロモート
プロジェクト・アセットを含むData Refineryフロー・データをエクスポートする

Data Refinery フローの操作

Data Refinery フローの保存

Data Refinery フローを保存するには、Data Refinery ツールバーの 保存 Data Refinery フロー アイコン Data Refinery フロー・アイコンの保存をクリックします。 Data Refinery フローは、作業しているプロジェクトに保存されます。後でデータ・セットの精製を続行できるように、Data Refinery フローを保存します。

Data Refinery フローのデフォルト出力は、データ資産 source-file-name_shaped.csvとして保存されます。例えば、ソース・ファイルがmydata.csvである場合、Data Refinery フローのデフォルトの名前と出力はmydata_csv_shapedです。名前を編集し、 Data Refinery フローのターゲットの変更によって拡張子を追加することができます。

Data Refinery フローのジョブの実行またはスケジュール

Data Refinery は、精製に時間がかかり、処理が困難な場合がある大規模なデータ・セットをサポートします。迅速かつ効率的に作業できるように、Data Refinery は、データ・セット内の行のサンプル・サブセットに対して動作します。サンプル・サイズは、1 MB または 10,000 行のうち先に到達した方です。ユーザーが Data Refinery フローのジョブを実行すると、データ・セット全体が処理されます。ジョブを実行するときは、ランタイムを選択し、一回限りのスケジュールまたは繰り返しのスケジュールを追加できます。

Data Refineryで、Data Refineryツールバーからジョブアイコンジョブ・アイコンをクリックし、ジョブの保存と作成またはジョブの保存と表示を選択します。

Data Refinery フローを保存した後に、「プロジェクト」ページからそのフローに対するジョブを作成することもできます。資産タブでData Refineryフローを選択し、オーバーフローアイコンオーバーフロー・メニューから新規ジョブを選択します。

ジョブの詳細を表示したり、ジョブを編集または実行するには、管理者ロールまたはエディターロールが必要です。プロジェクトのビューアーロールを使用すると、ジョブの詳細のみを表示できます。

ジョブについて詳しくは、 Data Refineryを参照してください。

Data Refinery フローの名前の変更

Data Refinery ツールバーで、Info pane 情報ペイン・アイコンを開きます。または、フロー設定アイコンをクリックし、全般タブに移動します。

ステップ

ステップの取り消しまたは再実行

ツールバーの取り消しアイコン「元に戻す」アイコンまたはやり直しアイコン「やり直す」アイコンをクリックします。

ステップの編集、複製、挿入、または削除

ステップ」ペインで、変更したい操作のステップのオーバーフローアイコンオーバーフロー・メニューをクリックします。アクション (「編集」、 「複製」、 「前にステップを挿入」、 「後にステップを挿入」、または 「削除」) を選択します。

「編集」を選択すると、 Data Refinery が編集モードになり、編集する操作がコマンド行または「操作」ペインに表示されます。編集した操作を適用します。
「複製」を選択すると、選択したステップの後に複製されたステップが挿入されます。

注:

「重複」 アクションは、 「結合」 操作または 「結合」 操作では使用できません。

Data Refinery は、 Data Refinery フローを更新して変更を反映し、すべての操作を再実行します。

「スナップショット・ビュー」で Data Refinery フロー・ステップを表示する

任意の時点でのデータの見え方を確認するには、前のステップをクリックして Data Refinery をスナップショット・ビューにします。例えば、 「データ・ソース」をクリックすると、データの詳細化を開始する前のデータの内容が表示されます。任意の「操作」ステップをクリックすると、その操作が適用された後のデータの見え方を確認できます。スナップショット・ビューを終了するには、 「ステップ x/y の表示」 をクリックするか、選択したステップと同じステップをクリックしてスナップショット・ビューに入ります。

Data Refinery フロー・データの CSV ファイルへのエクスポート

ツールバーの Export アイコンエクスポート・アイコンをクリックすると、Data Refinery フローの現在のステップのデータを、Data Refinery フロージョブを保存または実行せずに CSV ファイルにエクスポートできます。このオプションは、例えば、進行中の Data Refinery フローのクイック出力が必要な場合に使用します。データをエクスポートすると、 Data Refinery フローの現行ステップで、CSV ファイルが作成され、コンピューターの 「ダウンロード」 フォルダー (またはユーザー指定のダウンロード・ロケーション) にダウンロードされます。スナップショット・ビューが表示されている場合、CSV ファイルの出力はクリックしたステップにあります。データのサンプル (サブセット) を表示している場合は、サンプル・データのみが出力されます。

注:

CSVファイルの入力フィールドに悪意のあるペイロード（計算式など）が含まれている場合、これらの項目が実行される可能性があります。

プロジェクトアセットをエクスポートすることで、Data Refinery フローをエクスポートすることもできます。詳細については、プロジェクト資産のエクスポートを参照してください。

データ・セットの処理

Data Refinery フローのソースの変更

Data Refinery フローのソースを変更します。同じ Data Refinery フローを、別のソース・データ・セットで実行します。ソースを変更するには、以下の 2 つの方法があります。

ステップ・ペインでデータ・ソース」の隣にある「オーバーフロー」アイコンの「クリックし、「編集」 を選択して、別のソース・データ・セットを選択します。
'
フロー設定: 同じ場所で複数のデータ・ソースを変更する場合は、この方法を使用できます。例えば、Join 操作または Union 操作の場合などです。ツールバーのフロー設定アイコン「」をクリックする。 ソース・データ・セット・タブに移動し、データ・ソースの横にあるオーバーフロー・アイコン「」をクリックする。 「データ・ソースの置換」を選択してから、別のソース・データ・セットを選択します。

最良の結果を得るためには、新しいデータ・セットには、元のデータ・セットと互換性のあるスキーマ (列名、列の数、およびデータ・タイプなど) がなければなりません。新規データ・セットに別のスキーマがある場合、そのスキーマでは機能しない操作にはエラーが表示されます。操作を編集または削除したり、ソースをより互換性のあるスキーマを持つものに変更したりできます。

ターゲットに接続を選択した場合、 Data Refineryでサポートされているデータソースのリストにある接続のみを使用できます。

サンプル・サイズの編集

Data Refinery フローのジョブを実行すると、データ・セット全体に対して操作が実行されます。ただし、 Data Refineryで操作を対話式に適用すると、データ・セットのサイズに応じて、データのサンプルのみが表示されます。

サンプル・サイズを大きくすると、 Data Refinery フロー・ジョブの結果に近い結果が表示されますが、 Data Refineryで結果を表示するのに時間がかかる場合があることに注意してください。最大は、10,000 行または 1 MB のいずれか早い方のトップ行カウントです。より迅速に結果を表示するには、サンプル・サイズを小さくします。データのサイズ、および操作の数と複雑さによっては、サンプル・サイズを試して、データ・セットに最適なものを確認することができます。

ツールバーのフロー設定アイコン「」をクリックする。 ソース・データ・セット・タブに移動し、データ・ソースの横にあるオーバーフロー・アイコン「オーバーフロー・メニュー」をクリックし、サンプルの編集を選択する。

ソース・プロパティーの編集

使用可能なプロパティーは、データ・ソースによって異なります。データ資産と、さまざまな種類の接続からのデータには、異なるプロパティーを使用できます。推測されたファイル・フォーマットが正しくない場合にのみ、ファイル・フォーマットを変更してください。ファイル・フォーマットを変更すると、ソースは新しいフォーマットで読み取られますが、ソース・ファイルは変更されません。フォーマット・ソース・プロパティーの変更は、反復プロセスである可能性があります。オプションを適用した後で、データを調べてください。

ツールバーのフロー設定アイコン「」をクリックする。 ソース・データセット・タブに移動し、データ・ソースの横にあるオーバーフロー・アイコン「オーバーフロー・メニュー」をクリックし、フォーマットの編集を選択する。

重要: ソース・プロパティーを編集する場合は注意してください。選択が正しくないと、データの読み取り時または Data Refinery フロー・ジョブの機能低下時に予期しない結果が生じる可能性があります。 Data Refinery フローの結果を慎重に検査します。

Data Refinery フローのターゲットの変更

デフォルトでは、 Data Refinery のターゲットは、作業中のプロジェクトにデータ資産として保存されます。

ターゲットの場所を変更するには、ツールバーのフロー設定アイコン「」をクリックする。 「ターゲット・データ・セット」 タブに移動し、 「ターゲットの選択」をクリックして、別のターゲット・ロケーションを選択します。

ターゲットに接続を選択した場合、 Data Refineryでサポートされているデータソースのリストにある接続のみを使用できます。これらの接続の中には、Data Refineryフローのソースとしてのみ使用できるものもある。

ターゲット・プロパティーの編集

使用可能なプロパティーは、データ・ソースによって異なります。データ資産と、さまざまな種類の接続からのデータには、異なるプロパティーを使用できます。

対象データセットのプロパティを変更するには、ツールバーのフロー設定アイコン「」をクリックする。 「ターゲット・データ・セット」 タブに移動し、 「プロパティーの編集」をクリックします。

Data Refinery フロー・ターゲットの名前の変更

ターゲット・データ・セットの名前は、ターゲット・プロパティーの編集時に変更できるフィールドに組み込まれます。

デフォルトでは、 Data Refinery のターゲットは、データ資産 source-file-name_shaped.csv としてプロジェクトに保存されます。例えば、ソースが mydata.csvの場合、 Data Refinery フローのデフォルトの名前と出力は、データ資産 mydata_csv_shapedです。

接続からのターゲット・データ・セットには、さまざまなプロパティーおよび命名規則が適用されます。例えば、データ・セットが Cloud Object Storageにある場合、そのデータ・セットは 「バケット」 フィールドと 「ファイル名」 フィールドで識別されます。データ・セットが Db2 データベース内にある場合、そのデータ・セットは 「スキーマ名」 フィールドと 「表名」 フィールドで識別されます。

重要: ターゲット・プロパティーを編集する場合は注意してください。正しくない選択は、予期しない結果を生んだり、 Data Refinery フロー・ジョブを損傷したりする可能性があります。 Data Refinery フローの結果を慎重に検査します。

詳細は、ターゲット接続オプションを参照。

プロジェクト・ページのアクション

作業を続行するための Data Refinery フローの再オープン

Data Refinery フローを再オープンし、データの精製を続行するには、プロジェクトの「資産」タブに移動します。 「資産タイプ」の下で、 「フロー」を展開し、 Data Refinery 「フロー」をクリックします。 Data Refinery フロー名をクリックします。

Data Refinery フローの複製

Data Refinery フローのコピーを作成するには、プロジェクトの 「資産」 タブに移動し、 「フロー」を展開して、 Data Refinery フローをクリックします。 Data Refineryフローを選択し、オーバーフローアイコン「オーバーフロー・メニュー」から「複製」を選択する。 Data Refinery フローは、Data Refinery フロー・リストに「元の名前コピー 1」として追加されます。

Data Refinery フローの削除

Data Refinery フローを削除するには、プロジェクトの 「資産」 タブに移動し、 「フロー」を展開して、 Data Refinery フローをクリックします。 Data Refineryフローを選択し、オーバーフローアイコン「オーバーフロー・メニュー」から「削除」を選択する。

スペースへの Data Refinery フローのプロモート

デプロイメント・スペースは、プロジェクトとは別の環境で関連資産のセットを管理するために使用されます。スペースを使用して、watsonx.aiRuntime のデプロイメントジョブのデータを準備します。 Data Refinery フローを複数のプロジェクトから 1 つのスペースにプロモートできます。 Data Refinery フローはスペースで編集できないため、Data Refinery フローをプロモートする前に、Data Refinery のステップを完了してください。

Data Refinery フローをスペースにプロモートするには、プロジェクトの 「資産」 タブに移動し、 「フロー」を展開して、 Data Refinery フローをクリックします。 Data Refinery フローを選択します。 Data Refineryフローのオーバーフローアイコン「オーバーフロー・メニュー」をクリックし、「プロモート」を選択する。 Data Refinery フローのソース・ファイルおよびその他の従属データもプロモートされます。

スペースのData Refineryフローのジョブを作成または実行するには、スペースのAssetsタブでData Refineryフローまでスクロールダウンし、Overflowアイコン「オーバーフロー・メニュー」からNew jobアイコン「「新規ジョブ」アイコン」をクリックします。既にジョブを作成している場合は、「ジョブ」タブに移動してジョブを編集するか、ジョブ実行の詳細を表示します。 Data Refinery フロー・ジョブのシェーピングされた出力は、スペースの「資産」タブで使用可能になります。ジョブの詳細を表示したり、ジョブを編集または実行するには、管理者ロールまたはエディターロールが必要です。プロジェクトの「ビューアー」ロールでは、ジョブの詳細のみを表示できます。整形された出力は、watsonx.aiRuntime のジョブの入力データとして使用できます。

制約事項:

プロジェクトからスペースに Data Refinery フローをプロモートし、その Data Refinery フローのターゲットが接続済みデータ資産 である場合、その接続済みデータ資産を手動でプロモートする必要があります。このアクションにより、スペースで Data Refinery フロー・ジョブを実行したときに、接続済みデータ資産のデータが更新されます。そうしないと、Data Refinery フロー・ジョブが正常に実行されると、スペース内に新規データ資産が作成されます。

スペースについては、『デプロイメント・スペース』を参照してください。

Data Refinery フロー・データをプロジェクト・アセットとともにエクスポートします

親トピック: データの精製