データを洗練させるためには、ある場所からデータを取り出し、クレンジングして形を整え、その結果を別の場所に書き込む。 Data Refinery というグラフィカル・フロー・エディター・ツールを使用して、表データのクレンジングとシェーピングを行うことができます。
データのクレンジングの場合は、正しくないデータ、不完全データ、不適切にフォーマットされたデータ、または重複したデータを修正または削除します。 データのシェーピングの場合は、列のフィルタリング、ソート、結合、または削除によってカスタマイズします。
Data Refinery フローは、データに対する順序付き操作のセットとして作成します。 Data Refinery には、データを検証するためにデータのプロファイルを作成するグラフィカル・インターフェースと、データに関する洞察を提供する 20 を超えるカスタマイズ可能なグラフが含まれています。
- データ・フォーマット
- Avro、CSV、JSON、Microsoft Excel (xls および xlsx 形式)。 最初のシートのみ (接続および接続されたデータ資産を除く)。 Parquet、「sas7bdat」拡張子 (読み取り専用)、TSV (読み取り専用)、または区切り文字で区切られているテキスト・データ資産を持つ SAS
- リレーショナル・データ・ソースの表
- データ・サイズ
- 任意。 Data Refinery は、データ・セット内の行のサンプル・サブセットに対して動作します。 サンプル・サイズは、1 MB または 10,000 行のうち先に到達した方です。 ただし、Data Refinery フローのジョブを実行すると、データ・セット全体が処理されます。 Data Refinery フローが大規模なデータ資産で失敗する場合は、 Data Refineryの回避策を参照してください。
前提条件
データを精製する前に、Cloud Object Storage を使用するプロジェクトが必要です。 サンドボックス・プロジェクトを使用することも、新規プロジェクトを作成することもできます。
このビデオを視聴して、プロジェクトを作成する方法を確認してください。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
クラウドやオンプレミスのデータソースにデータがある場合は、それらのソースへの接続を追加するか、それぞれの接続からデータ資産を追加する必要がある。 精製したデータをクラウドまたはオンプレミスのデータ・ソースに保存できるようにするには、そのための接続も作成します。 Data Refineryでは、ソース接続はデータの読み取りのみに使用でき、ターゲット接続はデータの書き込みのみに使用できる。 ターゲット接続を作成するときは、必ず書き込み権限を持つ資格情報を使用してください。そうしないと、Data Refinery フロー出力をターゲットに保存できません。
このビデオを視聴して、接続を作成し、接続されたデータをプロジェクトに追加する方法を確認してください。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
ソース・ファイルの制限事項
CSVファイル
CSV ファイルが正しくフォーマット設定されており、以下のルールに準拠していることを確認してください。
- 1 つの行に 2 つの連続したコンマがある場合、その列は空であることを示します。
- 行がコンマで終わっている場合、追加の列が作成されます。
CVSファイルに悪意のあるペイロード(例えば数式)が入力フィールドに含まれている場合、これらの項目が実行される可能性があります。
空白文字はデータの一部と見なされます。
データに空白 (ブランク) 文字を含む列が含まれている場合、Data Refinery は、それらの空白文字がグリッドに表示されなくても、それらをデータの一部と見なします。 一部のデータベース・ツールは、文字ストリングに空白文字を埋め込んで、列内のすべてのデータを同じ長さにすることができます。この変更は、データを比較する Data Refinery 操作の結果に影響します。
列名
列名が以下のルールに準拠していることを確認してください。
- 重複する列名は許可されません。 列名はデータ・セット内で一意である必要があります。 列名では大/小文字の区別がありません。 列名「Sales」があり、さらに別の列に列名「sales」が含まれているとそのデータ・セットは機能しません。
- 列名は、R プログラミング言語の予約語ではありません。
- 列名が数値ではない。 回避策は、列名を二重引用符 ("") で囲むことです。
「Other」データ・タイプの列を持つデータ・セットは、Data Refinery フローではサポートされません。
データセットに、watsonx.aiStudio のプレビューで「その他」と識別されるデータ型を持つ列が含まれている場合、その列はData Refinery では String データ型として表示されます。 ただし、Data Refinery フローでデータを使用しようとすると、Data Refinery フローのジョブは失敗します。 プレビューで「Other」として表示されるデータ・タイプの例として、 Db2 DECFLOAT データ・タイプがあります。
ターゲット・ファイルの制限事項
Data Refinery フロー出力 (ターゲット・データ・セット) をファイルに保存する場合、以下の制限が適用されます。
- ファイルが既存のデータ資産である場合は、ファイル形式を変更できません。
データ・セットのプレビュー
Data Refinery は、精製に時間がかかり、処理が困難な場合がある大規模なデータ・セットに対するサポートを提供します。 迅速かつ効率的な作業を可能にするために、Data Refinery は、ユーザーがデータを対話式に精製している間、データ・セット内の行のサブセットに対して動作します。 Data Refinery フローのジョブを実行した場合、データ・セット全体がその操作の対象になります。
データの整形
次のビデオでは、データを精製する方法を説明します。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
1.プロジェクト内からData Refineryにアクセス。 「新規資産」>「データの準備と視覚化」をクリックします。 次に、処理するデータを選択します。 または、プロジェクトの「アセット」タブでデータアセットをクリックしてプレビューし、「データを準備」をクリックします。
2. ステップを使用して、データをクレンジング、シェーピング、およびエンリッチする操作を適用します。 『操作カテゴリーまたは特定の操作の検索』を参照して、UI ガイドを表示します。 コマンド行でR コードの入力を実行して、正しい構文の取得をオートコンプリートに支援することができます。 データ・セットに操作を適用すると、Data Refinery は、それらの操作を追跡し、Data Refinery フローを作成します。 適用する操作ごとに、Data Refinery によってステップが追加されます。
データタブ '
'
データにストリング以外のデータ・タイプが含まれている場合、Data Refinery でファイルを開くと、 列タイプの変換 GUI 操作が Data Refinery フローの最初のステップとして自動的に適用されます。 データ・タイプは、推論されるデータ・タイプ (整数、日付、ブールなど) に自動的に変換されます。 このステップは、元に戻すことも編集することもできます。
3. 「プロファイル」 タブをクリックして、データの絞り込みプロセス全体で データを検証 します。
プロフィールタブ '
'
4. 「視覚化」 タブをクリックして、グラフで データを視覚化 します。 データ内のパターン、トレンド、および相関を明らかにします。
可視化タブ '
'
5. ニーズに合わせてサンプル・データ・セットを調整します。
6. 「保存してジョブを作成」 をクリックするか、ツールバーの 「ジョブを保存して表示」 をクリックして、データ・セット全体に対して Data Refinery フローを実行します。 ランタイムを選択して、1 回限りのスケジュールか繰り返しのスケジュールを追加します。 ジョブについて詳しくは、 Data Refineryを参照してください。
ユーザーが Data Refinery フローのジョブを実行すると、データ・セット全体が処理されます。 したがって、ジョブは、変換とフローで処理されるデータ量に基づいて、大きな出力(ターゲット)データセットを作成する可能性がある。 デフォルトでは、Data Refineryフローの結果は、プロジェクトのデータアセットとして保存されます。
データを精製する際に実行できるアクションについては、 Data Refinery フローの管理を参照してください。
次のステップ
詳細情報
親トピック: データの準備