データの絞り込み

最終更新: 2024年12月04日

データの絞り込み

データを洗練させるためには、ある場所からデータを取り出し、クレンジングして形を整え、その結果を別の場所に書き込む。 Data Refinery というグラフィカル・フロー・エディター・ツールを使用して、表データのクレンジングとシェーピングを行うことができます。

データのクレンジングの場合は、正しくないデータ、不完全データ、不適切にフォーマットされたデータ、または重複したデータを修正または削除します。 データのシェーピングの場合は、列のフィルタリング、ソート、結合、または削除によってカスタマイズします。

Data Refinery フローは、データに対する順序付き操作のセットとして作成します。 Data Refinery には、データを検証するためにデータのプロファイルを作成するグラフィカル・インターフェースと、データに関する洞察を提供する 20 を超えるカスタマイズ可能なグラフが含まれています。

データ・フォーマット: Avro、CSV、JSON、Microsoft Excel (xls および xlsx 形式)。最初のシートのみ (接続および接続されたデータ資産を除く)。 Parquet、「sas7bdat」拡張子 (読み取り専用)、TSV (読み取り専用)、または区切り文字で区切られているテキスト・データ資産を持つ SAS; リレーショナル・データ・ソースの表
データ・サイズ: 任意。 Data Refinery は、データ・セット内の行のサンプル・サブセットに対して動作します。サンプル・サイズは、1 MB または 10,000 行のうち先に到達した方です。ただし、Data Refinery フローのジョブを実行すると、データ・セット全体が処理されます。 Data Refinery フローが大規模なデータ資産で失敗する場合は、 Data Refineryの回避策を参照してください。

前提条件
ソース・ファイルの制限事項
ターゲット・ファイルの制限事項
データ・セットのプレビュー
データの精製

前提条件

データを精製する前に、Cloud Object Storage を使用するプロジェクトが必要です。サンドボックス・プロジェクトを使用することも、新規プロジェクトを作成することもできます。

このビデオを視聴して、プロジェクトを作成する方法を確認してください。

このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。

クラウドやオンプレミスのデータソースにデータがある場合は、それらのソースへの接続を追加するか、それぞれの接続からデータ資産を追加する必要がある。精製したデータをクラウドまたはオンプレミスのデータ・ソースに保存できるようにするには、そのための接続も作成します。 Data Refineryでは、ソース接続はデータの読み取りのみに使用でき、ターゲット接続はデータの書き込みのみに使用できる。ターゲット接続を作成するときは、必ず書き込み権限を持つ資格情報を使用してください。そうしないと、Data Refinery フロー出力をターゲットに保存できません。

このビデオを視聴して、接続を作成し、接続されたデータをプロジェクトに追加する方法を確認してください。

ビデオの特記事項: このビデオのいくつかのマイナー・ステップおよびグラフィカル・エレメントは、ご使用のプラットフォームとは異なる場合があります。

このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。

ソース・ファイルの制限事項

CSVファイル

CSV ファイルが正しくフォーマット設定されており、以下のルールに準拠していることを確認してください。

1 つの行に 2 つの連続したコンマがある場合、その列は空であることを示します。
行がコンマで終わっている場合、追加の列が作成されます。

注:

CVSファイルに悪意のあるペイロード（例えば数式）が入力フィールドに含まれている場合、これらの項目が実行される可能性があります。

空白文字はデータの一部と見なされます。

データに空白 (ブランク) 文字を含む列が含まれている場合、Data Refinery は、それらの空白文字がグリッドに表示されなくても、それらをデータの一部と見なします。一部のデータベース・ツールは、文字ストリングに空白文字を埋め込んで、列内のすべてのデータを同じ長さにすることができます。この変更は、データを比較する Data Refinery 操作の結果に影響します。

列名

列名が以下のルールに準拠していることを確認してください。

重複する列名は許可されません。列名はデータ・セット内で一意である必要があります。列名では大/小文字の区別がありません。列名「Sales」があり、さらに別の列に列名「sales」が含まれているとそのデータ・セットは機能しません。
列名は、R プログラミング言語の予約語ではありません。
列名が数値ではない。回避策は、列名を二重引用符 ("") で囲むことです。

「Other」データ・タイプの列を持つデータ・セットは、Data Refinery フローではサポートされません。

データセットに、watsonx.aiStudio のプレビューで「その他」と識別されるデータ型を持つ列が含まれている場合、その列はData Refinery では String データ型として表示されます。ただし、Data Refinery フローでデータを使用しようとすると、Data Refinery フローのジョブは失敗します。プレビューで「Other」として表示されるデータ・タイプの例として、 Db2 DECFLOAT データ・タイプがあります。

ターゲット・ファイルの制限事項

Data Refinery フロー出力 (ターゲット・データ・セット) をファイルに保存する場合、以下の制限が適用されます。

ファイルが既存のデータ資産である場合は、ファイル形式を変更できません。

データ・セットのプレビュー

Data Refinery は、精製に時間がかかり、処理が困難な場合がある大規模なデータ・セットに対するサポートを提供します。迅速かつ効率的な作業を可能にするために、Data Refinery は、ユーザーがデータを対話式に精製している間、データ・セット内の行のサブセットに対して動作します。 Data Refinery フローのジョブを実行した場合、データ・セット全体がその操作の対象になります。

データの整形

次のビデオでは、データを精製する方法を説明します。

このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。

1.プロジェクト内からData Refineryにアクセス。 「新規資産」>「データの準備と視覚化」をクリックします。次に、処理するデータを選択します。または、プロジェクトの「アセット」タブでデータアセットをクリックしてプレビューし、「データを準備」をクリックします。

2. ステップを使用して、データをクレンジング、シェーピング、およびエンリッチする操作を適用します。『操作カテゴリーまたは特定の操作の検索』を参照して、UI ガイドを表示します。コマンド行でR コードの入力を実行して、正しい構文の取得をオートコンプリートに支援することができます。データ・セットに操作を適用すると、Data Refinery は、それらの操作を追跡し、Data Refinery フローを作成します。適用する操作ごとに、Data Refinery によってステップが追加されます。

データタブ '
' 「データ」タブ

データにストリング以外のデータ・タイプが含まれている場合、Data Refinery でファイルを開くと、 列タイプの変換 GUI 操作が Data Refinery フローの最初のステップとして自動的に適用されます。データ・タイプは、推論されるデータ・タイプ (整数、日付、ブールなど) に自動的に変換されます。このステップは、元に戻すことも編集することもできます。

3. 「プロファイル」 タブをクリックして、データの絞り込みプロセス全体でデータを検証します。

プロフィールタブ '
'

4. 「視覚化」 タブをクリックして、グラフでデータを視覚化します。データ内のパターン、トレンド、および相関を明らかにします。

可視化タブ '
' 「視覚化」タブ

5. ニーズに合わせてサンプル・データ・セットを調整します。

6. 「保存してジョブを作成」 をクリックするか、ツールバーの 「ジョブを保存して表示」 をクリックして、データ・セット全体に対して Data Refinery フローを実行します。ランタイムを選択して、1 回限りのスケジュールか繰り返しのスケジュールを追加します。ジョブについて詳しくは、 Data Refineryを参照してください。

ユーザーが Data Refinery フローのジョブを実行すると、データ・セット全体が処理されます。したがって、ジョブは、変換とフローで処理されるデータ量に基づいて、大きな出力（ターゲット）データセットを作成する可能性がある。デフォルトでは、Data Refineryフローの結果は、プロジェクトのデータアセットとして保存されます。

データを精製する際に実行できるアクションについては、 Data Refinery フローの管理を参照してください。

次のステップ

データの分析とモデルの作成

詳細情報

Data Refinery フローの管理

クイック・スタート: データの精製

親トピック: データの準備

トピックは役に立ちましたか?

0/1000

前提条件Copy link to section

ソース・ファイルの制限事項Copy link to section

CSVファイルCopy link to section

空白文字はデータの一部と見なされます。Copy link to section

列名Copy link to section

「Other」データ・タイプの列を持つデータ・セットは、Data Refinery フローではサポートされません。Copy link to section

ターゲット・ファイルの制限事項Copy link to section

データ・セットのプレビューCopy link to section

データの整形Copy link to section

次のステップCopy link to section

詳細情報Copy link to section

前提条件

ソース・ファイルの制限事項

CSVファイル

空白文字はデータの一部と見なされます。

列名

「Other」データ・タイプの列を持つデータ・セットは、Data Refinery フローではサポートされません。

ターゲット・ファイルの制限事項

データ・セットのプレビュー

データの整形

次のステップ

詳細情報