Data Refinery での GUI 操作

Data Refinery は、以下のカテゴリーの GUI 操作をサポートします。

GUI 操作を選択するには、「新規ステップ」をクリックします。

操作のサブセットは、各列のオーバーフロー・メニュー (オーバーフロー・メニュー) から使用できます。 列ヘッダーの「編集」アイコンをクリックすると、列の名前を変更することができます。

クレンジング

列タイプの変換
Data Refinery でファイルを開くと、データ内でストリング以外のデータ・タイプが検出された場合、 列タイプの変換操作が最初のステップとして自動的に適用されます。 データ・タイプは、推論されるデータ・タイプに自動的に変換されます。 選択した列の自動変換を変更するには、ステップのオーバーフロー・メニュー (オーバーフロー・メニュー) をクリックし、「編集」を選択します。 他の操作と同様に、ステップを元に戻すことが可能です。 列タイプの変換操作は、Data Refinery でファイルを開くたびに再適用されます。 自動変換は、ファイル・ベースのデータ・ソースに対してのみ、必要に応じて適用されます。 (データベース接続からのデータ・ソースには適用されません。)

各列のデータがどのデータ・タイプに変換されたかを確認するには、オーバーフロー・メニュー (オーバーフロー・メニュー) から「編集」をクリックして、データ・タイプを表示します。 情報には、日付データまたはタイム・スタンプ・データの形式が含まれます。

データを Integer または Decimal データ・タイプに変換する場合、すべての該当する列の小数点記号および千単位のグループ化記号を指定できます。 Decimal データ・タイプに変換されたストリングは、小数点記号としてドットを使用し、千単位のグループ化記号としてコンマを使用します。 あるいは、小数点記号としてコンマを選択したり、千単位のグループ化記号としてカスタム記号を選択したりすることもできます。 小数点記号と千単位のグループ化記号を同じものにすることはできません。

ソース・データは、終了文字または認識できない文字が検出されるまで、左から右に読み取られます。 例えば、ストリング・データ12,834を 10 進数に変換する場合に、コンマ (,) の処理方法を指定しないと、データは12に切り捨てられます。 同様に、ソース・データに複数のドット (.) が含まれている場合に、小数点記号としてドットを選択すると、最初のドットが小数点として使用され、2 番目のドット以降の桁は切り捨てられます。 1.834.230,000のソース・ストリングは、1.834の値に変換されます。

「列タイプの変換」操作は、以下の日付とタイム・スタンプの形式を自動的に変換します。

  • 日付: ymdydm
  • タイム・スタンプ: ymdHMSymdHMydmHMSydmHM

日付とタイム・スタンプのストリングは、年には 4 桁の数字を使用する必要があります。

「列タイプの変換」操作を手動で適用して、Data Refinery フローの任意の時点で列のデータ・タイプを変更できます。 この操作の結果を保持する新規列を作成するか、既存の列を上書きできます。

ヒント: 列のデータ・タイプによって、使用できる操作が決まります。 データ型を変更すると、その列に関連した操作に影響を与える可能性があります。


  • ビデオ・トランスクリプト
    1. 「列タイプの変換」操作では、最初の列がストリングから整数に自動的に変換されます。 他の 3 つの列のデータ・タイプを変更します。
    2. ヨーロッパの列のデータ・タイプをストリングから 10 進数に変更するには、列を選択してから、「列タイプの変換」操作ステップを編集します。
    3. ヨーロッパの列のデータ・タイプをストリングから 10 進数に変更するには、列を選択してから、「列タイプの変換」操作ステップを編集します。
    4. 「10 進数」を選択します。
    5. 列ではコンマ区切り文字が使用されるため、小数点記号として「コンマ (,)」を選択します。
    6. 次の列 DATETIME を選択します。 タイム・スタンプとフォーマットを選択します。
    7. 「適用」をクリックします。
    8. 列は、整数、10 進数、日付、およびタイム・スタンプの各データ・タイプになりました。「ステップ」パネルの「列タイプの変換」ステップが更新されました。

列の値を欠損値に変換
選択された列の値が指定された列の値と一致する場合、または指定された値と一致する場合は、それらの値を欠損値に変換します。


  • ビデオ・トランスクリプト
    1. 「列の値を欠損値に変換」操作は、指定された列の値と一致する場合、または指定された値と一致する場合に、選択された列の値を欠損値に変換します。
    2. 欠損値は、SQL NULL (値のないフィールド) と同等です。 これは、ゼロ値またはスペースを含む値とは異なります。
    3. データが欠損値としてより適切に表現されると考えられる場合は、「列の値を欠損値に変換」操作を使用できます。 例えば、「欠損値の置換」操作または「フィルター」操作で欠損値を使用する場合などです。
    4. 「列の値を欠損値に変換」操作を使用して、一致した値に基づいて値を欠損値に変更します。
    5. DESC 列には、値が CANCELLED ORDER の行が多数あることに注意してください。 CANCELLED ORDER ストリングを欠損値に変換します。
    6. 「列の値を欠損値に変換」操作は、CLEANSE カテゴリーの下にあります。
    7. 欠損値で置き換えるストリングを入力します。
    8. 以前は CANCELLED ORDER であった値は、今は欠損値です。

日付または時刻値の抽出
日付またはタイム・スタンプ・データ・タイプの列から日付または時刻値の選択された部分を抽出します。


  • ビデオ・トランスクリプト
    1. 「日付または時刻値の抽出」操作は、日付またはタイム・スタンプのデータ・タイプである列から、日付または時刻値の選択された部分を抽出します。
    2. DATE 列はストリング・データ・タイプです。 まず、「列タイプの変換」操作を使用して、日付データ・タイプに変換します。
    3. DATE 列のメニューから「列タイプの変換」操作を選択します。 日付を選択します。
    4. 日付形式を選択します。
    5. DATE 列が日付データ・タイプになりました。
    6. ISO 日付形式は、ストリング・データ・タイプが日付データ・タイプに変換されたときに使用されます。 例えば、ストリング 01/08/2018 は日付 2018-01-08 に変換されました。
    7. ここで、日付の年の部分を新しい列に抽出できます。
    8. 「日付または時刻値の抽出」操作は、CLEANSE カテゴリーの下にあります。
    9. 抽出する日付の部分として「年」を選択し、新しい列名として「YEAR」を入力します。
    10. DATE 列の年の部分は、新しい列 YEAR にあります。
    11. 「ステップ」パネルには、「日付または時刻値の抽出」操作が表示されます。

フィルター
選択した列で行をフィルタリングします。 選択した列値を含む行を保持します。その他の行はすべてフィルターで除外します。

これらのストリングフィルター演算子の場合は、値を引用符で囲まないでください。 値に引用符が含まれている場合は、スラッシュ文字でエスケープします。 以下に例を示します。\"text\"

  • 次を含む
  • Does not contain
  • Starts with
  • 以下の値で始まらない
  • 末尾
  • で終わらない

数値、ストリング、ブール値 (論理)、および日付とタイム・スタンプの列の演算子を以下に示します。

演算子 数値 ストリング ブール値 日付とタイム・スタンプ
次を含む
含まない
次は末尾ではない
次で始まらない
末尾
2 つの数値の間
次と等しい
false
より大きい
以上
場所
未満
以下:
空でない
次と等しくない
含まれていない
ヌルでない
NULL
true
次で始まる

  • ビデオ・トランスクリプト
    1. 「フィルター」操作を使用して、選択した列で行をフィルターに掛けます。 1 回の「フィルター」操作で複数の条件を適用できます。
    2. 正規表現を使用して、「Emp ID」列のストリングが 8 で始まる行を除き、すべての行をフィルターで除外します。
    3. 2 つの州の省略形で行をフィルタリングします。
    4. 「適用」をクリックします。 表には、Emp ID が 8 で始まり、State が AR または TX である行のみが表示されます。
    5. 行は、AR および PA によってフィルタリングされるようになりました。 「ステップ」パネルの「フィルター」ステップが更新されます。

列の削除
選択した列を削除します。


  • ビデオ・トランスクリプト
    1. データ資産から列を素早く削除するには、「列の削除」操作を使用します。
    2. 列を削除する最も簡単な方法は、列のメニューから削除することです。
    3. 削除された列の名前は、「ステップ」パネルにあります。
    4. 別の列を削除してください。
    5. 削除された列の名前は、「ステップ」パネルにあります。

重複の削除
列の値が重複している行を削除します。


  • ビデオ・トランスクリプト
    1. 「重複の削除」操作は、重複する列値を持つ行を削除します。
    2. データ・セットには 43 行あります。 APPLYCODE 列の行の多くに重複値があります。 データ・セットを削減して、APPLYCODE 列の各値が 1 回だけ出現する行にします。
    3. APPLYCODE 列のメニューから「重複の除去」操作を選択します。
    4. 「重複の除去」操作は、重複値の各出現箇所を先頭行から削除します。 これで、データ・セットは 4 行になります。

空の行を削除
選択した列の値がブランクまたは欠損している行を削除します。


  • ビデオ・トランスクリプト
    1. 「空の行を削除」操作は、選択された列の値がブランクまたは欠落している行を削除します。
    2. 欠損値は、SQL NULL (値のないフィールド) と同等です。 これは、ゼロ値またはスペースを含む値とは異なります。
    3. データ・セットには 43 行あります。 TRACK 列の行の多くに欠損値があります。 データ・セットを、TRACK 列に値がある行に削減する必要があります。
    4. TRACK 列のメニューから「空の行の削除」操作を選択します。
    5. 「空の行を削除」操作は、TRACK 列にブランクまたは欠損値がある各行を削除します。 データ・セットは現在 21 行です。

欠損値の置換
列の欠損値を、指定された値、または同じ行の指定された列の値に置き換えます。


  • ビデオ・トランスクリプト
    1. 「欠損値の置換」操作は、列の欠損値を、指定された値、または同じ行の指定された列の値に置き換えます。
    2. STATE 列には、空の値を持つ行が多数あります。 これらの空の値をストリングに置き換えます。
    3. 「欠損値の置換」操作は、CLEANSE カテゴリーの下にあります。
    4. State 列の場合は、欠損値をストリング「不完全」に置き換えます。
    5. これで、欠損値の値が「不完全」になります。
    6. 「ステップ」パネルには、「欠損値の置換」操作が表示されます。

サブストリングの置換
指定されたサブストリングを指定されたテキストで置き換えます。


  • ビデオ・トランスクリプト
    1. 「サブストリングの置換」操作は、サブストリングを指定したテキストに置き換えます。
    2. DECLINE 列には、ストリング BANC を含む多数の行があります。 このストリングを BANK に置き換えます。
    3. 「サブストリングの置換」操作は、CLEANSE カテゴリーの下にあります。
    4. 置換するストリングと置換ストリングを入力します。
    5. ストリング BANK の出現箇所はすべて BANK に置き換えられました。
    6. 「ステップ」パネルには、「サブストリングの置換」操作が表示されます。

置換
選択した列の実際のデータをランダムな文字列に置き換えることによって、機密情報をビューから隠すことができます。


  • ビデオ・トランスクリプト
    1. 「置換」操作は、選択された列のデータをランダムな文字列で置換することにより、機密情報を覆い隠されます。
    2. 列内のデータを置換する最も簡単な方法は、列のメニューから「置換」を選択することです。
    3. 「置換」操作が「ステップ」パネルに表示されます。
    4. 別の列の値を置換します。
    5. 2 番目の「置換」操作が「ステップ」パネルに表示されます。

テキスト

テキスト操作は、ストリング列にのみ適用できます。 操作の結果を保持する新規列を作成するか、既存の列を上書きできます。

「テキスト」>「スペースの省略」
テキスト内の複数の連続したスペースを 1 つのスペースに縮小します。

「テキスト」>「ストリングの連結」
テキストに任意のストリングをリンクします。 ストリングをテキストの前に付加するか、ストリングをテキストの後に追加するか、両方の操作を行います。

「テキスト」>「小文字」
テキストを小文字に変換します。

「テキスト」>「文字数」
テキスト内の文字数を返します。

「テキスト」>「埋め込み文字」
指定したストリングをテキストに埋め込みます。 テキストの左、右、または左と右にストリングを埋め込むかどうかを指定します。

「テキスト」>「サブストリング」
指定された位置から始まり、指定された長さのテキストからサブストリングを作成します。

「テキスト」>「タイトル・ケース」
テキストをタイトル・ケースに変換します。

「テキスト」>「引用符のトリム」
テキストから単一引用符または二重引用符を削除します。

「テキスト」>「スペースのトリム」
テキストの先頭スペース、末尾スペース、および余分なスペースを削除します。

「テキスト」>「大文字」
テキストを大文字に変換します。


  • ビデオ・トランスクリプト
    1. 「テキスト」操作をストリング列に適用できます。 結果の新しい列を作成するか、既存の列を上書きします。
    2. 最初に、ストリングを WORD 列の値に連結します。
    3. 使用可能な「テキスト」操作。
    4. ストリングを右側に連結し、スペースを追加して入力します。
    5. WORD 列の値には、スペースとワードが付加されます。
    6. 「ステップ」パネルに「テキスト」操作が表示されます。
    7. 次に、ANIMAL 列の値にストリングを埋め込みます。
    8. ANIMAL 列の値にアンパーサンド (&) 記号を埋め込みます。 7 文字以上の記号が右側に表示されます。
    9. ANIMAL 列の値には、各ストリングが少なくとも 7 文字になるように、& 記号が埋め込まれます。
    10. opossum、pangolin、platypus、および hedgehog の値には埋め込み文字が含まれていないことに注意してください。これらのストリングは既に 7 文字以上の長さになっています。
    11. 次に、「サブストリング」を使用して、ID 列から t 文字を削除します。
    12. 新しいストリングをその位置から開始するには、「位置 2」を選択します。 4 文字の長さのストリングの場合は、「長さ 4」を選択します。
    13. ID 列の最初の t 文字は、NEW-ID 列から削除されます。

COMPUTE

計算
別の列または指定した値を使用して計算を実行します。 演算子は、以下のとおりです。

  • 加算
  • 除算
  • 累乗
  • Is between two numbers
  • 等しい
  • Is greater than
  • 次以上
  • Is less than
  • 次以下
  • 等しくない
  • Modulus
  • 乗算
  • 減算

  • ビデオ・トランスクリプト
    1. 「計算」操作は、別の列または指定された値を使用して、加算または減算などの計算を実行します。
    2. 開始する列を選択します。
    3. 使用可能な計算
    4. 次に、加算計算の 2 番目の列を選択します。
    5. 変更を適用します。
    6. ID 列が更新され、「ステップ」パネルに完了した操作が表示されます。
    7. 列のメニューから操作にアクセスすることもできます。
    8. 今回は、2 つの数値の間にあることを選択します。 範囲を指定し、結果の新しい列を作成します。
    9. 新しい列がテーブルに表示され、新しい計算操作が「ステップ」パネルに表示されます。
    10. 今度は、「等しい」を選択して 2 つの列を比較し、結果の新しい列を作成します。
    11. 新しい列がテーブルに表示され、新しい計算操作が「ステップ」パネルに表示されます。

数学 (Math)

数学操作は、数値列にのみ適用できます。 操作の結果を保持する新規列を作成するか、既存の列を上書きできます。

「数学」>「絶対値」
数値の絶対値を取得します。
例: 4 と -4 の絶対値は両方とも 4 です。

「数学」>「アークコサイン」
角度のアークコサインを取得します。

「数学」>「シーリング」
数値以上で最小の整数を取得します。これは、数値の切り上げとも呼ばれます。
例: 2.31 のシーリングは 3 です。 -2.31 のシーリングは -2 です。

「数学」>「指数」
列値の累乗の数値を取得します。

「数学」>「フロア」
数値未満で最大の整数 (数値の切り捨てとも呼ばれる) を取得します。
例: 2.31 のフロアは 2 です。 -2.31 のフロアは -3 です。

「数学」>「ラウンド」
列値に最も近い整数を取得します。 列値が整数の場合は、それを返します。

「数学」>「平方根」
列値の平方根を取得します。


  • ビデオ・トランスクリプト
    1. 列の値に「数学」操作を適用します。 結果の新しい列を作成するか、既存の列を上書きします。
    2. 使用可能な「数学」操作
    3. 列の値に絶対値を適用します。
    4. 結果の新しい列を作成します。
    5. 新しい列がテーブルに追加され、「ステップ」パネルに「数学」操作が表示されます。
    6. 列のメニューから操作にアクセスすることもできます。
    7. ANGLE 列の値に「ラウンド」を適用します。
    8. 結果の新しい列を作成します。
    9. 新しい列がテーブルに追加され、新しい「数学」操作が「ステップ」パネルに表示されます。

ORGANIZE

集計
1 つ以上の列の値に集計計算を適用します。 集計ごとに新規列が作成されます。 オプションで、「列によるグループ化」を選択して、グループの特性 (部門や ID など) を定義する別の列で新しい列をグループ化します。 複数の列でグループ化することが可能です。 単一の操作で複数の集計を結合できます。

使用可能な集計操作は、データ・タイプによって異なります。

数値データ:

  • Count unique values
  • 最小
  • 最大値
  • 合計
  • 標準偏差
  • 平均値

ストリング・データ:

  • Combine row values
  • Count unique values

  • ビデオ・トランスクリプト
    1. 「集計」操作は、1 つ以上の列の値に集計計算を適用します。 集計ごとに新規列が作成されます。
    2. 使用可能な集計は、データが数値データかストリング・データかによって異なります。
    3. 使用可能な演算子は、列のデータ・タイプによって異なります。 数値データに使用可能な演算子。
    4. UniqueCarrier テキスト列を選択すると、ストリング・データに使用可能な演算子を表示できます。
    5. UniqueCarrier 列にある固有値の数を数えます。 この集計は、データ・セット内の航空会社の数を示します。
    6. 新しい航空会社列には 22 社の航空会社があります。 その他の列は削除されます。
    7. 「ステップ」パネルに「集計」操作が表示されます。
    8. まず最初に、数値データの集計を表示します。
    9. 到着遅延の平均 (平均値) を表示します。
    10. すべての到着遅延の平均値は、新しい MeanArrDelay 列にあります。 その他の列は削除されます。
    11. グループの特性を定義する別の列によって集計列をグループ化することもできます。
    12. 航空会社による平均到着遅延を確認できるように、「グループ化」を選択して「集計」ステップを編集します。
    13. UniqueCarrier 列で結果をグループ化します。
    14. 平均到着遅延は、航空会社別にグループ化されるようになりました。
    15. 「ステップ」パネルには、「集計」操作が表示されます。

連結
複数の列の値を連結します。


  • ビデオ・トランスクリプト
    1. 「連結」操作は、複数の列の値を連結します。
    2. 「連結」操作は ORGANIZE カテゴリーの下にあります。
    3. 連結する列を選択します。
    4. 連結された値の間に使用する区切り文字を選択します。
    5. 連結値の列の名前を入力します。
    6. 新しい DATE 列には、他の 3 つの列の値をセミコロン区切り文字で連結した値が表示されます。
    7. 「ステップ」パネルに「連結」操作が表示されます。
    8. DATE 列はストリング・データ・タイプです。 「列タイプの変換」操作を使用して、「日付」データ・タイプに変換します。
    9. DATE 列のメニューから「列タイプの変換」操作を選択します。 日付を選択します。
    10. 日付形式を選択し、結果の新しい列を作成します。
    11. 新しい列には、変換後の日付形式が表示されます。
    12. 「列タイプの変換」操作が「ステップ」パネルに表示されます。
    13. ISO 日付形式は、ストリング・データ・タイプが日付データ・タイプに変換されたときに使用されます。 例えば、ストリング 2004; 2; 3 は日付 2004-02-03 に変換されました。

条件付き置換
条件に基づいて列の値を置換します。


  • ビデオ・トランスクリプト
    1. 条件に基づいて列の値を置換するには、「条件付き置換」操作を使用します。
    2. まず、CODE ストリング列のデータを置き換える条件を指定し、結果の新しい列を作成します。
    3. ストリング・データに使用可能な条件演算子。
    4. 1 番目の条件を追加 - CONDITION 1: CODE が値 C に等しい場合に COMPLETE に置き換えます。
    5. 2 番目の条件を追加 - CONDITION 2: CODE が値 I に等しい場合に INCOMPLETE に置き換えます。
    6. 条件を満たさない値を処理する方法を指定します。 ここでは、空ストリングを示すために 2 つの二重引用符を入力します。
    7. 結果の新しい列を作成します。
    8. 新しい列 STATUS には、CODE 列からの条件付き置換が表示されます。
    9. 「ステップ」パネルに「条件付き置換」操作が表示されます。
    10. 次に、INPUT 整数列のデータを置き換える条件を指定し、結果の新しい列を作成します。
    11. 数値データに使用できる条件演算子。
    12. 1 番目の条件を追加します - CONDITION 1: INPUT が値 3 以下の場合に値 LOW に置き換えます。
    13. 2 番目の条件を追加します - CONDITION 2: INPUT が値 4、5、6 である場合に値 MED に置き換えます。
    14. 3 番目の条件を追加します - CONDITION 3: INPUT が値 7 以上の場合に値 HIGH に置き換えます。
    15. 条件を満たさない値を処理する方法を指定します。
    16. 結果の新しい列を作成します。
    17. 新しい列 RATING には、INPUT 列からの条件付き置換が表示されます。
    18. 「ステップ」パネルに「条件付き置換」操作が表示されます。

結合
指定されたキー列の値の比較に基づいて、2 つのデータ・セットからデータを結合します。 実行する結合のタイプを指定し、比較する両方のデータ・セットの列 (結合キー) を選択してから、結果のデータ・セットの対象列を選択します。

両方のデータ・セット内の結合キー列は互換性のあるデータ・タイプでなければなりません。 結合操作が追加する最初のステップである場合は、Data Refinery でファイルを開いたときに、 列タイプの変換操作が最初のデータ・セットの結合キー列のデータ・タイプを自動的に変換したかどうかを確認します。 また、Data Refinery フロー内の「結合」操作の位置に応じて、「列タイプの変換」操作を使用して、結合キー列のデータ・タイプが一致することを確認できます。 「ステップ」パネルで前のステップをクリックすると、そのステップのスナップショット・ビューが表示されます。

結合タイプには、以下のものがあります。

結合タイプ 説明
Left join 元のデータ・セット内のすべての行を返し、結合データ・セット内の一致する行のみを返します。 結合データ・セット内の一致する各行に対して、元のデータ・セット内の 1 行を返します。
Right join 結合データ・セット内のすべての行を返し、元のデータ・セット内の一致する行のみを返します。 元のデータ・セット内の一致する各行に対して、結合データ・セット内の 1 行を返します。
内部結合 もう一方のデータ・セット内の行に一致する、各データ・セット内の行のみを返します。 結合データ・セット内の一致する各行に対して、元のデータ・セット内の 1 行を返します。
完全結合 両方のデータ・セット内のすべての行を返します。 元のデータ・セット内のすべての行を、結合データ・セット内の一致する行と混合します。
半結合 結合データ・セット内の行に一致する、元のデータ・セット内の行のみを返します。 結合データ・セット内の一致するすべての行に対して、元のデータ・セット内の 1 行を返します。
アンチ結合 結合データ・セット内の行に一致しない、元のデータ・セット内の行のみを返します。

  • ビデオ・トランスクリプト
    1. customers.csv データ・セットには会社の顧客に関する情報が含まれ、sales.csv データ・セットには会社の営業担当員に関する情報が含まれます。
    2. データ・セットは SALESREP_ID 列を共有します。
    3. customers.csv データ・セットが Data Refinery で開いています。
    4. 「結合」操作では、SALESREP_ID 列の値の比較に基づいて、これら 2 つのデータ・セットのデータを結合できます。
    5. 内部結合を実行して、他のデータ・セットと一致する各データ・セットの行のみを返します。
    6. カスタム接尾部を追加して、両方のデータ・セットに存在する列に追加し、その列のソース・データ・セットを表示することができます。
    7. customers.csv データ・セットと結合する sales.csv データ・セットを選択します。
    8. 結合キーの場合には, 列名の入力を開始して, フィルタリングされたリストを表示してください。 SALESREP_ID 列は、2 つのデータ・セットをリンクします。
    9. 次に、含める列を選択します。 重複する列には、接尾部が付加されて表示されます。
    10. ここで、変更を適用します。
    11. 「ステップ」パネルに「結合」操作が表示されます。
    12. これで、データ・セットは customers.csv データ・セットおよび sales.csv データ・セットの列でエンリッチされます。

列の名前変更
選択した列の名前を変更します。


  • ビデオ・トランスクリプト
    1. 列の名前を素早く変更するには、「列の名前変更」操作を使用します。
    2. 列の名前を変更する最も速い方法は、テーブル内の列の名前を編集することです。
    3. 名前を編集し、キーボードで Enter キーを押します。
    4. 「列の名前変更」ステップには、古い名前と新しい名前が表示されます。
    5. ここで、別の列の名前を変更します。
    6. 「ステップ」パネルには、列の名前が BANKS から DOGS に変更されたことが示されています。
    7. ここで、最後の列の名前を変更します。
    8. 「ステップ」パネルには、RATIOS 列が BIRDS に名前変更されたことが示されます。

サンプル
以下のいずれかの方法を使用して、データのサブセットを生成します。 UI 操作からのサンプリング・ステップは、フローの実行時にのみ適用されます。

  • ランダム・サンプル: サブセットの各データ・レコードは、等しい確率で選択されます。
  • 層化サンプル: データをストラータという名前の 1 つ以上のサブグループに分割します。 次に、各サブグループからのデータを含む 1 つのランダム・サンプルを生成します。

  • ビデオ・トランスクリプト
    1. 「サンプル」操作は、データのサブセットを生成します。
    2. 大量のデータがあり、プロトタイピングを高速化するために代表的なサンプルを処理する場合は、「サンプル」操作を使用します。
    3. 「サンプル」操作は ORGANIZE カテゴリーに含まれています。
    4. 2 つの方法のいずれかを選択して、サンプルを作成します。
    5. ランダム・サンプルを使用すると、各行には、サンプル・データに含まれる等しい確率があります。
    6. ランダム・サンプルは、行数またはデータのパーセンテージで選択できます。
    7. 層化されたサンプルは、ランダム・サンプルに基づいて作成されます。 ランダム・サンプルの場合と同様に、サンプルのデータ量 (行またはパーセント) を指定します。
    8. 階層化されたサンプルを使用して、データをストラータと呼ばれる 1 つ以上のサブグループに分割します。 次に、各サブグループからのカスタマイズ・データを含む 1 つのランダム・サンプルを生成します
    9. 「方法」で「自動」を選択した場合は、ストラータの列を 1 つ選択します。
    10. 「手動」を選択した場合は、1 つ以上のストラータを指定し、ストラータごとに、各ストラータの行を定義するフィルター条件を指定します。
    11. この航空会社のデータ例では、2 つのストラータを作成します。 1 つのストラータは、出力の 50% がニューヨーク市に目的地空港を持つことを定義し、2 つ目のストラータは残りの 50% が指定された飛行距離を持つことを定義します。
    12. 「このストラータの詳細を指定」ボックスに、この最初のストラータで指定する条件を表すサンプルのパーセントを入力します。 ストラータ・パーセントの合計は 100% でなければなりません。
    13. ストリング・データに使用可能な演算子。
    14. サンプルの 50% には、ニューヨーク市に目的地空港があります。
    15. 最初のストラータを保存するには、「保存」をクリックします。
    16. Strata0 として識別される最初のストラータには、1 つの条件があります。 このストラータでは、サンプルの 50% が条件を満たす必要があります。
    17. 「このストラータの詳細を指定」ボックスに、2 番目のストラータで指定する条件を表すサンプルのパーセントを入力します。
    18. 数値データに使用可能な演算子。
    19. サンプルの 50% は、500 を超える距離のフライトに使用されます。
    20. 「保存」をクリックして、2 番目のストラータを保存します。
    21. Strata1 として識別される 2 番目のストラータには、1 つの条件があります。 このストラータでは、サンプルの 50% が条件を満たす必要があります。
    22. 複数のストラータを使用する場合、「サンプル」操作では、そのストラータに対して OR 条件を持つ「フィルター」操作が内部的に適用されます。 データ、条件、およびサンプルのサイズによっては、複数の条件を持つ 1 つのストラータを使用した場合の結果が、複数のストラータを使用した場合と異なる場合があります。
    23. 他の Data Refinery 操作とは異なり、「サンプル」操作では、Data Refinery フローのジョブを作成して実行した後にのみ、データ・セットが変更されます。
    24. 「ステップ」パネルに「サンプル」ステップが表示されます。
    25. データ・セットが 10000 行を超えています。
    26. Data Refinery フローのジョブを保存して作成します。
    27. 新規資産ファイルが、Data Refinery フローの出力用のプロジェクトに追加されます。
    28. 出力ファイルを表示します。
    29. Dest 列にはニューヨーク市の空港が 10 行 (サンプルの 50%) ありますが、距離列には 500 を超える値を持つ 17 行があります。
    30. これらの結果は、ストラータが OR 条件で適用され、ニューヨーク市の空港を含む Dest でフィルタリングされた行の距離が 500 を超える最初のストラータで指定された条件のデータが重複していたためです。
    31. Data Refinery の出力ファイルに、削減されたサイズが表示されます。

昇順にソート
テーブル内のすべての行を、選択した列の昇順にソートします。

降順にソート
テーブル内のすべての行を、選択した列の降順にソートします。


  • ビデオ・トランスクリプト
    1. 選択した列の行をソートすることにより、データ・セット内のすべての行を素早くソートします。
    2. 列をソートする最も速い方法は、列のメニューからソートすることです。
    3. 行は昇順または降順にソートできます。
    4. 昇順にソートします。
    5. テーブル内のすべての行の順序は、最初の列の「ソート」操作によって更新されます。
    6. 「ステップ」パネルに「ソート」操作が表示されます。
    7. 降順にソートします。
    8. テーブル内のすべての行の順序は、2 番目の列の「ソート」操作によって変更されます。
    9. 2 番目の「ソート」操作が「ステップ」パネルに表示されます。
    10. 昇順にソートします。
    11. テーブル内のすべての行の順序は、3 番目の列の「ソート」操作によって変更されます。
    12. 3 番目の「ソート」操作が「ステップ」パネルに表示されます。

列の分割
非英数字、位置、パターン、またはテキストで列を分割します。


  • ビデオ・トランスクリプト
    1. 「列の分割」操作は、非英数字、テキスト、パターン、または位置に基づいて、1 つの列を 2 つ以上の列に分割します。
    2. まず、YMD 列を YEAR 列、MONTH 列、および DAY 列に分割します。
    3. 「列の分割」操作は ORGANIZE カテゴリーに含まれています。
    4. 最初に、分割する YMD 列を選択します。
    5. タブには、列を分割する方法を示す 4 つの選択肢があります。
    6. DEFAULT は、列の値に含まれる非英数字を使用して列を分割します。
    7. TEXT では、文字を選択するか、テキストを入力して列を分割します。
    8. PATTERN には、R 構文に基づく正規表現を入力して、列を分割する場所を決定します。
    9. POSITION では、列を分割する位置を指定します。
    10. YMD 列を非英数字のアスタリスク (*) で分割するため、「DEFAULT」タブを選択します。
    11. YMD 列を 3 つの新しい列 (YEAR、MONTH、および DAY) に分割します。
    12. 3 つの新しい列、YEAR、MONTH、および DAY がデータ・セットに追加されます。
    13. 「列の分割」操作が「ステップ」パネルに表示されます。
    14. 次に、FLIGHT 列を 2 つの列に分割します。1 つは航空会社コード用、もう 1 つはフライト番号用です。 航空会社コードは 2 文字であるため、列を位置ごとに分割できます。
    15. 「POSITION」タブをクリックし、「位置」ボックスに 2 を入力します。
    16. FLIGHT 列を、AIRLINE と FLTMBR の 2 つの新しい列に分割します。
    17. 2 つの新しい列 AIRLINE と FLIGHTNBR がデータ・セットに追加されます。
    18. 「列の分割」操作が「ステップ」パネルに表示されます。

ユニオン
同じスキーマを共有し、重複をフィルターで除外する 2 つのデータ・セットの行を結合します。 「異なる列数を許可し、重複値を許可する」を選択した場合、操作はUNION ALLコマンドです。


  • ビデオ・トランスクリプト
    1. 「ユニオン」操作は、同じスキーマを共用する 2 つのデータ・セットからの行を結合します。
    2. このデータ・セットには、4 つの列と 6 つの行があります。 データ・タイプは左から右で、ストリング、ストリング、10 進数、ストリングです。
    3. データ・セットが Data Refinery にロードされると、AUTOMATIC 「列タイプの変換」操作により、PRICE 列が 10 進数データ・タイプに自動的に変換されます。
    4. 2 番目のデータ・セットの列は、このデータ・セットのデータ・タイプと互換性がなければなりません。
    5. 現行データ・セットと結合するデータ・セットを選択します。
    6. 新規データ・セットをプレビューすると、そのデータ・セットにも 4 つの列があることが分かります。 ただし、PRICE 列はストリング・データ・タイプです。
    7. 「ユニオン」操作を適用する前に、AUTOMATIC 「列タイプの変換」ステップを削除して、PRICE 列が新規データ・セットの PRICE 列と同じデータ・タイプ (ストリング) になるようにする必要があります。
    8. PRICE 列がストリング・データになりました。
    9. ここで、「ユニオン」操作を繰り返します。
    10. 新規データ・セットが現行データ・セットに追加されます。 データ・セットは 12 行に増やされます。
    11. 「ステップ」パネルに「ユニオン」操作が表示されます。
    12. 次に、異なる数の列を持つデータ・セットを追加します。 一致する列は、引き続き互換性のあるデータ・タイプでなければなりません。
    13. 現行データ・セットと結合するデータ・セットを選択します。
    14. 新規データ・セットをプレビューすると、元のデータ・セットより 1 列多いことが分かります。 5 番目の列は TYPE です。
    15. 「異なる列数を許可し、重複値を許可する」を選択します。
    16. 「ユニオン」操作を適用します。
    17. 新規データ・セットが現行データ・セットに追加されます。 データ・セットは 18 行に増やされます。
    18. 追加の列 TYPE がデータ・セットに追加されます。
    19. 「ステップ」パネルに「ユニオン」操作が表示されます。

「ユニオン」操作のヒント: 非互換スキーマに関するエラーを受け取った場合は、自動「列タイプの変換」操作によって最初のデータ・セットのデータ・タイプが変更されたかどうかを確認してください。 列タイプの変換ステップを削除して、再試行してください。

自然言語

ストップワードの削除 英語の一般的な単語 (「the」や「and」など) を削除します。 通常、ストップワードは、テキスト分析アルゴリズムおよびテキスト分析モデルにとってセマンティック的な価値はほとんどありません。 データ・ボリュームを削減し、機械学習モデルのトレーニングに使用するデータの品質を向上させるには、ストップワードを削除します。

オプション: 削除された単語を確認するには、選択した列に「トークン化」操作を (単語ごとに) 適用してから、「プロファイル」タブで単語の統計を表示します。 「トークン化」ステップは、後で Data Refinery フローで元に戻すことができます。


  • ビデオ・トランスクリプト
    1. 「ストップワードの削除」操作は、英語の一般的な単語をデータ・セットから削除します。 通常、ストップワードは、テキスト分析アルゴリズムおよびテキスト分析モデルにとってセマンティック的な価値はほとんどありません。 ストップワードを削除して、データ・ボリュームを削減し、データ品質を向上させます。
    2. 「ストップワードの削除」操作は、単語 a、an、and、are、as、at、be、but、by、for、from、if、in、into、is、it、no、not、of、on、or、such、that、the、their、then、there、these、they、this、to、was、will、with を削除します。
    3. 「ストップワードの削除」操作は、NATURAL LANGUAGE カテゴリーの下にあります。
    4. STRING 列を選択します。
    5. ストップワードを削除するには、「適用」をクリックします。
    6. ストップワードは STRING 列から削除されます。
    7. 「ストップワードの削除」操作が「ステップ」パネルに表示されます。

トークン化
英語のテキストを単語、文、段落、行、文字に分割するか、または正規表現で分割します。


  • ビデオ・トランスクリプト
    1. 「トークン化」操作は、英語のテキストを単語、文、段落、行、文字、または正規表現に分割します。
    2. 「トークン化」操作は、NATURAL LANGUAGE カテゴリーの下にあります。
    3. STRING 列を選択します。
    4. 使用可能なトークン化オプション。
    5. WORDS という名前の新しい列を作成します。
    6. 「トークン化」操作は、STRING 列から単語を取得し、単語ごとに行を持つ新しい列 WORDS を作成しました。
    7. 「ステップ」パネルに「トークン化」操作が表示されます。

親トピック: データの精製