Data Refinery의 GUI 오퍼레이션

Data Refinery는 다음 GUI 오퍼레이션 카테고리를 지원합니다.

GUI 조작을 선택하려면 새로운 단계를 클릭하십시오.

각 열의 오버플로우 메뉴(오버플로우 메뉴)에서 조작의 서브세트를 사용할 수 있습니다. 열 헤더에서 편집 아이콘을 클릭하여 열의 이름을 바꿀 수 있습니다.

정리

변환 열 유형
Data Refinery에서 파일을 열면 데이터에서 문자열이 아닌 데이터 유형을 발견하면 변환 열 유형 조작이 첫 번째 단계로 자동으로 적용됩니다. 데이터 유형은 유추된 데이터 유형으로 자동으로 변환됩니다. 선택한 열의 자동 변환을 변경하려면 단계의 오버플로우 메뉴(오버플로우 메뉴)를 클릭하고 편집을 선택하십시오. 다른 오퍼레이션에서와 같이 단계를 실행 취소할 수 있습니다. 변환 열 유형 조작은 Data Refinery에서 파일을 열 때마다 다시 적용됩니다. 자동 변환은 필요에 따라 파일 기반 데이터 소스에만 적용됩니다 (데이터베이스 연결에서 데이터 소스로는 적용되지 않음).

각 열의 데이터가 변환된 데이터 유형을 확인하려면 오버플로우 메뉴에서 편집을 클릭하여(오버플로우 메뉴) 데이터 유형을 보십시오. 정보에는 날짜 또는 시간소인 데이터의 형식이 포함됩니다.

데이터가 정수 또는 10진수 데이터 유형으로 변환되면 적용 가능한 모든 열에 소수점 기호 및 천 단위 그룹화 기호를 지정할 수 있습니다. 10진수 데이터 유형으로 변환되는 문자열은 소수점 기호로 점을 사용하고 천 단위의 그룹화 기호로는 쉼표를 사용합니다. 또는, 소수점 기호용으로 쉼표를 선택하고 점이나 사용자 정의 기호를 천 단위 그룹화 기호용으로 선택할 수 있습니다. 소수점 기호와 천 단위 그룹화 기호는 동일할 수 없습니다.

소스 데이터는 종료자 또는 인식할 수 없는 문자가 있을 때까지 왼쪽에서 오른쪽으로 읽힙니다. 예를 들어, 문자열 데이터 12,834을(를) 10진수로 변환하고 쉼표(,)로 수행할 작업을 지정하지 않는 경우 데이터는 12(으)로 잘립니다. 이와 유사하게 소스 데이터에 여러 개의 점(.)이 있고 소수점 기호용으로 점을 선택한 경우, 첫 번째 점이 소수점 구분 기호로 사용되고 두 번째 점 뒤의 숫자는 모두 잘립니다. 1.834.230,000의 소스 문자열은 1.834 값으로 변환됩니다.

변환 열 유형 조작은 다음 날짜 및 시간소인 형식을 자동으로 변환합니다.

  • 날짜: ymd, ydm
  • 시간소인: ymdHMS, ymdHM, ydmHMS, ydmHM

날짜 및 시간소인 문자열은 연도의 네 자리 숫자를 사용해야 합니다.

변환 열 유형 조작을 수동으로 적용하여 Data Refinery 플로우의 임의의 지점에서 열의 데이터 유형을 변경할 수 있습니다. 이 오퍼레이션의 결과를 보유하는 새 열을 작성하거나 기존 열을 겹쳐쓸 수 있습니다.

팁: 열의 데이터 유형에 따라 사용할 수 있는 조작이 결정됩니다. 데이터 유형을 변경하면 해당 열과 관련된 오퍼레이션에 영향을 미칠 수 있습니다.


  • 비디오 대본
    1. 열 유형 변환 오퍼레이션이 첫 번째 열을 문자열에서 정수로 자동으로 변환했습니다. 다른 세 개 열의 데이터 유형을 변경해봅시다.
    2. european 열의 데이터 유형을 문자열에서 10진수로 변경하려면 열을 선택한 후 열 유형 변환 오퍼레이션 단계를 편집하십시오.
    3. european 열의 데이터 유형을 문자열에서 10진수로 변경하려면 열을 선택한 후 열 유형 변환 오퍼레이션 단계를 편집하십시오.
    4. 10진수를 선택하십시오.
    5. 열이 쉼표 구분 기호를 사용하므로 10진수 기호에 쉼표(,)를 선택하십시오.
    6. 다음 열, DATETIME을 선택하십시오. 시간소인 및 형식을 선택하십시오.
    7. 적용을 클릭하십시오.
    8. 열이 이제 정수, 10진수, 날짜 및 시간소인 데이터 유형입니다. 단계 패널의 열 유형 변환 단계가 업데이트됩니다.

열 값을 누락으로 변환
지정된 열의 값과 일치하거나 지정된 값과 일치하는 경우 선택한 열의 값을 결측값으로 변환합니다.


  • 비디오 대본
    1. 열 값을 누락으로 변환하는 오퍼레이션은 선택된 열의 값이 지정된 열의 값과 일치하는 경우 또는 특정 값에 일치하는 경우 이 값을 결측값으로 변환합니다.
    2. 결측값은 값이 없는 필드인 SQL NULL에 해당합니다. 제로 값이나 공백이 있는 값과는 다릅니다.
    3. 데이터가 결측값으로 더 잘 표현될 것이라 생각하는 경우 열 값을 누락으로 변환 오퍼레이션을 사용할 수 있습니다. 예를 들어, 결측값 대체 오퍼레이션이나 필터 오퍼레이션에 결측값을 사용할 수 있습니다.
    4. 열 값을 누락으로 변환 오퍼레이션을 사용하여 일치 값에 기반해서 값을 누락으로 변경해봅시다.
    5. DESC 열에는 CANCELLED ORDER 값이 있는 행이 많이 있습니다. CANCELLED ORDER 문자열을 결측값으로 변환해봅시다.
    6. 열 값을 누락으로 변환 오퍼레이션은 CLEANSE 카테고리에 있습니다.
    7. 결측값을 대체할 문자열을 입력하십시오.
    8. 이전에 CANCELLED ORDER였던 값이 이제 결측값입니다.

추출 날짜 또는 시간 값
날짜 또는 시간소인 데이터 유형이 있는 열에서 날짜 또는 시간 값의 선택된 부분을 추출합니다.


  • 비디오 대본
    1. 날짜 또는 시간 값 추출 오퍼레이션은 날짜 또는 시간소인 데이터 유형의 열에서 날짜 또는 시간 값의 선택된 부분을 추출합니다.
    2. DATE 열은 문자열 데이터 유형입니다. 먼저, 열 유형 변환 오퍼레이션을 사용하여 이 유형을 날짜 데이터 유형으로 변환해봅시다.
    3. DATE 열의 메뉴에서 열 유형 변환 오퍼레이션을 선택하십시오. 날짜를 선택하십시오.
    4. 날짜 형식을 선택하십시오.
    5. DATE 열은 이제 날짜 데이터 유형입니다.
    6. ISO 날짜 형식은 문자열 데이터 유형이 날짜 데이터 유형으로 변환되었을 때 사용됩니다. 예를 들어, 문자열 01/08/2018이 날짜 2018-01-08로 변환되었습니다.
    7. 이제 날짜의 연도 부분을 새 열에 추출할 수 있습니다.
    8. 날짜 또는 시간 값 추출 오퍼레이션은 CLEANSE 카테고리에 있습니다.
    9. 추출할 날짜의 부분에 연도를 선택하고 새 열 이름에 YEAR를 입력하십시오.
    10. DATE 열의 연도 부분이 이제 새 열, YEAR입니다.
    11. 단계 패널에 날짜 또는 시간 추출 오퍼레이션이 표시됩니다.

필터
선택한 열별로 행을 필터링합니다. 선택한 열 값이 있는 행을 보관하고 다른 모든 행을 필터링에서 제외합니다.

이러한 문자열 필터 연산자의 경우, 값을 따옴표로 묶지 마십시오. 값에 따옴표가 있는 경우 슬래시 문자로 이스케이프하십시오. 예: \"text\":

  • Contains
  • 포함하지 않음
  • Starts with
  • 다음으로 시작하지 않음
  • End with
  • 제외할 종료 문자

숫자, 문자열, 부울(논리), 날짜 및 시간소인 열의 연산자는 다음과 같습니다.

Operator Numeric String Boolean Date and timestamp
Contains
Does not contain
Does not end with
Does not start with
Ends with
Is between two numbers
Is empty
Is equal to
Is false
Is greater than
Is greater than or equal to
Is in
Is less than
Is less than or equal to
Is not empty
Is not equal to
Is not in
Is not null
Is null
Is true
Starts with

  • 비디오 대본
    1. 선택한 열로 행을 필터링하려면 필터 오퍼레이션을 사용하십시오. 하나의 필터 오퍼레이션에 여러 조건을 적용할 수 있습니다.
    2. Emp ID 열의 문자열이 8로 시작하는 행을 제외한 모든 행을 필터링하려면 정규식을 사용하십시오.
    3. 2개 주의 약어로 행을 필터링하십시오.
    4. 적용을 클릭하십시오. Emp ID가 8로 시작하며 주가 AR 또는 TX인 행만 테이블에 있습니다.
    5. 행이 이제 AR 및 PA로 필터링됩니다. 단계 패널의 필터 단계가 업데이트됩니다.

열 제거
선택한 열을 제거합니다.


  • 비디오 대본
    1. 데이터 자산에서 열을 신속하게 제거하려면 열 제거 조작을 사용하십시오.
    2. 가장 빠른 방법은 열의 메뉴에서 열을 제거하는 것입니다.
    3. 제거된 열의 이름은 단계 패널에 있습니다.
    4. 또 다른 열을 제거하십시오.
    5. 제거된 열의 이름은 단계 패널에 있습니다.

중복 제거
중복 열 값이 있는 행을 제거합니다.


  • 비디오 대본
    1. 중복 제거 오퍼레이션은 중복 열 값이 있는 행을 제거합니다.
    2. 데이터 세트에 43개 행이 있습니다. APPLYCODE 열의 여러 행에 중복 값이 있습니다. APPLYCODE 열의 각 값이 한 번만 발생하는 행으로 데이터 세트를 축소하려 합니다.
    3. APPLYCODE 열의 메뉴에서 중복 제거 오퍼레이션을 선택하십시오.
    4. 중복 제거 오퍼레이션이 맨 위 행에서부터 중복 값의 각 발생을 제거했습니다. 데이터 세트는 이제 4개 행입니다.

빈 행 제거
선택한 열에 대해 공백 또는 결측값이 있는 행을 제거합니다.


  • 비디오 대본
    1. 비어 있는 행 제거 오퍼레이션은 선택된 열에 공백 또는 결측값이 있는 행을 제거합니다.
    2. 결측값은 값이 없는 필드인 SQL NULL에 해당합니다. 제로 값이나 공백이 있는 값과는 다릅니다.
    3. 데이터 세트에 43개 행이 있습니다. TRACK 열의 여러 행에 결측값이 있습니다. TRACK 열의 값이 있는 행으로 데이터 세트를 축소하려 합니다.
    4. TRACK 열의 메뉴에서 비어 있는 행 제거 오퍼레이션을 선택하십시오.
    5. 비어 있는 행 제거 오퍼레이션이 TRACK 열에 공백 또는 결측값이 있는 각 행을 제거했습니다. 데이터 세트는 이제 21개 행입니다.

결측값 대체
열에서 결측값을 동일한 행에 있는 지정된 열의 값 또는 지정된 값으로 바꿉니다.


  • 비디오 대본
    1. 결측값 대체 오퍼레이션은 열의 결측값을 지정된 값으로 또는 동일한 행의 지정된 열의 값으로 대체합니다.
    2. STATE 열에는 비어 있는 값이 있는 여러 행이 있습니다. 비어 있는 값을 문자열로 대체하려 합니다.
    3. 결측값 대체 오퍼레이션은 CLEANSE 카테고리에 있습니다.
    4. State 열의 경우 결측값을 문자열 Incomplete로 대체하십시오.
    5. 결측값에 이제 Incomplete 값이 있습니다.
    6. 단계 패널에 결측값 대체 오퍼레이션이 표시됩니다.

서브스트링 바꾸기
지정된 서브스트링을 지정된 텍스트로 바꿉니다.


  • 비디오 대본
    1. 하위 문자열 대체 오퍼레이션은 하위 문자열을 지정한 텍스트로 대체합니다.
    2. DECLINE 열에는 BANC 문자열을 포함한 여러 행이 있습니다. 이 문자열을 BANK로 대체하려 합니다.
    3. 하위 문자열 대체 오퍼레이션은 CLEANSE 카테고리에 있습니다.
    4. 대체할 문자열 및 대체 문자열을 입력하십시오.
    5. 문자열 BANC의 모든 발생이 BANK로 대체되었습니다.
    6. 단계 패널에 하위 문자열 대체 오퍼레이션이 표시됩니다.

대체
선택한 열의 실제 데이터에 대해 무작위 문자열을 대체하여 보기에서 중요한 정보를 얻을 수 있습니다.


  • 비디오 대본
    1. 대체 오퍼레이션은 선택된 열의 데이터에 대한 문자의 무작위 문자열을 대체하여 보기에서 민감한 정보를 숨깁니다.
    2. 열의 데이터를 대체하는 가장 빠른 방법은 열의 메뉴에서 대체를 선택하는 것입니다.
    3. 대체 오퍼레이션이 단계 패널에 표시됩니다.
    4. 또 다른 열의 값을 대체하십시오.
    5. 두 번째 대체 오퍼레이션이 단계 패널에 표시됩니다.

텍스트

문자열 열에만 텍스트 오퍼레이션을 적용할 수 있습니다. 오퍼레이션 결과를 보유하는 새 열을 작성하거나 기존 열을 겹쳐쓸 수 있습니다.

텍스트 > 공간 접기
텍스트에 있는 여러 개의 연속 공백을 단일 공백으로 접습니다.

텍스트 > 연결 문자열
텍스트에 문자열을 모두 연결하십시오. 텍스트 앞에 문자열을 추가하거나 텍스트에 문자열을 추가하거나, 또는 둘 다 할 수 있습니다.

텍스트 > 소문자
텍스트를 소문자로 변환합니다.

텍스트 > 문자 수
텍스트의 문자 수를 리턴합니다.

텍스트 > 채움 문자
지정된 문자열로 텍스트를 채웁니다. 왼쪽, 오른쪽 또는 왼쪽과 오른쪽 모두에서 텍스트를 채울지 여부를 지정하십시오.

텍스트 > 서브스트링
지정된 위치에서 시작하여 지정된 길이를 갖는 텍스트에서 서브스트링을 작성합니다.

텍스트 > 제목 케이스
텍스트를 제목 케이스로 변환합니다.

텍스트 > 작은 따옴표
텍스트에서 작은따옴표 또는 큰따옴표를 제거합니다.

텍스트 > 공백 간격
텍스트에서 선행, 후행 및 추가 공백을 제거합니다.

텍스트 > 대문자
텍스트를 대문자로 변환합니다.


  • 비디오 대본
    1. 문자열 열에 텍스트 오퍼레이션을 적용할 수 있습니다. 결과에 대한 새 열을 작성하거나 기존 열을 겹쳐쓰십시오.
    2. 먼저, 문자열을 WORD 열의 값에 연결하십시오.
    3. 사용 가능한 텍스트 오퍼레이션.
    4. 문자열을 오른쪽에 연결하고, 공백을 추가하고, up을 입력하십시오.
    5. WORD 열의 값에 공백과 단어 up이 추가됩니다.
    6. 텍스트 오퍼레이션이 단계 패널에 표시됩니다.
    7. 다음으로, ANIMAL 열의 값을 문자열로 채우십시오.
    8. ANIMAL 열의 값을 최소 7자에 대한 앰퍼샌드(&) 기호로 오른쪽에 채우십시오.
    9. 각 문자열이 최소 7자가 되도록 ANIMAL 열의 값이 & 기호로 채워집니다.
    10. opossum, pangolin, platypus 및 hedgehog 값은 문자열의 길이가 이미 7자 이상이기 때문에 채움 문자가 없음에 유의하십시오.
    11. 다음으로, 하위 문자열을 사용하여 ID 열에서 t 문자를 제거하십시오.
    12. 위치 2를 사용하여 이 위치에서 새 문자열을 시작하십시오. 4자 길이 문자열에 길이 4를 선택하십시오.
    13. NEW-ID 열에서 ID 열의 처음 t 문자가 제거됩니다.

COMPUTE

계산
다른 열 또는 지정된 값으로 계산을 수행합니다. 연산자는 다음과 같습니다.

  • 더하기
  • 나누기
  • 지수화
  • 두 숫자 사이인가
  • 같음
  • 초과함
  • 다음보다 크거나 같음
  • 미만임
  • 다음보다 적거나 같음
  • 같지 않음
  • 모듈러스
  • 곱셈
  • 빼기

  • 비디오 대본
    1. 계산 오퍼레이션은 다른 열이나 지정된 값을 사용하여 더하기 또는 빼기와 같은 계산을 수행합니다.
    2. 시작할 열을 선택하십시오.
    3. 사용 가능한 계산
    4. 이제 더하기 계산의 두 번째 열을 선택하십시오.
    5. 그리고 변경사항을 적용하십시오.
    6. id 열이 업데이트되고 단계 패널에 완료된 오퍼레이션이 표시됩니다.
    7. 열의 메뉴에서 오퍼레이션에 액세스할 수도 있습니다.
    8. 이 때, Is between 두 숫자를 선택하십시오. 범위를 지정하고 결과를 위한 새 열을 작성하십시오.
    9. 새 열이 테이블에 표시되고 새 계산 오퍼레이션이 단계 패널에 표시됩니다.
    10. 이제, Is equal to를 선택하여 두 열을 비교하고 결과를 위한 새 열을 작성하십시오.
    11. 새 열이 테이블에 표시되고 새 계산 오퍼레이션이 단계 패널에 표시됩니다.

수학

숫자 열에만 수리 오퍼레이션을 적용할 수 있습니다. 오퍼레이션 결과를 보유하는 새 열을 작성하거나 기존 열을 겹쳐쓸 수 있습니다.

수학 > 절대값
숫자의 절대값을 가져옵니다.
예: 4와 -4의 절대값은 모두 4입니다.

수학 > 아크 코사인
각도의 아크코사인을 가져옵니다.

수학 > 천장
숫자의 상한이라고도 하는 가장 가까운 정수 값을 가져옵니다.
예: 2.31의 천장은 3입니다. -2.31의 천장은 -2입니다.

수학 > 지수
열 값의 제곱으로 거듭제곱한 숫자를 가져옵니다.

수학 > 바닥
숫자의 바닥이라고도 하는 더 적은 값의 가장 가까운 정수를 가져옵니다.
예: 2.31의 바닥은 2입니다. -2.31의 바닥은 -3입니다.

수학 > 라운드
열 값에 가장 가까운 정수를 가져옵니다. 열 값이 정수이면 그대로 리턴합니다.

Math > 제곱근
열 값의 제곱근을 가져옵니다.


  • 비디오 대본
    1. 열의 값에 수리 오퍼레이션을 적용하십시오. 결과에 대한 새 열을 작성하거나 기존 열을 겹쳐쓰십시오.
    2. 사용 가능한 수리 오퍼레이션
    3. 열의 값에 절대 값을 적용하십시오.
    4. 결과에 대한 새 열을 작성하십시오.
    5. 새 열이 테이블에 추가되고 수리 오퍼레이션이 단계 패널에 표시됩니다.
    6. 열의 메뉴에서 오퍼레이션에 액세스할 수도 있습니다.
    7. ANGLE 열의 값에 반올림을 적용하십시오.
    8. 결과에 대한 새 열을 작성하십시오.
    9. 새 열이 테이블에 추가되고 새 수리 오퍼레이션이 단계 패널에 표시됩니다.

구성

집계
요약 계산을 하나 이상의 열 값에 적용합니다. 각 집계는 새 열을 작성합니다. 선택적으로, 그룹의 특성(예: 부서 또는 ID)을 정의하는 다른 열로 새 열을 그룹화하려면 열별 그룹을 선택하십시오. 여러 개의 열로 그룹화될 수 있습니다. 단일 오퍼레이션에서 여러 개의 집계를 결합할 수 있습니다.

사용 가능한 집계 오퍼레이션은 데이터 유형에 따라 다릅니다.

숫자 데이터:

  • 고유 값 개수
  • 최소
  • 최대
  • 합계
  • 표준 편차
  • 평균

문자열 데이터:

  • 행 값 결합
  • 고유 값 개수

  • 비디오 대본
    1. 집계 오퍼레이션은 하나 이상의 열 값에 요약 계산을 적용합니다. 각 집계는 새 열을 작성합니다.
    2. 사용 가능한 집계는 데이터가 숫자 또는 문자열 데이터인지 여부에 따라 다릅니다.
    3. 사용 가능한 연산자는 열의 데이터 유형에 따라 다릅니다. 숫자 데이터의 사용 가능 연산자.
    4. UniqueCarrier 텍스트 열이 선택된 경우 문자열 데이터의 사용 가능 연산자를 볼 수 있습니다.
    5. UniqueCarrier 열에 있는 고유 값의 수를 계수합니다. 이 집계는 데이터 세트에 있는 항공사의 수를 표시합니다.
    6. 새 항공사 열에 22개의 항공사가 있습니다. 다른 열은 삭제됩니다.
    7. 집계 오퍼레이션이 단계 패널에 표시됩니다.
    8. 이제 다시, 집계를 숫자 데이터로 표시해봅시다.
    9. 도착 지연의 평균(평균 값)을 표시하십시오.
    10. 모든 도착 지연의 평균 값은 새 MeanArrDelay 열에 있습니다. 다른 열은 삭제됩니다.
    11. 그룹의 특성을 정의하는 다른 열로 집계된 열을 그룹화할 수도 있습니다.
    12. 항공사별 도착 지연 평균을 볼 수 있도록 그룹화 기준 선택사항을 추가해서 집계 단계를 편집하십시오.
    13. UniqueCarrier 열로 결과를 그룹화하십시오.
    14. 평균 도착 지연이 이제 항공사별로 그룹화됩니다.
    15. 단계 패널에 집계 오퍼레이션이 표시됩니다.

연결
둘 이상의 열 값을 연결합니다.


  • 비디오 대본
    1. 연결 오퍼레이션은 둘 이상의 열 값을 연결합니다.
    2. 연결 오퍼레이션은 ORGANIZE 카테고리에 있습니다.
    3. 연결할 열을 선택하십시오.
    4. 연결한 값 사이에 사용할 구분 기호를 선택하십시오.
    5. 연결된 값에 대한 열의 이름을 입력하십시오.
    6. 새 DATE 열에 세미콜론 구분 기호와 함께 다른 세 개 열의 연결된 값이 표시됩니다.
    7. 연결 오퍼레이션이 단계 패널에 표시됩니다.
    8. DATE 열은 문자열 데이터 유형입니다. 열 유형 변환 오퍼레이션을 사용하여 이 유형을 날짜 데이터 유형으로 변환하십시오.
    9. DATE 열의 메뉴에서 열 유형 변환 오퍼레이션을 선택하십시오. 날짜를 선택하십시오.
    10. 날짜 형식을 선택하고 결과를 위한 새 열을 작성하십시오.
    11. 새 열이 변환된 날짜 형식으로 표시됩니다.
    12. 열 유형 변환 오퍼레이션이 단계 패널에 표시됩니다.
    13. ISO 날짜 형식은 문자열 데이터 유형이 날짜 데이터 유형으로 변환되었을 때 사용됩니다. 예를 들어, 문자열 2004;2;3은 날짜 2004-02-03으로 변환되었습니다.

조건부 교체
조건에 따라 열의 값을 바꿉니다.


  • 비디오 대본
    1. 조건에 따라 열의 값을 대체하려면 조건부 대체 오퍼레이션을 사용하십시오.
    2. 먼저, CODE 문자열 열의 데이터를 대체할 조건을 지정하고 결과에 대한 새 열을 작성하십시오.
    3. 문자열 데이터의 사용 가능 조건 연산자.
    4. 첫 번째 조건을 추가하십시오. - CONDITION 1: CODE가 값 C와 동일함 COMPLETE로 대체.
    5. 두 번째 조건을 추가하십시오. - CONDITION 2: CODE가 값 I와 동일함 INCOMPLETE로 대체.
    6. 조건에 일치하지 않는 값에 대해 수행할 사항을 지정하십시오. 여기에서는 비어 있는 문자열을 표시하기 위해 큰따옴표 표시를 입력합니다.
    7. 결과에 대한 새 열을 작성하십시오.
    8. 새 열, STATUS에 CODE 열의 조건부 대체가 표시됩니다.
    9. 조건부 대체 오퍼레이션이 단계 패널에 표시됩니다.
    10. 다음으로, INPUT 정수 열의 데이터를 대체할 조건을 지정하고 결과에 대한 새 열을 작성하십시오.
    11. 숫자 데이터의 사용 가능 조건 연산자.
    12. 첫 번째 조건을 추가하십시오. - CONDITION 1: INPUT이 값 3 이하임 값 LOW로 대체.
    13. 두 번째 조건을 추가하십시오. - CONDITION 2: INPUT이 값 4,5,6임 값 MED로 대체.
    14. 세 번째 조건을 추가하십시오. - CONDITION 3: INPUT이 값 7 이상임 값 HIGH로 대체.
    15. 조건에 일치하지 않는 값에 대해 수행할 사항을 지정하십시오.
    16. 결과에 대한 새 열을 작성하십시오.
    17. 새 열, RATING에 INPUT 열의 조건부 대체가 표시됩니다.
    18. 조건부 대체 오퍼레이션이 단계 패널에 표시됩니다.

결합
지정된 키 열의 값을 비교하여 두 개의 데이터 세트에서 데이터를 결합합니다. 수행할 결합 유형을 지정하고 비교하려는 두 데이터 세트의 열(결합 키)을 선택하고 결과 데이터 세트에서 원하는 열을 선택하십시오.

두 데이터 세트 모두의 결합 키 열은 호환 가능한 데이터 유형이어야 합니다. 결합 조작이 사용자가 추가하는 첫 번째 단계인 경우, 변환 열 유형 조작이 Data Refinery에서 파일을 열 때 첫 번째 데이터 세트에 있는 결합 키 열의 데이터 유형을 자동으로 변환했는지 여부를 확인하십시오. 또한 결합 조작이 Data Refinery 플로우에 있는 위치에 따라 변환 열 유형 조작을 사용하여 결합 키 열의 데이터 유형이 일치하는지 확인할 수 있습니다. 단계의 스냅샷 보기를 보려면 단계 패널의 이전 단계를 클릭하십시오.

결합 유형은 다음과 같습니다.

결합 유형 설명
왼쪽 결합 원래 데이터 세트의 모든 행을 리턴하고 결합 데이터 세트의 일치하는 행만 리턴합니다. 결합 데이터 세트에서 일치하는 각 행에 대해 원래 데이터 세트에서 하나의 행을 리턴합니다.
오른쪽 결합 결합 데이터 세트의 모든 행을 리턴하고 원래 데이터 세트의 일치하는 행만 리턴합니다. 원래 데이터 세트에서 일치하는 각 행에 대해 결합 데이터 세트에서 하나의 행을 리턴합니다.
내부 결합 다른 데이터 세트의 행과 일치하는 각 데이터 세트의 행만 리턴합니다. 결합 데이터 세트에서 일치하는 각 행에 대해 원래 데이터 세트에서 하나의 행을 리턴합니다.
전체 결합 두 데이터 세트의 모든 행을 리턴합니다. 원래 데이터 세트의 행을 결합 데이터 세트의 일치하는 행과 혼합합니다.
세미 결합 결합 데이터 세트의 행과 일치하는 원래 데이터 세트의 행만 리턴합니다. 결합 데이터 세트에서 일치하는 모든 행에 대해 원래 데이터 세트에서 하나의 행을 리턴합니다.
안티 결합 결합 데이터 세트의 행과 일치하지 않는 원래 데이터 세트의 행만 리턴합니다.

  • 비디오 대본
    1. customers.csv 데이터 세트에 회사의 고객에 대한 정보가 포함되어 있고, sales.csv 데이터 세트에는 회사의 영업 담당자에 대한 정보가 포함되어 있습니다.
    2. 데이터 세트는 SALESREP_ID 열을 공유합니다.
    3. customers.csv 데이터 세트는 Data Refinery에서 열려 있습니다.
    4. 결합 오퍼레이션은 SALESREP_ID 열의 값 비교에 기반하여 이러한 두 데이터 세트의 데이터를 결합합니다.
    5. 다른 데이터 세트의 행에 일치하는 각 데이터 세트의 행만 리턴하도록 내부 결합을 수행하려 합니다.
    6. 두 데이터 세트 모두에 존재하는 열에 사용자 정의 접미부를 추가하여 해당 열의 소스 데이터 세트를 볼 수 있습니다.
    7. customers.csv 데이터 세트와 결합할 sales.csv 데이터 세트를 선택하십시오.
    8. 결합 키의 경우 열 이름을 입력해서 필터링된 목록을 보십시오. SALESREP_ID 열은 두 개의 데이터 세트를 연계합니다.
    9. 다음으로, 포함할 열을 선택하십시오. 중복 열은 접미부가 추가되어 표시됩니다.
    10. 이제 변경사항을 적용하십시오.
    11. 결합 오퍼레이션이 단계 패널에 표시됩니다.
    12. 이제, customers.csv 및 sales.csv 데이터 세트의 열로 데이터 세트가 강화됩니다.

열 이름 바꾸기
선택한 열의 이름을 바꿉니다.


  • 비디오 대본
    1. 열의 이름을 빠르게 바꾸려면 열 이름 바꾸기 조작을 사용하십시오.
    2. 열 이름을 바꾸는 가장 빠른 방법은 테이블에서 열의 이름을 편집하는 것입니다.
    3. 이름을 편집하고 키보드에서 Enter를 누르십시오.
    4. 이름 바꾸기 열 단계는 이전 이름 및 새 이름을 표시합니다.
    5. 이제 또 다른 열의 이름을 바꾸십시오.
    6. 단계 패널에 BANKS 열의 이름이 DOGS로 변경되었음이 표시됩니다.
    7. 이제 마지막 열의 이름을 바꾸십시오.
    8. 단계 패널에 RATIOS 열의 이름이 BIRDS로 변경되었음이 표시됩니다.

샘플
다음 방법 중 하나를 사용하여 데이터의 서브세트를 생성하십시오. 플로우가 실행될 경우에만 UI 오퍼레이션에서의 샘플링 단계가 적용됩니다.

  • 무작위 샘플: 서브세트의 각 데이터 레코드는 선택 확률이 동일합니다.
  • 계층화 샘플: 데이터를 계층이라고 하는 하나 이상의 서브그룹으로 나눕니다. 그런 다음 각 서브그룹의 데이터를 포함하는 하나의 무작위 샘플을 생성합니다.

  • 비디오 대본
    1. 샘플 오퍼레이션은 데이터의 서브세트를 생성합니다.
    2. 많은 데이터가 있으며 보다 빠른 프로토타입 작성을 위해 각 샘플에 대해 작업하려는 경우에 샘플 오퍼레이션을 사용하십시오.
    3. 샘플 오퍼레이션은 ORGANIZE 카테고리에 있습니다.
    4. 두 방법 중 하나를 선택하여 샘플을 작성하십시오.
    5. 무작위 샘플을 사용하면 각 행은 샘플 데이터에 포함될 동일한 확률을 갖습니다.
    6. 행의 수 또는 데이터 백분율로 랜덤 샘플을 선택할 수 있습니다.
    7. 계층식 샘플은 랜덤 샘플에 빌드합니다. 랜덤 샘플을 사용하면 샘플의 데이터 양을 지정합니다(행 또는 백분율).
    8. 층화된 샘플을 사용하여 데이터를 계층이라고 하는 하나 이상의 서브그룹으로 나눕니다. 그런 다음 각 하위 그룹의 사용자 정의된 데이터를 포함하는 하나의 무작위 샘플을 생성합니다.
    9. 방법에 자동을 선택하면 계층에 대한 하나의 열을 선택합니다.
    10. 수동을 선택하는 경우에는 하나 이상의 계층을 지정하고, 각 계층마다 각 계층의 행을 정의하는 필터 조건을 지정합니다.
    11. 이 항공사 데이터 예에서는, 두 개의 계층을 작성합니다. 한 계층은 출력의 50%가 뉴욕시가 목적지인 공항을 보유하도록 정의하고, 두 번째 계층은 나머지 50%가 지정된 비행편 거리를 보유하도록 정의합니다.
    12. 이 계층에 대한 세부사항 지정 상자에, 첫 번째 계층에 지정할 조건을 나타내는 샘플의 백분율을 입력하십시오. 계층 백분율은 총계가 100%여야 합니다.
    13. 문자열 데이터의 사용 가능 연산자.
    14. 샘플의 50%는 뉴욕시 영역이 목적지 공항입니다.
    15. 저장을 클릭하여 첫 번째 계층을 저장하십시오.
    16. Strata0으로 식별된 첫 번째 계층에는 한 가지 조건이 있습니다. 이 계층에서는, 샘플의 50%가 조건을 충족해야 합니다.
    17. 이 계층에 대한 세부사항 지정 상자에, 두 번째 계층에 지정할 조건을 나타내는 샘플의 백분율을 입력하십시오.
    18. 숫자 데이터의 사용 가능 연산자.
    19. 샘플의 50%는 항공편의 거리가 500을 초과합니다.
    20. 저장을 클릭하여 두 번째 계층을 저장하십시오.
    21. Strata1로 식별된 두 번째 계층에는 한 가지 조건이 있습니다. 이 계층에서는, 샘플의 50%가 조건을 충족해야 합니다.
    22. 여러 계층을 사용하는 경우에는, 샘플 오퍼레이션이 내부적으로 필터 오퍼레이션을 OR 조건과 함께 계층에 적용합니다. 데이터, 조건 및 샘플의 크기에 따라 여러 조건이 있는 한 계층을 사용한 결과는 여러 계층을 사용한 결과와 다를 수 있습니다.
    23. 기타 Data Refinery 오퍼레이션과 다르게, 샘플 오퍼레이션은 사용자가 Data Refinery 플로우에 대한 작업을 작성하고 실행한 후에만 데이터 세트를 변경합니다.
    24. 샘플 단계가 단계 패널에 표시됩니다.
    25. 데이터 세트는 10000개 행을 초과합니다.
    26. Data Refinery 플로우에 대한 작업을 저장하고 작성하십시오.
    27. Data Refinery 플로우의 출력에 대한 프로젝트에 새 자산 파일이 추가됩니다.
    28. 출력 파일을 보십시오.
    29. Dest 열에 뉴욕시에 공항이 있는 10개 행(샘플의 50%)이 있지만, 값이 500을 초과하는 거리 열에는 17개 행이 있습니다.
    30. 결과가 이러한 이유는 계층에 OR 조건이 적용되었고, 뉴욕시 공항을 포함한 Dest로 필터링된 행에 500을 초과하는 거리 값이 있는 첫 번째 계층에 지정된 조건에 대한 겹치는 데이터가 있었기 때문입니다.
    31. Data Refinery의 출력 파일에 축소된 크기가 표시됩니다.

오름차순 정렬
선택한 열을 기준으로 테이블의 모든 행을 오름차순으로 정렬합니다.

내림차순 정렬
선택한 열을 기준으로 테이블의 모든 행을 내림차순으로 정렬합니다.


  • 비디오 대본
    1. 선택된 열의 행을 정렬해서 데이터 세트의 모든 행을 빠르게 정렬하십시오.
    2. 열을 정렬하는 가장 빠른 방법은 열의 메뉴에서 수행하는 것입니다.
    3. 오름차순 또는 내림차순으로 행을 정렬할 수 있습니다.
    4. 오름차순 정렬.
    5. 테이블에 있는 모든 행의 순서가 첫 번째 열의 정렬 오퍼레이션으로 업데이트됩니다.
    6. 정렬 오퍼레이션이 단계 패널에 표시됩니다.
    7. 내림차순 정렬.
    8. 테이블에 있는 모든 행의 순서가 두 번째 열의 정렬 오퍼레이션으로 변경됩니다.
    9. 두 번째 정렬 오퍼레이션이 단계 패널에 표시됩니다.
    10. 오름차순 정렬.
    11. 테이블에 있는 모든 행의 순서가 세 번째 열의 정렬 오퍼레이션으로 변경됩니다.
    12. 세 번째 정렬 오퍼레이션이 단계 패널에 표시됩니다.

열 분할
열을 영숫자가 아닌 문자, 위치, 패턴 또는 텍스트로 분할하십시오.


  • 비디오 대본
    1. 열 분할 오퍼레이션은 비영숫자 문자, 텍스트, 패턴 또는 위치에 기반하여 하나의 열을 둘 이상의 열로 분할합니다.
    2. 먼저, YMD 열을 YEAR, MONTH 및 DAY 열로 분할하십시오.
    3. 열 분할 조작은 ORGANIZE 범주에 있습니다.
    4. 먼저 YMD 열을 선택하여 분할하십시오.
    5. 열을 분할할 방법에 대한 네 가지 선택사항이 탭에 제공됩니다.
    6. DEFAULT는 열 값의 비영숫자 문자를 사용하여 열을 분할합니다.
    7. TEXT에서는, 문자를 선택하거나 텍스트를 입력하여 열을 분할합니다.
    8. PATTERN에서는, 열을 분할할 위치를 판별하는 R 구문에 기초하여 정규식을 입력합니다.
    9. POSITION에서는, 열을 분할할 위치를 지정합니다.
    10. 비영숫자 문자인 별표(*)로 YMD 열을 분할할 것이므로 DEFAULT 탭을 선택합니다.
    11. YMD 열을 세 개의 새로운 열 - YEAR, MONTH 및 DAY로 분할하십시오.
    12. 세 가지 새로운 열, YEAR, MONTH 및 DAY가 데이터 세트에 추가됩니다.
    13. 열 분할 오퍼레이션이 단계 패널에 표시됩니다.
    14. 다음으로, FLIGHT 열을 두 개의 열(항공사 코드에 대한 하나와 비행편 번호에 대한 하나)로 분할하십시오. 항공사 코드는 두 문자이므로 열을 위치로 분할할 수 있습니다.
    15. POSITION 탭을 클릭한 후 위치 상자에 2를 입력하십시오.
    16. FLIGHT 열을 두 개의 새로운 열 - AIRLINE 및 FLTNMBR로 분할하십시오.
    17. 두 개의 새로운 열, AIRLINE 및 FLIGHTNBR이 데이터 세트에 추가됩니다.
    18. 열 분할 오퍼레이션이 단계 패널에 표시됩니다.

유니온
동일한 스키마를 공유하고, 중복을 걸러낸 2개의 데이터 세트로부터 행을 결합하십시오. 다른 열 수를 허용하고 중복 값 허용을 선택하면 조작은 UNION ALL 명령입니다.


  • 비디오 대본
    1. Union 오퍼레이션은 동일한 스키마를 공유하는 두 가지 데이터 세트의 행을 결합합니다.
    2. 이 데이터 세트에는 4개의 열과 6개의 행이 있습니다. 데이터 유형(왼쪽에서 오른쪽으로)은 문자열, 문자열, 10진수, 문자열입니다.
    3. 데이터 세트가 Data Refinery로 로드되었을 때는, AUTOMATIC 열 유형 변환 오퍼레이션이 자동으로 PRICE 열을 10진수 데이터 유형으로 변환했습니다.
    4. 두 번째 데이터 세트의 열은 이 데이터 세트의 데이터 유형과 호환 가능해야 합니다.
    5. 현재 데이터 세트와 결합할 데이터 세트를 선택하십시오.
    6. 새 데이터 세트를 미리보면 4개 열이 있습니다. 하지만 PRICE 열은 문자열 데이터 유형입니다.
    7. Union 오퍼레이션을 적용하기 전에, PRICE 열이 새 데이터 세트의 PRICE 열과 동일한 데이터 유형(문자열)이 되도록 AUTOMATIC 열 유형 변환 단계를 삭제해야 합니다.
    8. PRICE 열은 이제 문자열 데이터입니다.
    9. 이제 유니온 조작을 반복하십시오.
    10. 새 데이터 세트가 현재 데이터 세트에 추가됩니다. 데이터 세트가 12개 행으로 증가합니다.
    11. Union 오퍼레이션이 단계 패널에 표시됩니다.
    12. 이제 열의 수가 다른 데이터 세트를 추가하십시오. 일치 열은 여전히 호환 가능한 데이터 유형이어야 합니다.
    13. 현재 데이터 세트와 결합할 데이터 세트를 선택하십시오.
    14. 새 데이터 세트를 미리보면 원래 데이터 세트보가 열이 하나 더 있습니다. 5번째 열이 TYPE입니다.
    15. 다른 열 수 허용 및 중복 값 허용을 선택하십시오.
    16. Union 오퍼레이션을 적용하십시오.
    17. 새 데이터 세트가 현재 데이터 세트에 추가됩니다. 데이터 세트가 18개 행으로 증가합니다.
    18. 추가 열인 TYPE이 데이터 세트에 추가됩니다.
    19. Union 오퍼레이션이 단계 패널에 표시됩니다.

유니온 조작에 대한 팁: 호환되지 않는 스키마에 대한 오류를 수신하는 경우, 자동 변환 열 유형 조작이 첫 번째 데이터 세트의 데이터 유형을 변경했는지 확인하십시오. 변환 열 유형 단계를 삭제하고 다시 시도하십시오.

자연어

정지 단어 제거 "the" 또는 "and"와 같은 영어 단어의 공통 단어를 제거합니다. 일반적으로 제외어는 텍스트 분석 알고리즘 및 모델에 대한 시맨틱 값을 거의 가지고 있지 않습니다. 제외어를 제거하면 데이터 볼륨을 줄이고 기계 학습 모델을 훈련시키는 데 사용하는 데이터의 품질을 향상시킵니다.

선택사항: 제거된 단어를 확인하려면 선택한 열에서 토큰화 조작을 적용한 후 프로파일 탭에서 단어에 대한 통계를 보십시오. Data Refinery 플로우에서 나중에 토큰화 단계를 실행 취소할 수 있습니다.


  • 비디오 대본
    1. 제외어 제거 오퍼레이션은 데이터 세트에서 영어로 된 공통 단어를 제거합니다. 일반적으로 제외어는 텍스트 분석 알고리즘 및 모델에 대한 시맨틱 값을 거의 가지고 있지 않습니다. 데이터 볼륨을 줄이고 데이터 품질을 개선하려면 제외어를 제거하십시오.
    2. 제외어 제거 오퍼레이션은 다음 단어를 제거합니다. a, an, and, are, as, at, be, but, by, for, from, if, in, into, is, it, no, not, of, on, or, such, that, the, their, then, there, these, they, this, to, was, will, with.
    3. 제외어 제거 오퍼레이션은 NATURAL LANGUAGE 카테고리에 있습니다.
    4. STRING 열을 선택하십시오.
    5. 적용을 클릭하여 제외어를 제거하십시오.
    6. 제외어가 STRING 열에서 제거됩니다.
    7. 제외어 제거 오퍼레이션이 단계 패널에 표시됩니다.

토큰화
영어 텍스트를 단어, 문장, 단락, 행, 문자 또는 정규식으로 구분하십시오.


  • 비디오 대본
    1. 토큰화 오퍼레이션은 영어 텍스트를 단어, 문장, 문단, 행, 문자로 또는 정규식 경계로 구분합니다.
    2. 토큰화 오퍼레이션은 NATURAL LANGUAGE 카테고리에 있습니다.
    3. STRING 열을 선택하십시오.
    4. 사용 가능 토큰화 옵션.
    5. 이름이 WORDS인 새 열을 작성하십시오.
    6. 토큰화 오퍼레이션이 STRING 열의 단어를 사용하여 각 단어에 대한 행이 있는 새 열, WORDS를 작성했습니다.
    7. 토큰화 오퍼레이션이 단계 패널에 표시됩니다.

상위 주제: 데이터 정제