데이터 세분화

데이터를 정제하려면 한 위치에서 이를 제거하고 이를 정리하여 모양을 작성한 다음 결과를 다른 위치로 로드합니다. Data Refinery라는 그래픽 플로우 편집기 도구를 사용하여 테이블 데이터를 정리하고 구체화할 수 있습니다.

데이터 정리인 경우 올바르지 않거나, 불완전하거나, 부적절하게 형식화되거나 중복된 데이터를 수정하거나 제거합니다. 데이터 구체화를 선택하면 열을 필터링, 정렬, 결합 또는 제거하여 사용자 정의할 수 있습니다.

데이터에 대해 순서화된 조작 세트로 Data Refinery 플로우를 작성합니다. Data Refinery에는 데이터를 프로파일링하기 위해 데이터를 프로파일링하는 그래픽 인터페이스와 데이터에 대한 통찰력을 제공하는 20개 이상의 사용자 정의 가능한 차트가 포함되어 있습니다.

필요 서비스 Watson Studio 또는 Watson Knowledge Catalog

데이터 형식 Avro, CSV, JSON, Parquet, SAS, "sas7bdat" 확장자(읽기 전용), TSV(읽기 전용) 또는 구분된 텍스트 데이터 자산 관계형 데이터 소스의 테이블

데이터 크기 모두. Data Refinery는 데이터 세트의 샘플 행 서브세트에서 작동합니다. 샘플 크기는 1MB 또는 10,000행입니다. 그러나 Data Refinery 플로우에 대한 작업을 실행할 때 전체 데이터 세트가 처리됩니다.

데이터 및 유스 케이스에 대한 올바른 도구 선택에 대한 자세한 정보는 도구 선택을 참조하십시오.

전제조건

데이터를 정제하기 전에 Cloud Object Storage를 사용하는 프로젝트 작성이 필요합니다.

프로젝트를 작성하는 방법을 보려면 이 동영상을 시청하십시오.

이 비디오는 이 문서에 기록된 단계를 수행하는 방법의 대안인 시각적 메소드를 제공합니다.

클라우드 또는 온프레미스 데이터 소스에 데이터가 있는 경우 해당 소스를 연결 추가해야 하며 각 연결에서 데이터 자산 추가가 필요합니다. 클라우드 또는 온프레미스 데이터 소스에 세분화된 데이터를 저장하려는 경우 이 목적을 위한 연결도 작성하십시오. 소스 연결은 데이터를 읽는 데만 사용되며 대상 연결은 데이터를 로드(저장)하는 데만 사용됩니다. 대상 연결을 작성할 때 쓰기 권한이 있는 신임 정보를 사용해야 합니다. 그렇지 않으면 Data Refinery 플로우 출력을 대상에 저장할 수 없습니다.

연결을 작성하고 프로젝트에 연결된 데이터를 추가하는 방법을 보려면 이 동영상을 시청하십시오.

이 비디오는 이 문서에 기록된 단계를 수행하는 방법의 대안인 시각적 메소드를 제공합니다.

소스 파일 제한사항

CSV 파일

CSV 파일의 형식이 올바르고 다음 규칙을 준수하는지 확인하십시오.

  • 파일에는 널 값으로 끝나는 일부 행과 큰따옴표로 묶은 값이 포함된 일부 열이 있을 수 없습니다.
  • 행에 두 개의 연속된 쉼표가 있으면 빈 열을 나타냅니다.
  • 행이 쉼표로 끝나면 추가 열이 작성됩니다.

공백 문자는 데이터의 일부로 간주됩니다.

데이터가 공백(빈 공간) 문자를 포함하는 열을 포함하는 경우, Data Refinery는 해당 공백 문자를 눈금에서 볼 수 없는 경우에도 해당 공백 문자를 데이터의 일부로 간주합니다. 일부 데이터베이스 도구는 공백 문자로 문자열을 채우면 열의 모든 데이터를 동일한 길이로 만들 수 있으며 이 변경은 데이터를 비교하는 Data Refinery 조작의 결과에 영향을 줍니다.

열 이름

열 이름이 다음 규칙을 따르는지 확인하십시오.

  • 중복 열 이름은 허용되지 않습니다. 열 이름은 데이터 세트 내에서 고유해야 합니다. 열 이름은 대소문자를 구분하지 않습니다. "영업" 열 이름과 다른 열 이름 "판매"를 포함하는 데이터 세트가 작동하지 않습니다.
  • R에 대한 열 이름은 예약어이(가) 아닙니다.
  • 열 이름은 숫자가 아닙니다. 해결 방법은 열 이름을 큰 따옴표("")로 묶는 것입니다.

"기타" 데이터 유형이 있는 열이 있는 데이터 세트는 Data Refinery 플로우에서 지원되지 않습니다.

데이터 세트에 Watson Studio 미리보기에서 "기타"로 식별된 데이터 유형이 있는 열이 포함된 경우 열은 Data Refinery에서 문자열 데이터 유형으로 표시됩니다. 하지만 Data Refinery 플로우에서 데이터를 사용하려 시도하면 Data Refinery 플로우에 대한 작업이 실패합니다. 미리보기에서 "기타"로 표시되는 데이터 유형의 예는 Db2 DECFLOAT 데이터 유형입니다.

대상 파일 제한사항

{: #limittarget}Data Refinery 플로우 출력(대상 데이터 세트)을 파일로 저장하는 경우 다음 제한사항이 적용됩니다.

  • Data Refinery 플로우 세부사항 페이지에서 파일을 미리볼 수 없습니다.
  • 파일이 기존 데이터 자산인 경우 파일 형식을 변경할 수 없습니다.

데이터 세트 미리보기

Data Refinery는 세분화하는 데 시간이 걸리고 다루기 힘든 큰 데이터 세트에 대한 지원을 제공합니다. 신속하고 효율적으로 작업할 수 있도록 하기 위해 대화식으로 데이터를 세분화하는 동안 데이터 세트에 있는 행의 서브세트에서 작동합니다. Data Refinery 플로우에 대한 작업을 실행할 때 전체 데이터 세트에서 작동합니다.

데이터 세분화

다음 동영상은 데이터를 세분화하는 방법을 보여줍니다.

이 비디오는 이 문서에 기록된 단계를 수행하는 방법의 대안인 시각적 메소드를 제공합니다.

1. 프로젝트에서 Data Refinery에 액세스하십시오. 새 자산을 누른 후 Data Refinery 플로우를 선택하십시오. 그런 다음, 작업할 데이터를 선택하십시오. 또는 프로젝트 페이지의 자산 탭에서 다음 조치 중 하나를 수행할 수 있습니다.

  • Avro, CSV, JSON, Parquet, TSV 또는 구분된 텍스트 데이터 자산의 메뉴에서 정제를 선택하십시오.
  • Avro, CSV, JSON, Parquet, TSV 또는 구분된 텍스트 데이터 자산을 클릭하여 먼저 미리보기한 후 정제 링크를 클릭하십시오.
  • Data Refinery 플로우가 이미 있는 경우, Data Refinery 플로우 섹션에서 새로운 Data Refinery 플로우를 클릭한 후 작업하려는 데이터 선택을 클릭하십시오.

팁: 데이터가 테이블 형식으로 표시되지 않는 경우 데이터 탭으로 이동하십시오. 소스 파일 정보로 화면 이동하십시오. "데이터 형식 지정" 아이콘을 클릭하십시오. 자세한 정보는 데이터 소스의 형식 지정을 참조하십시오.

2. 단계를 사용하여 데이터를 정리하고 구체화하고 보강하는 작업을 적용할 수 있습니다. 조작 범주 또는 특정 조작 검색을 찾아보고 UI가 사용자를 안내합니다. 명령행에서 R 코드 입력을 사용하여 자동 완성 기능을 사용하여 올바른 구문을 얻을 수 있습니다. 오퍼레이션을 데이터 세트에 적용할 때 Data Refinery는 이를 계속해서 추적하고 Data Refinery 플로우를 빌드합니다. 적용하는 각 조작에 대해 Data Refinery는 단계를 추가합니다.

데이터 탭
데이터 탭

데이터가 비문자열 데이터 유형을 포함하는 경우 Data Refinery에서 파일을 열 때 Data Refinery 플로우의 첫 번째 단계로 변환 열 유형 GUI 조작이 자동으로 적용됩니다. 데이터 유형은 유추된 데이터 유형으로 자동으로 변환됩니다(예: 정수, 날짜 또는 부울). 이 단계를 실행 취소하거나 편집할 수 있습니다.

3. 프로파일 탭을 클릭하여 데이터 구체화 프로세스 전반에 걸쳐 데이터를 확인합니다.

프로파일 탭
프로파일 탭

4. 시각화 탭을 클릭하여 차트에서 데이터를 시각화하십시오. 사용자 데이터 내에서 패턴, 추세 및 상관을 파악하십시오.

시각화 탭
시각화 탭

5. 사용자 요구에 맞게 샘플 데이터 세트를 세분화하십시오.

6. 선택사항: 정보 분할창 세부 사항 탭에서 편집 단추를 클릭하여 Data Refinery 플로우 세부사항 및 출력 파일 정보 및 위치를 변경하십시오.

Data Refinery 플로우 세부사항 분할창에서 편집 아이콘을 클릭하여 Data Refinery 플로우 이름 및 설명을 편집하십시오. 기본적으로 Data Refinery는 데이터 소스의 이름을 사용하여 Data Refinery 플로우 및 대상 데이터 세트의 이름을 지정합니다. 이러한 이름을 변경할 수 있지만 이러한 데이터 자산이 속하는 프로젝트는 변경할 수 없습니다.

Data Refinery 플로우 출력 분할창에서 출력 편집을 클릭하여 대상 데이터 세트의 이름 설명 또는 위치를 편집하십시오. 출력 파일의 첫 행에 열 헤더가 포함되는지 선택하십시오. 프로젝트, 연결 또는 연결된 데이터 자산에 대상 데이터 세트를 저장할 수 있습니다. 이를 프로젝트에 저장하는 경우 새로운 데이터 자산으로 저장하거나(기본) 기존 데이터 자산을 대체할 수 있습니다. 위치를 편집하여 대상 데이터 세트를 연결에 저장하거나 기존 데이터 자산 또는 기존 연결된 데이터 자산을 대체하십시오. 또는 위치가 Data assets(으)로 설정된 경우 데이터 세트 이름 필드에서 이름을 편집하여 데이터 자산을 대상으로 지정할 수 있습니다. 대상 데이터 세트는 소스 데이터 세트와 다른 데이터 세트여야 합니다.

Data Refinery 플로우 출력의 대상으로 기존 관계형 데이터베이스 테이블 또는 뷰를 선택하거나 연결된 관계형 데이터 자산을 선택하는 경우 기존 데이터 세트에 대한 옵션을 선택하십시오.

  • 겹쳐쓰기 - 기존 데이터 세트의 행을 Data Refinery 플로우 출력의 행으로 겹쳐쓰기
  • 재작성 - 기존 데이터 세트의 행을 삭제하고 이를 Data Refinery 플로우 출력의 행으로 바꾸기
  • 삽입 - 기존 데이터 세트에 Data Refinery 플로우 출력의 모든 행 추가
  • 업데이트 - 기존 데이터 세트의 행을 Data Refinery 플로우 출력으로 업데이트(새 행을 삽입하지 마십시오)
  • 갱신삽입 - 기존 데이터 세트에서 행을 업데이트하고 나머지 Data Refinery 플로우 출력 추가

업데이트 및 업서트 옵션의 경우, 출력 데이터 세트의 열을 선택하여 기존 데이터 세트의 열과 비교해야 합니다. 출력 및 대상 데이터 세트에는 동일한 수의 열이 있어야 하고 열은 두 데이터 세트에서 동일한 이름과 데이터 유형을 가지고 있어야 합니다.

Data Refinery 플로우 출력의 대상으로 연결의 파일을 선택하는 경우 해당 파일에 대해 다음 형식 중 하나를 선택할 수 있습니다.

  • Avro
  • CSV
  • JSON
  • Parquet

7. 도구 모음에서 작업 저장 및 작성 또는 작업 저장 및 보기를 클릭하여 전체 데이터 세트에서 Data Refinery 플로우를 실행하십시오. 런타임을 선택하고 일회성 또는 반복 스케줄을 추가하십시오. 작업에 대한 정보는 프로젝트의 작업을 참조하십시오.

팁: 나중에 데이터를 계속 조정하려면 프로젝트의 자산 탭 > Data Refinery 플로우 섹션에서 Data Refinery 플로우를 열고 오프 위치에서 선택하십시오.

Data Refinery 플로우의 소스 파일 변경

Data Refinery 플로우의 소스를 변경하려면 데이터 소스(첫 번째 단계 이전) 옆에 있는 오버플로우 메뉴(오버플로우 메뉴)를 클릭하고 편집을 선택하십시오. 최상의 결과를 위해 새 데이터 세트에는 원래 데이터 세트(예: 열 이름, 열 수 및 데이터 유형)와 호환 가능한 스키마가 있어야 합니다. 새 데이터 세트에 다른 스키마가 있는 경우 스키마에 대해 작동하지 않는 조작은 오류를 표시합니다. 조작을 편집 또는 삭제하거나 더 호환 가능한 스키마가 있는 소스로 소스를 변경할 수 있습니다.

"스냅샷 모드" 에서 Data Refinery 플로우 단계를 보십시오.

특정 시점에서 데이터가 어떻게 보이는지 확인하려면 이전 단계를 클릭하여 Data Refinery를 스냅샷 보기에 넣으십시오. 예를 들어, 데이터 소스를 클릭하면 정제를 시작하기 전에 데이터가 어떻게 표시되었는지 확인할 수 있습니다. 오퍼레이션 단계를 클릭하면 해당 오퍼레이션이 적용된 후 데이터가 어떻게 보이는지 확인할 수 있습니다. 스냅샷 모드를 종료하려면 y의 x 단계 보기를 클릭하거나 스냅샷 보기에 표시하기 위해 선택한 동일한 단계를 클릭하십시오.

스냅샷 모드를 사용하여 두 단계 사이에 조작을 삽입하십시오.

  1. 새 오퍼레이션을 삽입하려는 위치 앞의 단계를 클릭하십시오. 해당 오퍼레이션이 적용된 후 Data Refinery는 데이터 세트의 스냅샷 보기를 보여줍니다.
  2. 새 오퍼레이션을 선택하고 적용하십시오. Data Refinery는 기존 단계 사이에 새 단계를 삽입하고 새 단계를 따르는 모든 조작을 다시 실행합니다.

단계 실행 취소, 다시 실행 및 편집 단계

도구 모음에서 조작을 실행 취소하고 다시 실행할 수 있습니다. 단계 탭에서 조작을 삽입, 편집 및 삭제할 수도 있습니다.

단계를 편집하려면:

  1. 편집하려는 조작의 단계에서 오버플로우 메뉴(오버플로우 메뉴)를 클릭하십시오. Data Refinery가 편집 모드로 전환되고 명령행 또는 오퍼레이션 분할창에서 편집할 오퍼레이션을 표시합니다.
  2. 오퍼레이션을 편집하거나 대신할 다른 오퍼레이션을 선택하십시오.
  3. 편집된 오퍼레이션을 적용하십시오. Data Refinery는 관련 단계를 업데이트하여 변경사항을 반영하고 편집된 모든 조작을 다시 실행합니다.

다음 단계

데이터 및 빌드 모델 분석

자세히 보기

상위 주제: 데이터 준비