데이터를 정제하려면 한 위치에서 데이터를 가져와서 정리하고 모양을 만든 다음, 그 결과를 다른 위치에 기록합니다. Data Refinery라는 그래픽 플로우 편집기 도구를 사용하여 테이블 데이터를 정리하고 구체화할 수 있습니다.
데이터 정리인 경우 올바르지 않거나, 불완전하거나, 부적절하게 형식화되거나 중복된 데이터를 수정하거나 제거합니다. 데이터 구체화를 선택하면 열을 필터링, 정렬, 결합 또는 제거하여 사용자 정의할 수 있습니다.
데이터에 대해 순서화된 조작 세트로 Data Refinery 플로우를 작성합니다. Data Refinery에는 데이터를 프로파일링하기 위해 데이터를 프로파일링하는 그래픽 인터페이스와 데이터에 대한 통찰력을 제공하는 20개 이상의 사용자 정의 가능한 차트가 포함되어 있습니다.
- 데이터 형식
- Avro, CSV, JSON, Microsoft Excel (xls및 xlsx 형식. 연결 및 연결된 데이터 자산을 제외한 첫 번째 시트 전용.), Parquet, "sas7bdat" 확장자가 있는 SAS (읽기 전용), TSV (읽기 전용) 또는 구분된 텍스트 데이터 자산
- 관계형 데이터 소스의 테이블
- 데이터 크기
- 모두. Data Refinery는 데이터 세트의 샘플 행 서브세트에서 작동합니다. 샘플 크기는 1MB 또는 10,000행입니다. 그러나 Data Refinery 플로우에 대한 작업을 실행할 때 전체 데이터 세트가 처리됩니다. Data Refinery 플로우가 대형 데이터 자산으로 실패하는 경우 Data Refinery의 임시 해결책을 참조하십시오.
전제조건
데이터를 세분화하기 전에 Cloud Object Storage를 사용하는 프로젝트가 필요합니다. 샌드박스 프로젝트를 사용하거나 새 프로젝트를 작성할 수 있습니다.
프로젝트를 작성하는 방법을 보려면 이 비디오를 보십시오.
이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.
클라우드 또는 온프레미스 데이터 원본에 데이터가 있는 경우, 해당 원본에 연결을 추가하거나 각 연결에서 데이터 자산을 추가해야 합니다. 클라우드 또는 온프레미스 데이터 소스에 세분화된 데이터를 저장하려는 경우 이 목적을 위한 연결도 작성하십시오. Data Refinery 소스 연결은 데이터를 읽는 데만 사용할 수 있고, 대상 연결은 데이터를 쓰는 데만 사용할 수 있습니다. 대상 연결을 작성할 때 쓰기 권한이 있는 신임 정보를 사용해야 합니다. 그렇지 않으면 Data Refinery 플로우 출력을 대상에 저장할 수 없습니다.
연결을 작성하고 연결된 데이터를 프로젝트에 추가하는 방법을 보려면 이 비디오를 보십시오.
이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.
소스 파일 제한사항
CSV 파일
CSV 파일의 형식이 올바르고 다음 규칙을 준수하는지 확인하십시오.
- 행에 두 개의 연속된 쉼표가 있으면 빈 열을 나타냅니다.
- 행이 쉼표로 끝나면 추가 열이 작성됩니다.
CVS 파일에 입력 필드에 악성 페이로드(예: 수식)가 포함되어 있는 경우 이러한 항목이 실행될 수 있습니다.
공백 문자는 데이터의 일부로 간주됩니다.
데이터가 공백(빈 공간) 문자를 포함하는 열을 포함하는 경우, Data Refinery는 해당 공백 문자를 눈금에서 볼 수 없는 경우에도 해당 공백 문자를 데이터의 일부로 간주합니다. 일부 데이터베이스 도구는 공백 문자로 문자열을 채우면 열의 모든 데이터를 동일한 길이로 만들 수 있으며 이 변경은 데이터를 비교하는 Data Refinery 조작의 결과에 영향을 줍니다.
열 이름
열 이름이 다음 규칙을 따르는지 확인하십시오.
- 중복 열 이름은 허용되지 않습니다. 열 이름은 데이터 세트 내에서 고유해야 합니다. 열 이름은 대소문자를 구분하지 않습니다. 열 이름 "Sales"와 다른 열 이름 "sales"를 포함하는 데이터 세트는 작동하지 않습니다.
- 열 이름은 R 프로그래밍 언어에서 예약어가 아닙니다.
- 열 이름은 숫자가 아닙니다. 해결 방법은 열 이름을 큰 따옴표("")로 묶는 것입니다.
"기타" 데이터 유형이 있는 열이 있는 데이터 세트는 Data Refinery 플로우에서 지원되지 않습니다.
데이터 세트에 데이터 유형이 watsonx.ai 기타'로 식별되는 열이 포함된 데이터 집합의 경우, Data Refinery기에서 해당 열은 문자열 데이터 유형으로 표시됩니다. 하지만 Data Refinery 플로우에서 데이터를 사용하려 시도하면 Data Refinery 플로우에 대한 작업이 실패합니다. 미리보기에서 "기타"로 표시되는 데이터 유형의 예는 Db2 DECFLOAT 데이터 유형입니다.
대상 파일 제한사항
Data Refinery 플로우 출력 (대상 데이터 세트) 을 파일에 저장하는 경우 다음 제한사항이 적용됩니다.
- 파일이 기존 데이터 자산인 경우 파일 형식을 변경할 수 없습니다.
데이터 세트 미리보기
Data Refinery는 세분화하는 데 시간이 걸리고 다루기 힘든 큰 데이터 세트에 대한 지원을 제공합니다. 신속하고 효율적으로 작업할 수 있도록 하기 위해 대화식으로 데이터를 세분화하는 동안 데이터 세트에 있는 행의 서브세트에서 작동합니다. Data Refinery 플로우에 대한 작업을 실행할 때 전체 데이터 세트에서 작동합니다.
데이터 세분화
다음 동영상은 데이터를 세분화하는 방법을 보여줍니다.
이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.
1. 프로젝트 내에서 Data Refinery 액세스합니다. 새 자산 > 데이터 준비 및 시각화를 클릭하십시오. 그런 다음 작업할 데이터를 선택하십시오. 또는 프로젝트의 자산 탭에서 데이터 자산을 클릭하여 미리 본 다음 데이터 준비를 클릭합니다.
2. 단계를 사용하여 데이터를 정리하고, 구체화하고, 강화하는 오퍼레이션을 적용하십시오. 조작 범주 또는 특정 조작 검색을 찾아보고 UI가 사용자를 안내합니다. 명령행에서 R 코드 입력을 사용하여 자동 완성 기능을 사용하여 올바른 구문을 얻을 수 있습니다. 오퍼레이션을 데이터 세트에 적용할 때 Data Refinery는 이를 계속해서 추적하고 Data Refinery 플로우를 빌드합니다. 적용하는 각 조작에 대해 Data Refinery는 단계를 추가합니다.
데이터 탭 '
' '
데이터가 비문자열 데이터 유형을 포함하는 경우 Data Refinery에서 파일을 열 때 Data Refinery 플로우의 첫 번째 단계로 변환 열 유형 GUI 조작이 자동으로 적용됩니다. 데이터 유형은 유추된 데이터 유형으로 자동으로 변환됩니다(예: 정수, 날짜 또는 부울). 이 단계를 실행 취소하거나 편집할 수 있습니다.
3. 프로파일 탭을 클릭하여 데이터 세분화 프로세스 전체에서 데이터 유효성 검증 을 수행하십시오.
프로필 탭 '
' '
4. 시각화 탭을 클릭하여 차트에서 데이터를 시각화 하십시오. 사용자 데이터 내에서 패턴, 추세 및 상관을 파악하십시오.
시각화 탭 '
' '
5. 사용자의 요구에 맞게 샘플 데이터 세트를 세분화하십시오.
6. 도구 모음에서 작업 저장 및 작성 또는 작업 저장 및 보기 를 클릭하여 전체 데이터 세트에서 Data Refinery 플로우를 실행하십시오. 런타임을 선택하고 일회성 또는 반복 스케줄을 추가하십시오. 작업에 대한 정보는 Data Refinery에서 작업 작성을 참조하십시오.
Data Refinery 플로우에 대한 작업을 실행할 때 전체 데이터 세트가 처리됩니다. 따라서 작업은 변환과 흐름에서 처리되는 데이터의 양에 따라 잠재적으로 큰 출력(대상) 데이터 집합을 생성할 수 있습니다. 기본적으로 Data Refinery 흐름의 결과는 프로젝트에 데이터 자산으로 저장됩니다.
데이터를 세분화할 때 수행할 수 있는 조치는 Data Refinery 플로우 관리를 참조하십시오.
다음 단계
자세히 알아보기
상위 주제: 데이터 준비