0 / 0
영어 버전 문서로 돌아가기
데이터 정제
마지막 업데이트 날짜: 2024년 12월 05일
데이터 정제

데이터를 정제하려면 한 위치에서 데이터를 가져와서 정리하고 모양을 만든 다음, 그 결과를 다른 위치에 기록합니다. Data Refinery라는 그래픽 플로우 편집기 도구를 사용하여 테이블 데이터를 정리하고 구체화할 수 있습니다.

데이터 정리인 경우 올바르지 않거나, 불완전하거나, 부적절하게 형식화되거나 중복된 데이터를 수정하거나 제거합니다. 데이터 구체화를 선택하면 열을 필터링, 정렬, 결합 또는 제거하여 사용자 정의할 수 있습니다.

데이터에 대해 순서화된 조작 세트로 Data Refinery 플로우를 작성합니다. Data Refinery에는 데이터를 프로파일링하기 위해 데이터를 프로파일링하는 그래픽 인터페이스와 데이터에 대한 통찰력을 제공하는 20개 이상의 사용자 정의 가능한 차트가 포함되어 있습니다.

필요한 서비스
watsonx.ai Studio 또는 IBM Knowledge Catalog
데이터 형식
Avro, CSV, JSON, Microsoft Excel (xls및 xlsx 형식. 연결 및 연결된 데이터 자산을 제외한 첫 번째 시트 전용.), Parquet, "sas7bdat" 확장자가 있는 SAS (읽기 전용), TSV (읽기 전용) 또는 구분된 텍스트 데이터 자산
관계형 데이터 소스의 테이블
데이터 크기
모두. Data Refinery는 데이터 세트의 샘플 행 서브세트에서 작동합니다. 샘플 크기는 1MB 또는 10,000행입니다. 그러나 Data Refinery 플로우에 대한 작업을 실행할 때 전체 데이터 세트가 처리됩니다. Data Refinery 플로우가 대형 데이터 자산으로 실패하는 경우 Data Refinery의 임시 해결책을 참조하십시오.

데이터 및 사용 사례에 대한 올바른 도구 선택에 대한 자세한 정보는 도구 선택을 참조하십시오.

전제조건

데이터를 정제하기 전에 Cloud Object Storage를 사용하는 프로젝트 작성이 필요합니다.


프로젝트를 작성하는 방법을 보려면 이 비디오를 보십시오.

이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.



클라우드 또는 온프레미스 데이터 원본에 데이터가 있는 경우, 해당 원본에 연결을 추가하거나 각 연결에서 데이터 자산을 추가해야 합니다. 클라우드 또는 온프레미스 데이터 소스에 세분화된 데이터를 저장하려는 경우 이 목적을 위한 연결도 작성하십시오. Data Refinery 소스 연결은 데이터를 읽는 데만 사용할 수 있고, 대상 연결은 데이터를 쓰는 데만 사용할 수 있습니다. 대상 연결을 작성할 때 쓰기 권한이 있는 신임 정보를 사용해야 합니다. 그렇지 않으면 Data Refinery 플로우 출력을 대상에 저장할 수 없습니다.


연결을 작성하고 연결된 데이터를 프로젝트에 추가하는 방법을 보려면 이 비디오를 보십시오.
비디오 면책사항: 이 비디오의 일부 사소한 단계 및 그래픽 요소는 플랫폼과 다를 수 있습니다.

이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.


소스 파일 제한사항

CSV 파일

CSV 파일의 형식이 올바르고 다음 규칙을 준수하는지 확인하십시오.

  • 행에 두 개의 연속된 쉼표가 있으면 빈 열을 나타냅니다.
  • 행이 쉼표로 끝나면 추가 열이 작성됩니다.
참고:

CVS 파일에 입력 필드에 악성 페이로드(예: 수식)가 포함되어 있는 경우 이러한 항목이 실행될 수 있습니다.

공백 문자는 데이터의 일부로 간주됩니다.

데이터가 공백(빈 공간) 문자를 포함하는 열을 포함하는 경우, Data Refinery는 해당 공백 문자를 눈금에서 볼 수 없는 경우에도 해당 공백 문자를 데이터의 일부로 간주합니다. 일부 데이터베이스 도구는 공백 문자로 문자열을 채우면 열의 모든 데이터를 동일한 길이로 만들 수 있으며 이 변경은 데이터를 비교하는 Data Refinery 조작의 결과에 영향을 줍니다.

열 이름

열 이름이 다음 규칙을 따르는지 확인하십시오.

  • 중복 열 이름은 허용되지 않습니다. 열 이름은 데이터 세트 내에서 고유해야 합니다. 열 이름은 대소문자를 구분하지 않습니다. 열 이름 "Sales"와 다른 열 이름 "sales"를 포함하는 데이터 세트는 작동하지 않습니다.
  • 열 이름은 R 프로그래밍 언어에서 예약어가 아닙니다.
  • 열 이름은 숫자가 아닙니다. 해결 방법은 열 이름을 큰 따옴표("")로 묶는 것입니다.

"기타" 데이터 유형이 있는 열이 있는 데이터 세트는 Data Refinery 플로우에서 지원되지 않습니다.

데이터 세트에 데이터 유형이 watsonx.ai 기타'로 식별되는 열이 포함된 데이터 집합의 경우, Data Refinery기에서 해당 열은 문자열 데이터 유형으로 표시됩니다. 하지만 Data Refinery 플로우에서 데이터를 사용하려 시도하면 Data Refinery 플로우에 대한 작업이 실패합니다. 미리보기에서 "기타"로 표시되는 데이터 유형의 예는 Db2 DECFLOAT 데이터 유형입니다.

대상 파일 제한사항

Data Refinery 플로우 출력 (대상 데이터 세트) 을 파일에 저장하는 경우 다음 제한사항이 적용됩니다.

  • 파일이 기존 데이터 자산인 경우 파일 형식을 변경할 수 없습니다.

데이터 보호 규칙

Data Refinery 는 행 필터링에 대한 데이터 보호 규칙을 지원하지 않습니다. Data Refinery 작업은 자산이 행 필터링 데이터 보호 규칙에 의해 제어되는 경우 실패할 수 있습니다. 또한 IBM Knowledge Catalog 의 자산을 행 필터링 데이터 보호 규칙에 의해 관리되는 프로젝트에 추가하는 경우 Data Refinery에서 마스킹이 적용되지 않습니다. 자세한 정보는 데이터 보호 규칙 적용을 참조하십시오.

데이터 세트 미리보기

Data Refinery는 세분화하는 데 시간이 걸리고 다루기 힘든 큰 데이터 세트에 대한 지원을 제공합니다. 신속하고 효율적으로 작업할 수 있도록 하기 위해 대화식으로 데이터를 세분화하는 동안 데이터 세트에 있는 행의 서브세트에서 작동합니다. Data Refinery 플로우에 대한 작업을 실행할 때 전체 데이터 세트에서 작동합니다.

데이터 세분화

다음 동영상은 데이터를 세분화하는 방법을 보여줍니다.

이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.

  • 동영상 대본
    시간 대본
    00:00 이 비디오는 Data Refinery를 사용하여 원시 데이터를 구체화하는 방법을 보여줍니다.
    00:05 프로젝트에서 데이터 정제를 시작하려면 데이터 자산을 보고 Data Refinery에서 여십시오.
    00:14 "정보" 분할창에는 데이터 플로우 및 데이터 플로우 출력의 이름이 포함되어 있습니다 (데이터 세분화를 완료한 후).
    00:23 "데이터" 탭에서는 데이터 세트에 있는 행 및 열의 샘플 세트를 표시합니다.
    00:29 성능을 향상시키기 위해서, 모든 행이 셰이퍼에 표시되지 않습니다.
    00:33 그러나 데이터를 정제하면 데이터 플로우가 전체 데이터 세트에서 실행될 것이라고 확신합니다.
    00:41 "프로파일" 탭은 각 열에 대한 빈도 및 요약 통계를 표시합니다.
    00:49 "시각화" 탭은 관심있는 열에 대한 데이터 시각화를 제공합니다.
    00:57 제안된 차트에서는 해당 아이콘 옆에 파란색 점이 있습니다.
    01:03 차트에서 사용 가능한 다른 퍼스펙티브를 사용하여 데이터 내에서 패턴, 연결 및 관계를 식별하십시오.
    01:12 자, 이제 데이터 논쟁을 해보십시오.
    01:17 지정된 열 (이 경우에는 "Year" 열) 에서 정렬하는 것과 같은 단순 조작으로 시작하십시오.
    01:27 특정 항공사에 대한 지연에만 초점을 맞추어 고유 항공사가 "United Airlines" 인 행만 표시하도록 데이터를 필터링할 수 있다고 가정합니다.
    01:47 그것은 총 지연을 보는 것이 도움이 될 것입니다.
    01:50 새 열을 작성하여 도착 및 출발 지연을 조합하여 이를 수행할 수 있습니다.
    01:56 열 유형은 정수로 추론됩니다.
    02:00 출발 지연 열을 선택하고 "계산" 조작을 사용하십시오.
    02:09 이 경우 선택한 열에 도착 지연 열을 추가하고 "TotalDelay""라는 새 열을 만듭니다.
    02:23 열 목록의 끝 또는 원래 열 옆에 새 열을 배치할 수 있습니다.
    02:31 조작을 적용하면 새 열이 출발 지연 열 옆에 표시됩니다.
    02:38 실수를 하거나 변경을 결정하는 경우에는 "단계" 패널에 액세스하여 해당 단계를 삭제하십시오.
    02:46 이렇게 하면 특정 조작이 실행 취소됩니다.
    02:50 또한 다시 실행 및 실행 취소 단추를 사용할 수 있습니다.
    02:56 다음으로, '선택' 작업을 사용하여 열을 앞부분으로 이동할 수 있도록 "TotalDelay" 열에 초점을 맞추고 싶습니다.
    03:09 이 명령은 목록의 첫 번째 열로 "TotalDelay" " 열을 정렬하고 다른 모든 열은 그 뒤에 정렬합니다.
    03:21 다음으로, "group_by" 조작을 사용하여 데이터를 연도, 월, 일별로 그룹으로 나누십시오.
    03:32 따라서 "TotalDelay" 열을 선택하면 "연도", "월", "DayofMonth", ", "TotalDelay" 열이 표시됩니다.
    03:44 마지막으로 "TotalDelay" 열의 평균을 구하려고 합니다.
    03:48 "조작" 메뉴를 펼치면 "구성" 섹션에서 "평균" 함수를 포함하는 "집계" 조작을 찾을 수 있습니다.
    04:08 이제 총 지연의 평균을 나타내는 "AverageDelay", "라는 새 열이 생겼습니다.
    04:17 이제 데이터 플로우를 실행하고 작업을 저장하고 작성하십시오.
    04:24 작업의 이름을 제공하고 다음 화면으로 계속 진행하십시오.
    04:28 "구성" 단계를 사용하여 작업 실행의 입력 및 출력을 검토할 수 있습니다.
    04:36 그리고 작업을 실행하는 데 사용되는 환경을 선택하십시오.
    04:41 작업 스케줄링은 선택사항이지만 원하는 경우 날짜를 설정하고 작업을 반복할 수 있습니다.
    04:51 또한 이 작업에 대한 알림을 수신하도록 선택할 수 있습니다.
    04:56 모든 것이 좋아 보이기 때문에, 작업을 작성하고 실행하십시오.
    05:00 이는 데이터 플로우가 전체 데이터 세트에서 실행됨을 기억하기 때문에 몇 분이 소요될 수 있습니다.
    05:06 그 동안에는 상태를 볼 수 있습니다.
    05:12 실행이 완료되면 프로젝트의 "자산" 탭으로 돌아갈 수 있습니다.
    05:20 그리고 Data Refinery 플로우를 열어 데이터를 추가로 세분화하십시오.
    05:28 예를 들어 "AverageDelay" ' 열을 내림차순으로 정렬할 수 있습니다.
    05:36 이제 플로우 설정을 편집하십시오.
    05:39 "일반" 패널에서 Data Refinery 플로우 이름을 변경할 수 있습니다.
    05:46 "소스 데이터셋" 패널에서 소스 데이터셋의 샘플 또는 형식을 편집하거나 데이터 소스를 바꿀 수 있습니다.
    05:56 "대상 데이터 세트" 패널에서 외부 데이터 소스와 같은 대체 위치를 지정할 수 있습니다.
    06:06 또한 쓰기 모드, 파일 형식과 같은 대상의 특성을 편집하고 데이터 세트 자산 이름을 변경할 수 있습니다.
    06:21 이제 데이터 플로우를 다시 실행하십시오. 그러나 이번에는 작업을 저장하고 보십시오.
    6 :28 목록에서 보려는 작업을 선택하고 작업을 실행하십시오.
    6 :51가 실행이 완료되면 프로젝트로 돌아가십시오.
    06:46 "자산" 탭에서 다음 세 개의 파일을 모두 볼 수 있습니다.
    06:51 원본.
    6 :54 첫 번째 정제된 데이터 집합으로, 정렬되지 않은 "AverageDelay" '를 보여줍니다.
    07:02 그리고 두 번째 데이터 세트는 내림차순으로 정렬된 "AverageDelay" ' 열을 보여줍니다.
    07:11 그리고 "Assets" 탭으로 돌아가서 Data Refinery 플로우가 있습니다.
    07:19 Cloud Pak for Data as a Service 문서에서 더 많은 동영상을 보십시오.

1. 프로젝트 내에서 Data Refinery 액세스합니다. 새 자산 > 데이터 준비 및 시각화를 클릭하십시오. 그런 다음 작업할 데이터를 선택하십시오. 또는 프로젝트의 자산 탭에서 데이터 자산을 클릭하여 미리 본 다음 데이터 준비를 클릭합니다.

2. 단계를 사용하여 데이터를 정리하고, 구체화하고, 강화하는 오퍼레이션을 적용하십시오. 조작 범주 또는 특정 조작 검색을 찾아보고 UI가 사용자를 안내합니다. 명령행에서 R 코드 입력을 사용하여 자동 완성 기능을 사용하여 올바른 구문을 얻을 수 있습니다. 오퍼레이션을 데이터 세트에 적용할 때 Data Refinery는 이를 계속해서 추적하고 Data Refinery 플로우를 빌드합니다. 적용하는 각 조작에 대해 Data Refinery는 단계를 추가합니다.

데이터 탭 '
' 데이터 탭'

데이터가 비문자열 데이터 유형을 포함하는 경우 Data Refinery에서 파일을 열 때 Data Refinery 플로우의 첫 번째 단계로 변환 열 유형 GUI 조작이 자동으로 적용됩니다. 데이터 유형은 유추된 데이터 유형으로 자동으로 변환됩니다(예: 정수, 날짜 또는 부울). 이 단계를 실행 취소하거나 편집할 수 있습니다.

3. 프로파일 탭을 클릭하여 데이터 세분화 프로세스 전체에서 데이터 유효성 검증 을 수행하십시오.

프로필 탭 '
' 프로파일 탭'

4. 시각화 탭을 클릭하여 차트에서 데이터를 시각화 하십시오. 사용자 데이터 내에서 패턴, 추세 및 상관을 파악하십시오.

시각화 탭 '
' 시각화 탭'

5. 사용자의 요구에 맞게 샘플 데이터 세트를 세분화하십시오.

6. 도구 모음에서 작업 저장 및 작성 또는 작업 저장 및 보기 를 클릭하여 전체 데이터 세트에서 Data Refinery 플로우를 실행하십시오. 런타임을 선택하고 일회성 또는 반복 스케줄을 추가하십시오. 작업에 대한 정보는 Data Refinery에서 작업 작성을 참조하십시오.

Data Refinery 플로우에 대한 작업을 실행할 때 전체 데이터 세트가 처리됩니다. 따라서 작업은 변환과 흐름에서 처리되는 데이터의 양에 따라 잠재적으로 대량의 출력(대상) 데이터 집합을 생성할 수 있습니다. 기본적으로 Data Refinery 흐름의 결과는 프로젝트에 데이터 자산으로 저장됩니다.

데이터를 세분화할 때 수행할 수 있는 조치는 Data Refinery 플로우 관리를 참조하십시오.

다음 단계

데이터 및 빌드 모델 분석

자세한 정보

상위 주제: 데이터 준비