빠른 시작: 데이터 세분화

빠르게 대량의 원시 데이터를 사용 가능하며 분석할 준비가 되어 있는 고품질의 정보로 변환하여 데이터 준비 시간을 절약할 수 있습니다. Data Refinery 도구에 대해 읽고 비디오를 시청하고 초보자에게 적합한 학습서를 사용하여 코딩이 필요하지 않습니다.

기본 워크플로우에는 다음 태스크가 포함됩니다.

  1. 프로젝트를 작성합니다. 프로젝트는 데이터 작업을 위해 다른 사용자와 협업하는 위치입니다.
  2. 프로젝트에 데이터를 추가하십시오. 연결을 통해 원격 데이터 소스에서 데이터나 CSV 파일을 추가할 수 있습니다.
  3. Data Refinery에서 데이터를 여십시오.
  4. 데이터를 세분화하는 오퍼레이션을 사용하는 단계를 수행합니다.
  5. 데이터를 변환할 작업을 작성하고 실행합니다.

Data Refinery에 대해 알아보기

Data Refinery를 사용하여 그래픽 플로우 편집기로 표 형식의 데이터를 정리하고 쉐이핑할 수 있습니다. 또한 대화식 템플리트를 사용하여 오퍼레이션, 함수 및 논리 연산자를 코딩할 수도 있습니다. 데이터를 정리할 때 올바르지 않거나 불완전하거나 형식이 잘못되었거나 중복된 데이터를 수정하거나 제거하십시오. 데이터를 쉐이핑할 때 열을 필터링, 정렬, 결합 또는 제거하고 오퍼레이션을 수행하여 데이터를 사용자 정의할 수 있습니다.

Data Refinery 플로우를 순서가 지정된 오퍼레이션 세트로 데이터에 작성합니다. Data Refinery에는 데이터를 프로파일링하여 유효성 검증하는 그래픽 인터페이스와 데이터에 퍼스펙티브와 인사이트를 제공하는 20개 이상의 사용자 정의 가능 차트가 포함되어 있습니다. 정제된 데이터 세트를 저장할 때 일반적으로 데이터 세트를 읽은 위치와 다른 위치에 로드합니다. 이러한 방식으로, 소스 데이터는 세분화 프로세스에 의해 영향을 받지 않습니다.

데이터 정제에 대한 자세한 정보 읽기

데이터 세분화에 대한 동영상 보기

비디오 시청 데이터 정제 방법을 보려면 이 비디오를 시청하십시오.

이 비디오는 이 문서에 기록된 단계를 수행하는 방법의 대안인 시각적 메소드를 제공합니다.

  • 시간 내용 기록
    00:00 이 비디오는 Data Refinery를 사용하여 원시 데이터를 구체화하는 방법을 보여줍니다.
    00:05 프로젝트에서 데이터 정제를 시작하려면 데이터 자산을 보고 Data Refinery에서 여십시오.
    00:14 세부 사항 분할창에는 데이터 정제가 완료되면 데이터 플로우 및 데이터 플로우 출력의 이름이 포함됩니다.
    00:21 도움말 분할창은 데이터를 정제하기 위해 작업할 때 현재 초점이 있는 요소에 대한 문맥 감지 도움말을 제공합니다.
    00:31 데이터 탭은 데이터 세트에 있는 행과 열의 샘플 세트를 표시합니다.
    00:36 성능을 향상시키기 위해, 셰이퍼에 모든 행이 표시되지 않습니다.
    00:40 그러나 데이터를 정제하면 데이터 플로우가 전체 데이터 세트에서 실행될 것이라고 확신합니다.
    00:48 프로파일 탭은 각 열에 대한 빈도 및 요약 통계를 표시합니다.
    00:56 시각화 탭은 관심 있는 열에 대한 데이터 시각화를 제공합니다.
    01:03 차트 유형을 지정하고 차트 옵션을 변경하여 데이터를 더 효과적으로 시각화할 수 있습니다.
    01:14 오른쪽의 아이콘을 사용하여 차트를 이미지로 저장하고 차트를 복원하고 확대 및 축소할 수 있습니다.
    01:23 조치 섹션의 아이콘을 사용하여 시작할 수 있고 차트에 데이터 레이블을 표시하고 차트 세부사항 또는 차트 이미지를 다운로드하며 환경 설정을 변경할 수 있습니다.
    01:38 자, 이제 데이터 논쟁을 해보십시오.
    01:40 지정된 열(이 경우에는 연도 열)에서 정렬하는 것과 같이 단순 조작으로 시작합니다.
    01:48 특정 항공사에 대한 지연에 초점을 맞추고 싶다고 가정하면 데이터를 필터링하여 고유한 캐리어가 유나이티드 항공인 경우에만 해당 행을 표시할 수 있습니다.
    02:04 그것은 총 지연을 보는 것이 도움이 될 것입니다.
    02:06 새 열을 작성하여 도착 및 출발 지연을 조합하여 이를 수행할 수 있습니다.
    02:13 열 유형은 정수로 추론됩니다.
    02:18 도착 지연 열을 선택하고 계산 조작을 사용하십시오.
    02:25 이 경우, 선택한 열에 출발 지연을 추가하고 "TotalDelay"라고 하는 새 열을 작성합니다.
    02:38 열 목록의 끝에 새 열이 표시됩니다.
    02:43 실수를 하거나 변경하기로 결정한 경우에는 데이터 플로우에 액세스하고 해당 단계를 삭제하십시오.
    02:51 이렇게 하면 특정 조작이 실행 취소됩니다.
    02:55 또한 다시 실행 및 실행 취소 단추를 사용할 수 있습니다.
    02:59 다음으로, 선택 조작을 사용하여 열을 처음으로 이동할 수 있도록 TotalDelay열에 초점을 맞추려고 합니다.
    03:09 이 명령은 TotalDelay 열을 목록의 첫 번째 열로 배열하며, 그 이후의 모든 사항을 지정합니다.
    03:19 그런 다음 group_by 연산을 사용하여 연도, 월 및 DayofMonth로 데이터를 그룹으로 나눕니다.
    03:30 따라서, TotalDelay열을 선택하면 연도, 월, DayofMonth 및 TotalDelay 열이 표시됩니다.
    03:40 마지막으로 TotalDelay 열의 평균을 찾으려고 합니다.
    03:44 조작 메뉴를 펼치면 구성 섹션에서 평균 함수가 포함된 집계 조작을 찾을 수 있습니다.
    04:01 이제 전체 지연의 평균을 나타내는 "지연"이라고 하는 새 열이 있습니다.
    04:10 이제 데이터 플로우를 실행하려면 작업을 저장하고 작성하십시오.
    04:17 작업의 이름을 제공하고 다음 화면으로 계속 진행하십시오.
    04:21 구성 단계를 사용하여 작업 실행의 입력 및 출력 내용을 검토할 수 있습니다.
    04:29 작업 스케줄링은 선택사항이지만 원하는 경우 날짜를 설정하고 작업을 반복할 수 있습니다.
    04:38 모든 것이 좋아 보이기 때문에, 작업을 작성하고 실행하십시오.
    04:42 이는 데이터 플로우가 전체 데이터 세트에서 실행됨을 기억하기 때문에 몇 분이 소요될 수 있습니다.
    04:49 그러는 동안 상태를 볼 수 있습니다.
    04:53 실행이 완료되면 자산 탭으로 돌아가 Data Refinery 플로우를 열어 데이터를 더 정제할 수 있습니다.
    05:05 예를 들어, 지연 열을 내림차순으로 정렬할 수 있습니다.
    05:11 이제 세부 사항을 편집합니다.
    05:14 외부 데이터 소스와 같은 대체 위치를 지정하고 데이터 플로우 이름을 변경하거나 Data Refinery 플로우 이름을 변경할 수 있습니다.
    05:31 이제 데이터 플로우를 다시 실행하십시오. 그러나 이번에는 작업을 저장하고 보십시오.
    05:38 목록에서 보려는 작업을 선택하고 작업을 실행하십시오.
    05:48 실행이 완료되면 프로젝트로 돌아가서 자산 탭에서 세 개의 파일을 볼 수 있습니다.
    05:58 원본.
    06:01 분류되지 않은 평균 지연을 표시하는 첫 번째 정제된 데이터 세트입니다.
    06:07 지연 열을 내림차순으로 정렬하여 표시하는 두 번째 데이터 세트입니다.
    06:16 그 아래에서는 데이터 플로우를 볼 수 있습니다.
    06:23 Cloud Pak for Data as a Service 문서에서 더 많은 동영상을 보십시오.

데이터를 세분화하는 튜토리얼 시도

이 튜토리얼에서는 다음을 수행합니다.

  • 프로젝트를 작성합니다.
  • 프로젝트에 데이터를 로드합니다.
  • Data Refinery에서 데이터 세트를 엽니다.
  • 프로파일 및 시각화를 사용하여 데이터를 검토합니다.
  • Data Refinery 플로우에 대한 작업을 실행합니다.
  • Data Refinery 플로우에서 다른 데이터 자산을 작성합니다.
  • 프로젝트에서 데이터 자산 및 Data Refinery 플로우를 봅니다.

이 튜토리얼을 완료하는 데 대략 30분 정도 소요됩니다.

1단계: 프로젝트 작성

데이터 및 Data Refinery 플로우를 저장하는 프로젝트가 필요합니다.

  1. 기존 프로젝트가 있는 경우, 이를 여십시오. 기존 프로젝트가 없는 경우 홈 페이지에서 프로젝트 작성을 클릭하거나 프로젝트 페이지에서 새 프로젝트를 클릭하십시오.
  2. 빈 프로젝트 작성을 선택하십시오.
  3. 프로젝트 작성 화면에서 프로젝트에 대한 이름 및 선택적 설명을 추가하십시오.
  4. 기존 오브젝트 스토리지 서비스 인스턴스을(를) 선택하거나 새로 작성하십시오.

  5. 작성을 클릭하십시오.

자세한 정보 또는 비디오를 시청하려면 프로젝트 작성을(를) 참조하십시오.

2단계: Data Refinery에서 데이터 세트 열기

Data Refinery 플로우를 작성하려면 다음 단계를 수행하십시오.

프로파일 및 시각화 탭을 사용하여 데이터를 탐색하려면 다음 단계를 수행하십시오.

  1. 이상값을 찾을 수 있도록 데이터의 도수 분포를 검토하려면 프로파일 탭을 클릭하십시오. 통계는 각 열의 사분위수 범위, 최소값, 최대값, 중앙값 및 표준 편차를 표시합니다.
  2. 시각화 탭을 클릭하십시오. 시각화할 UniqueCarrier 열을 선택하십시오. 제안된 차트에서는 해당 아이콘 옆에 파란색 점이 있습니다. 데이터를 시각화하려면 원형 차트 아이콘을 클릭하십시오. 차트에서 사용 가능한 다른 퍼스펙티브를 사용하여 데이터 내에서 패턴, 연결 및 관계를 식별하십시오.

: 프로파일 및 시각화 페이지를 사용하여 데이터의 변경사항을 정제할 때 해당 변경사항을 볼 수 있습니다.

4단계: 데이터 세분화

Data Refinery는 두 가지 유형의 조작을 사용하여 데이터, GUI 조작코딩 조작을 정제합니다. 이 튜토리얼에서 두 유형의 오퍼레이션을 모두 사용합니다. 데이터를 정제하는 것은 Data Refinery 플로우를 빌드하기 위한 일련의 단계입니다. 이 학습서를 진행하면서 단계 패널을 보고 진행 상태를 따르십시오. 이를 삭제하거나 편집할 단계를 선택할 수 있습니다. 실수를 하면 실행 취소 아이콘 실행 취소 아이콘도 클릭할 수 있습니다.

  1. 데이터 탭으로 돌아가십시오.
  2. 열을 선택하십시오. 조치 메뉴(동작 아이콘 세 개의 수직 점)를 클릭하고 내림차순 정렬을 선택하십시오.
  3. 단계 패널을 보려면 단계를 클릭하십시오.
  4. 특정 항공사의 지연에 초점을 맞추십시오. 이 튜토리얼에서는 유나이티드 에어라인(UA)을 사용하지만 다른 항공사를 선택할 수 있습니다.
    1. 새로운 단계를 클릭한 후 GUI 조작 필터를 선택하십시오.
    2. UniqueCarrier 열을 선택하십시오.
    3. 연산자의 경우 Is equal to를 선택하십시오.
    4. 의 경우, 지연 정보를 보려는 항공사의 문자열을 입력하십시오. 예를 들어, UA입니다.
    5. 적용을 클릭하십시오. 결과를 보려면 UniqueCarrier 열로 스크롤하십시오.
  5. 도착 및 지연 시간을 함께 추가하는 새 열을 작성하십시오.
    1. ArrDelay 열을 선택하십시오.
    2. 값이 숫자인 모든 열의 문자열 데이터 유형을 정수 데이터 유형으로 변환하기 위한 첫 번째 단계로 변환 열 유형 조작이 자동으로 적용되었습니다.
    3. 새로운 단계를 클릭한 후 GUI 조작 계산을 선택하십시오.
    4. 연산자의 경우 덧셈을 선택하십시오.
    5. 을 선택한 후 DepDelay 열을 선택하십시오.
    6. 결과에 대한 새 열을 작성을 선택하십시오.
    7. 새 열 이름의 경우 TotalDelay을(를) 입력하십시오.
    8. 적용을 클릭하십시오. 새 열(TotalDelay)이 열 목록의 끝에 추가됩니다.
  6. TotalDelay 열을 데이터 세트의 시작 부분으로 이동하십시오.
    1. 명령행 텍스트 상자에서 select 조작을 선택하십시오.
    2. select 단어를 클릭한 후 select(`<column>`, everything())을 선택하십시오.
    3. `<column>`을(를) 클릭한 후 TotalDelay 열을 선택하십시오. 완료하면 명령이 다음과 같이 표시되어야 합니다.
      select(`TotalDelay`, everything())
      
    4. 적용을 클릭하십시오. 이제 TotalDelay 열이 첫 번째 열입니다.
  7. 데이터를 네 개의 열(, , DayofMonthTotalDelay)로 줄이십시오. 열을 년, 월 및 일의 그룹으로 나누려면 group_by 코딩 조작을 사용하십시오.
    1. 명령행 텍스트 상자에서 group_by 조작을 선택하십시오.
    2. <column>을(를) 클릭한 후 열을 선택하십시오.
    3. 닫는 괄호 앞에 ,Month,DayofMonth을(를) 입력하십시오. 완료하면 명령이 다음과 같이 표시되어야 합니다.
      group_by(`Year`,Month,DayofMonth)
      
    4. 적용을 클릭하십시오.
    5. TotalDelay 열에 대해 select 코딩 조작을 사용하십시오. 명령행 텍스트 상자에서 select 조작을 선택하십시오.
      <column>을(를) 클릭하고 TotalDelay 열을 선택하십시오. 명령이 다음과 같아야 합니다.
      select(`TotalDelay`)
      
    6. 적용을 클릭하십시오. 이제 구체화된 데이터는 , , DayofMonthTotalDelay 열로 구성됩니다.
  8. TotalDelay 열 값의 평균을 표시하고 새 지연 열을 작성하십시오.
    1. TotalDelay 열이 선택되었는지 확인하고 새 단계를 클릭한 후 GUI 조작 집계를 선택하십시오.
    2. 집계 1의 경우 평균을 선택하십시오.
    3. 집계된 열의 이름delay을(를) 입력하십시오.
    4. 적용을 클릭하십시오. 새 열 지연은 모든 지연 시간의 평균입니다.

5단계: Data Refinery 플로우에 대한 작업 실행

Data Refinery 플로우에 대한 작업을 실행할 때 전체 데이터 세트에서 단계가 실행됩니다. 런타임을 선택하고 일회성 또는 반복 스케줄을 추가합니다. Data Refinery 플로우의 출력이 프로젝트의 데이터 자산에 추가됩니다.

  1. Data Refinery 도구 모음에서 작업 아이콘을 클릭하고 작업 저장 및 작성을 선택하십시오.
  2. 작업의 이름 및 설명을 입력하고 다음을 클릭하십시오.
  3. 런타임 환경을 선택하고 다음을 클릭하십시오.
  4. (선택사항)전환 단추를 클릭하고 실행 스케줄을 지정하십시오. 작업을 반복할 날짜, 시간 및 날짜를 지정하고 다음을 클릭하십시오.
  5. (선택사항) 이 작업에 대한 알림을 켜고 다음을 클릭하십시오.
  6. 세부사항을 검토하고 작성 및 실행을 클릭하여 작업을 즉시 실행하십시오.
  7. 작업이 작성되면 알림에서 작업 세부사항 링크를 클릭하여 프로젝트의 작업을 보십시오. 또는 프로젝트의 작업 탭으로 이동하여 작업 이름을 클릭하여 열 수 있습니다.
  8. 작업의 상태완료됨인 경우 프로젝트 이동 경로를 사용하여 프로젝트의 자산 탭으로 다시 이동하십시오. 데이터 자산 섹션에서 Data Refinery 플로우 airline-data_shaped.csv의 출력을 볼 수 있습니다.Data Refinery 플로우 섹션에서 Data Refinery 플로우의 기본 이름은 airline-data.csv_flow입니다.

6단계: Data Refinery 플로우에서 다른 데이터 자산 작성

Data Refinery 플로우를 편집하여 데이터 세트를 추가로 정제하십시오.

  1. airline-data.csv_flow을(를) 열려면 클릭하십시오. 플로우는 Data Refinery에서 열립니다.
  2. 내림차순으로 지연 열을 정렬하십시오.
    1. 지연 열을 선택하십시오.
    2. 조치 메뉴(동작 아이콘 세 개의 수직 점)를 클릭한 후 내림차순 정렬을 선택하십시오.
  3. 세부 사항 분할창에서 편집을 클릭하십시오.
  4. 데이터 정제 플로우 출력 분할창에서 출력 편집을 클릭하십시오. 데이터 세트 이름airline-data_sorted_shaped.csv(으)로 변경하십시오.
  5. 변경사항을 저장하려면 체크 표시를 클릭하십시오.
  6. 완료를 클릭하십시오.
  7. Data Refinery 도구 모음에서 작업 아이콘을 클릭하고 작업 저장 및 보기를 선택하십시오.
  8. 항공사 데이터에 대한 작업을 선택한 후 보기를 클릭하십시오.
  9. 작업 창 도구 모음에서 실행 작업 아이콘을 클릭하십시오.

7단계: 프로젝트에서 데이터 자산 및 Data Refinery 플로우 보기

이제 세 개의 데이터 자산, 원본, 첫 번째 정제된 데이터 세트 및 두 번째 정제된 데이터 세트를 보십시오.

  1. 작업이 완료되면 프로젝트 페이지로 이동하십시오.
  2. 자산 탭을 클릭하십시오.
  3. 데이터 자산 섹션에서는 업로드한 원래 데이터 세트와 두 Data Refinery 플로우의 출력이 표시됩니다.

    • airline-data_sorted_shaped.csv
    • airline-data_csv_shaped
    • airline-data.csv

    airline-data_csv_shaped 데이터 자산을 클릭하면 정렬되지 않은 평균 지연이 표시됩니다. 내림차순으로 정렬된 평균 지연을 보려면 airline-data_sorted_shaped.csv 데이터 자산을 클릭하십시오. Data Refinery 플로우 섹션에는 Data Refinery 플로우가 표시됩니다. airline-data.csv_flow.

다음 단계

이제 데이터를 사용할 준비가 되어 있습니다. 예를 들어, 사용자나 다른 사용자가 다음 태스크를 수행할 수 있습니다.

추가 자원

상위 주제: 데이터 준비로 시작하기