빠르게 대량의 원시 데이터를 사용 가능하며 분석할 준비가 되어 있는 고품질의 정보로 변환하여 데이터 준비 시간을 절약할 수 있습니다. Data Refinery 도구에 대해 읽고 비디오를 시청하고 초보자에게 적합한 학습서를 사용하여 코딩이 필요하지 않습니다.
기본 워크플로우에는 다음 태스크가 포함됩니다.
- 샌드박스 프로젝트를 여십시오. 프로젝트는 데이터 작업을 위해 다른 사용자와 협업하는 위치입니다.
- 프로젝트에 데이터를 추가합니다. 연결을 통해 원격 데이터 소스에서 데이터나 CSV 파일을 추가할 수 있습니다.
- Data Refinery에서 데이터를 여십시오.
- 데이터를 세분화하는 오퍼레이션을 사용하는 단계를 수행합니다.
- 데이터를 변환할 작업을 작성하고 실행합니다.
Data Refinery에 대해 알아보기
Data Refinery를 사용하여 그래픽 플로우 편집기로 표 형식의 데이터를 정리하고 쉐이핑할 수 있습니다. 또한 대화식 템플리트를 사용하여 오퍼레이션, 함수 및 논리 연산자를 코딩할 수도 있습니다. 데이터 정리인 경우 올바르지 않거나, 불완전하거나, 부적절하게 형식화되거나 중복된 데이터를 수정하거나 제거합니다. 데이터를 쉐이핑하는 경우 열을 필터링, 정렬, 결합 또는 제거하고 오퍼레이션을 수행하여 데이터를 사용자 정의합니다.
Data Refinery 플로우를 순서가 지정된 오퍼레이션 세트로 데이터에 작성합니다. Data Refinery에는 데이터를 프로파일링하여 유효성 검증하는 그래픽 인터페이스와 데이터에 퍼스펙티브와 인사이트를 제공하는 20개 이상의 사용자 정의 가능 차트가 포함되어 있습니다. 정제된 데이터 세트를 저장할 때 일반적으로 데이터 세트를 읽은 위치와 다른 위치에 로드합니다. 이러한 방식으로, 소스 데이터는 세분화 프로세스에 의해 영향을 받지 않습니다.
데이터 세분화에 대한 동영상 보기
데이터 정제 방법을 보려면 이 비디오를 시청하십시오.
이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.
데이터를 세분화하는 튜토리얼 시도
이 학습서에서는 다음 태스크를 완료합니다.
- 태스크 1: 프로젝트를 여십시오.
- 태스크 2: Data Refinery에서 데이터 세트를 여십시오.
- 태스크 3: 프로파일 및 시각화를 사용하여 데이터를 검토하십시오.
- 태스크 4: 데이터를 세분화하십시오.
- 태스크 5: Data Refinery 플로우에 대한 작업을 실행하십시오.
- 태스크 6: Data Refinery 플로우에서 다른 데이터 자산을 작성하십시오.
- 태스크 7: 프로젝트에서 데이터 자산 및 Data Refinery 플로우를 보십시오.
이 튜토리얼을 완료하는 데 대략 30분 정도 소요됩니다.
이 학습을 완료하기 위한 팁
다음은 이 학습서를 성공적으로 완료하기 위한 몇 가지 팁입니다.
비디오 사진 사용
다음 애니메이션 이미지는 비디오 픽처 인 픽처 및 목차 기능을 사용하는 방법을 보여줍니다.
커뮤니티에서 도움 받기
이 튜토리얼에 도움이 필요하면 watsonx 커뮤니티 토론 포럼에서 질문하거나 답변을 찾을 수 있습니다.
브라우저 창 설정
이 튜토리얼을 완료하는 최적의 경험을 위해 한 브라우저 창에서 Cloud Pak for Data 를 열고 두 애플리케이션 간에 쉽게 전환할 수 있도록 다른 브라우저 창에서 이 튜토리얼 페이지를 열어 두십시오. 따라하기 쉽도록 두 개의 브라우저 창을 나란히 배열하는 것을 고려하십시오.
태스크 1: 프로젝트 열기
데이터 및 Data Refinery 플로우를 저장하는 프로젝트가 필요합니다. 샌드박스 프로젝트를 사용하거나 프로젝트를 작성할 수 있습니다.
탐색 메뉴 ' 에서 프로젝트 > 모든 프로젝트 보기를 선택합니다
샌드박스 프로젝트를 여십시오. 새 프로젝트를 사용하려면 다음을 수행하십시오.
새 프로젝트를 클릭하십시오.
빈 프로젝트 작성을 선택하십시오.
프로젝트의 이름 및 선택적 설명을 입력하십시오.
기존 오브젝트 스토리지 서비스 인스턴스를 선택하거나 새로 작성하십시오.
작성을 클릭하십시오.
진행 상황 확인
다음 이미지는 비어 있는 새 프로젝트를 표시합니다.
추가 정보나 동영상을 보려면 프로젝트 작성을 참조하십시오.
태스크 2: Data Refinery 에서 데이터 세트 열기
이 태스크를 미리 보려면 00:05에서 시작하는 비디오를 시청하십시오.
프로젝트에 데이터 자산을 추가하고 Data Refinery 플로우를 작성하려면 다음 단계를 수행하십시오. 이 학습서에서 사용할 데이터 세트는 자원 허브에서 사용 가능합니다.
리소스 허브에서 항공사 데이터에 액세스합니다.
프로젝트에 추가를 클릭하십시오.
목록에서 프로젝트를 선택하고 추가를 클릭하십시오.
데이터 세트가 추가된 후 프로젝트 보기를 클릭하십시오.
자원 허브에서 프로젝트로 데이터 자산 추가에 대한 자세한 정보는 노트북에서 데이터 로드 및 액세스를 참조하십시오.
자산 탭에서 airline-data.csv 데이터 자산을 클릭하여 해당 컨텐츠를 미리보십시오.
데이터 준비 를 클릭하여 Data Refinery에서 파일 샘플을 열고 Data Refinery 가 데이터 샘플을 읽고 처리할 때까지 기다리십시오.
정보 및 단계 패널을 닫으십시오.
진행 상황 확인
다음 이미지는 Data Refinery에서 열려 있는 항공사 데이터 자산을 표시합니다.
태스크 3: 프로파일 및 시각화를 사용하여 데이터 검토
이 태스크를 미리 보려면 00:47에서 시작하는 비디오를 시청하십시오.
자산의 컨텐츠는 해당 열의 값을 기반으로 자동으로 프로파일링되고 분류됩니다. 프로파일 및 시각화 탭을 사용하여 데이터를 탐색하려면 다음 단계를 수행하십시오.
프로파일 탭을 클릭하여 이상치를 찾을 수 있도록 데이터의 빈도 분포를 검토하십시오.
각 열에 대한 통계를 보려면 열을 스크롤하십시오. 통계는 각 열의 사분위수 범위, 최소값, 최대값, 중앙값 및 표준 편차를 표시합니다.
추가 세부사항을 보려면 막대 위로 마우스를 이동하십시오.
다음 이미지는 프로필 탭을 보여줍니다:
'시각화 탭을 클릭하십시오.
시각화할 UniqueCarrier 열을 선택하십시오. 제안된 차트에서는 해당 아이콘 옆에 파란색 점이 있습니다.
원형 차트를 클릭하십시오. 차트에서 사용 가능한 다른 퍼스펙티브를 사용하여 데이터 내에서 패턴, 연결 및 관계를 식별하십시오.
진행 상황 확인
다음 이미지는 시각화 탭을 표시합니다. 이제 데이터를 세분화할 준비가 되었습니다.
태스크 4: 데이터 세분화
Data Refinery 오퍼레이션
Data Refinery는 두 가지 유형의 조작을 사용하여 데이터, GUI 조작 및 코딩 조작을 정제합니다. 이 튜토리얼에서 두 유형의 오퍼레이션을 모두 사용합니다.
GUI 오퍼레이션은 여러 개의 단계로 구성될 수 있습니다. 새로운 단계에서 조작을 선택하십시오. 각 열의 오버플로 메뉴()에서도 GUI 작업의 하위 집합을 사용할 수 있습니다.
Data Refinery에서 파일을 열면 변환 열 유형 조작은 비문자열 데이터 유형을 추론된 데이터 유형(예: 정수, 날짜, 부울 등)으로 변환하기 위한 첫 번째 단계로 자동으로 적용됩니다. 이 단계를 실행 취소하거나 편집할 수 있습니다.
코딩 오퍼레이션은 코딩 오퍼레이션, 함수 및 논리 연산자를 위한 대화식 템플리트입니다. 대부분의 오퍼레이션에는 대화식 도움말이 있습니다. 코딩 오퍼레이션과 해당 구문 옵션을 보려면 명령행 텍스트 상자에서 오퍼레이션 이름을 클릭하십시오.
이 작업을 미리 보려면 01:16부터 시작하는 동영상을 시청하세요.
데이터를 정제하는 것은 Data Refinery 플로우를 빌드하기 위한 일련의 단계입니다. 이 태스크를 진행하면서 단계 패널을 보고 진행 상태를 따르십시오. 이를 삭제하거나 편집할 단계를 선택할 수 있습니다. 실수한 경우 실행 취소 아이콘 ' 을 클릭할 수도 있습니다. 데이터를 세분화하려면 다음 단계를 수행하십시오.
데이터 탭으로 돌아가십시오.
년 열을 선택하십시오. 오버플로 메뉴()를 클릭하고 내림차순 정렬을 선택합니다.
단계 패널에서 새 단계를 보려면 단계 를 클릭하십시오.
특정 항공사의 지연에 초점을 맞추십시오. 이 튜토리얼에서는 유나이티드 에어라인(UA)을 사용하지만 다른 항공사를 선택할 수 있습니다.
새로운 단계를 클릭한 후 GUI 조작 필터를 선택하십시오.
UniqueCarrier 열을 선택하십시오.
연산자의 경우 Is equal to를 선택하십시오.
값의 경우, 지연 정보를 보려는 항공사의 문자열을 입력하십시오. 예를 들어, '
UA
.
'적용을 클릭하십시오. 결과를 보려면 UniqueCarrier 열로 스크롤하십시오.
도착 및 지연 시간을 함께 추가하는 새 열을 작성하십시오.
DepDelay 열을 선택하십시오.
값이 숫자인 모든 열의 문자열 데이터 유형을 정수 데이터 유형으로 변환하기 위한 첫 번째 단계로 변환 열 유형 조작이 자동으로 적용되었습니다.
새로운 단계를 클릭한 후 GUI 조작 계산을 선택하십시오.
연산자의 경우 덧셈을 선택하십시오.
열을 선택한 후 ArrDelay 열을 선택하십시오.
결과를 위한 새 열 작성을 선택하십시오.
새 열 이름에'
TotalDelay
을 입력합니다.
'열 목록의 끝 또는 원래 열 옆에 새 열을 배치할 수 있습니다. 이 경우 원래 열 옆을 선택하십시오.
적용을 클릭하십시오. 새 열인 총 지연이 추가됩니다.
새 TotalDelay 열을 데이터 세트의 시작 부분으로 이동하십시오.
명령행 텍스트 상자에서 select 조작을 선택하십시오.
select라는 단어를 클릭한 후 select(`
<column>
`, everything())을 선택하십시오.`<column>`
을(를) 클릭한 후 TotalDelay 열을 선택하십시오. 완료하면 명령이 다음과 같이 표시되어야 합니다.select(`TotalDelay`, everything())
적용을 클릭하십시오. 이제 TotalDelay 열이 첫 번째 열입니다.
데이터를 네 개의 열(년, 월, DayofMonth 및 TotalDelay)로 줄이십시오. 열을 년, 월 및 일의 그룹으로 나누려면 group_by 코딩 조작을 사용하십시오.
명령행 텍스트 상자에서 group_by 조작을 선택하십시오.
<column>
을(를) 클릭한 후 년 열을 선택하십시오.닫는 괄호 앞에
,Month,DayofMonth
을(를) 입력하십시오. 완료하면 명령이 다음과 같이 표시되어야 합니다.group_by(`Year`,Month,DayofMonth)
적용을 클릭하십시오.
TotalDelay 열에 대해 select 코딩 조작을 사용하십시오. 명령행 텍스트 상자에서 select 조작을 선택하십시오.
<column>
을(를) 클릭하고 TotalDelay 열을 선택하십시오. 명령이 다음과 같아야 합니다.select(`TotalDelay`)
적용을 클릭하십시오. 이제 구체화된 데이터는 년, 월, DayofMonth 및 TotalDelay 열로 구성됩니다.
다음 화면 이미지는 데이터의 처음 네 행을 보여줍니다.
'
TotalDelay 열 값의 평균을 표시하고 새 AverageDelay 열을 작성하십시오.
새로운 단계를 클릭한 후 GUI 조작 집계를 선택하십시오.
열에 대해 TotalDelay를 선택하십시오.
연산자에 대해 평균을 선택하십시오.
집계된 열의 이름에'
AverageDelay
을 입력합니다.
'적용을 클릭하십시오.
새 열 AverageDelay 는 모든 지연 시간의 평균입니다.
진행 상황 확인
다음 이미지는 데이터의 처음 네 행을 표시합니다.
태스크 5: Data Refinery 플로우에 대한 작업 실행
이 태스크를 미리 보려면 04:16에서 시작하는 비디오를 시청하십시오.
Data Refinery 플로우에 대한 작업을 실행할 때 전체 데이터 세트에서 단계가 실행됩니다. 런타임을 선택하고 일회성 또는 반복 스케줄을 추가합니다. Data Refinery 플로우의 출력이 프로젝트의 데이터 자산에 추가됩니다. 다음 단계에 따라 세분화된 데이터 세트를 작성하는 작업을 실행하십시오.
Data Refinery 도구 모음에서 작업 아이콘을 클릭하고 작업 저장 및 만들기를 선택합니다.
' '작업의 이름 및 설명을 입력하고 다음을 클릭하십시오.
런타임 환경을 선택하고 다음을 클릭하십시오.
(선택사항)전환 단추를 클릭하고 실행 스케줄을 지정하십시오. 작업을 반복할 날짜, 시간 및 날짜를 지정하고 다음을 클릭하십시오.
(선택사항) 이 작업에 대한 알림을 켜고 다음을 클릭하십시오.
세부 정보를 검토하고 생성 및 실행을 클릭하여 작업을 즉시 실행합니다.
' '작업이 작성되면 알림에서 작업 세부사항 링크를 클릭하여 프로젝트의 작업을 보십시오. 또는 프로젝트의 작업 탭으로 이동하여 작업 이름을 클릭하여 열 수 있습니다.
작업의 상태 가 완료됨인 경우 프로젝트 탐색 추적을 사용하여 프로젝트의 자산 탭으로 다시 이동하십시오.
Data Refinery 플로우 airline-data_shaped.csv의 출력을 보려면 데이터 > 데이터 자산 섹션을 클릭하십시오.
플로우 > Data Refinery 플로우 섹션을 클릭하여 Data Refinery 플로우, airline-data.csv_flow를 확인하십시오.
진행 상황 확인
다음 이미지는 Data Refinery 플로우 및 쉐이핑된 자산이 있는 자산 탭을 표시합니다.
태스크 6: Data Refinery 플로우에서 다른 데이터 자산 작성
이 작업을 미리 보려면 05:26부터 시작하는 동영상을 시청하세요.
Data Refinery 플로우를 편집하여 데이터 세트를 추가로 세분화하려면 다음 단계를 수행하십시오.
airline-data.csv_flow 를 클릭하여 Data Refinery에서 플로우를 여십시오.
AverageDelay 열을 내림차순으로 정렬하십시오.
AverageDelay 열을 선택하십시오.
열 오버플로 메뉴()를 클릭한 다음 내림차순 정렬을 선택합니다.
플로우 설정 아이콘 ' '을 클릭합니다.
대상 데이터 세트 패널을 클릭하십시오.
특성 편집을 클릭하십시오.
대상 속성 서식 지정 대화 상자에서 데이터 자산 이름을 '
airline-data_sorted_shaped.csv
으로 변경합니다.
' '저장 을 클릭하여 플로우 설정으로 돌아가십시오.
적용을 클릭하여 설정을 저장하십시오.
Data Refinery 도구 모음에서 작업 아이콘을 클릭하고 작업 저장 및 보기를 선택합니다.
' '항공사 데이터에 대한 작업을 선택한 후 보기를 클릭하십시오.
작업 창 도구 모음에서 작업 실행 아이콘을 클릭합니다.
' '
진행 상황 확인
다음 이미지는 완료된 작업 세부사항을 표시합니다.
태스크 7: 프로젝트에서 데이터 자산 및 Data Refinery 플로우 보기
이 작업을 미리 보려면 06:40부터 시작하는 동영상을 시청하세요.
이제 다음 단계에 따라 세 개의 데이터 자산 (원본, 첫 번째 정제된 데이터 세트 및 두 번째 정제된 데이터 세트) 을 보십시오.
작업이 완료되면 프로젝트 페이지로 이동하십시오.
자산 탭을 클릭하십시오.
데이터 자산 섹션에서는 업로드한 원래 데이터 세트와 두 Data Refinery 플로우의 출력이 표시됩니다.
airline-data_sorted_shaped.csv
airline-data_csv_shaped
airline-data.csv
airline-data_csv_shaped 데이터 자산을 눌러 정렬되지 않은 평균 지연을 보십시오. 자산 탭으로 다시 이동하십시오.
airline-data_sorted_shaped.csv 데이터 자산을 클릭하면 평균 지연이 내림차순으로 정렬되어 표시됩니다. 자산 탭으로 다시 이동하십시오.
플로우 > Data Refinery 플로우 섹션을 클릭하면 Data Refinery 플로우:
airline-data.csv_flow
가 표시됩니다.
진행 상황 확인
다음 이미지는 모든 자산이 표시된 자산 탭을 표시합니다.
다음 단계
이제 데이터를 사용할 준비가 되어 있습니다. 예를 들어, 사용자나 다른 사용자가 다음 태스크를 수행할 수 있습니다.
추가 자원
비디오를 더 보십시오.
자원 허브에서 샘플 데이터 세트, 프로젝트, 모델, 프롬프트 및 노트북을 찾아 실제 경험을 얻을 수 있습니다.
프로젝트에 추가하여 데이터 분석과 모델 구축을 시작할 수 있는 노트북입니다.
노트북, 데이터 세트, 프롬프트 및 기타 에셋을 포함해 가져올 수 있는 프로젝트입니다.
프로젝트에 추가하여 모델을 구체화, 분석 및 구축할 수 있는 데이터 세트입니다.
프롬프트 랩에서 foundation model 프롬프트하는 데 사용할 수 있는 프롬프트입니다.
프롬프트 랩에서 사용할 수 있는 파운데이션 모델입니다.
상위 주제: 빠른 시작 학습서