빠른 시작: 데이터 변환 | IBM Cloud Pak for Data as a Service

영어 버전 문서로 돌아가기

빠른 시작: 데이터 변환

마지막 업데이트 날짜: 2024년 12월 06일

빠른 시작: 데이터 변환

DataStage 플로우를 사용하여 개별 데이터 소스에서 데이터를 쉽게 통합, 정리, 분석할 수 있습니다. DataStage 도구에 대해 읽고 비디오를 시청하고 데이터 변환에 대한 지식이 있는 사용자에게 적합하지만 코딩이 필요하지 않은 학습서를 사용하십시오.

필수 서비스: watsonx.ai 스튜디오; DataStage

기본 워크플로우에는 다음 태스크가 포함됩니다.

프로젝트를 작성하십시오. 프로젝트는 데이터 작업을 위해 다른 사용자와 협업하는 위치입니다.
프로젝트에 데이터를 추가하십시오. 연결을 통해 원격 데이터 소스에서 데이터나 CSV 파일을 추가할 수 있습니다.
DataStage 플로우를 작성합니다.
데이터를 세분화하는 오퍼레이션을 사용하는 단계를 수행합니다.
데이터를 변환할 작업을 작성하고 실행합니다.

DataStage에 대해 알아보기

DataStage는 프로젝트에서 데이터를 변환하고 통합하는데 사용할 수 있는 ETL(추출, 변환, 로드) 도구입니다.

DataStage 사용하기 쉽도록 설계되었으며 플랫폼에 완전히 통합되어 있습니다. ISX 파일을 사용하여 DataStage에 기존 레거시 병렬 작업을 가져오고 DataStage 캔버스를 사용하여 플로우를 작성, 편집, 테스트하며, 플로우에서 생성된 작업을 실행할 수 있습니다.

DataStage에 대한 자세한 정보

DataStage 플로우를 사용한 데이터 변환 방법에 대한 동영상 보기

비디오 시청 단순 DataStage 플로우를 작성하는 방법을 보려면 이 비디오를 시청하십시오.

이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.

데이터를 변환하는 튜토리얼 시도

이 학습서에서는 다음 태스크를 완료합니다.

태스크 1: 프로젝트를 여십시오.
태스크 2: 프로젝트에 데이터 세트를 추가하십시오.
태스크 3: DataStage 플로우 작성
태스크 4: 노드를 편집하십시오.
태스크 5: DataStage 플로우를 실행하고 자산을 보십시오.

이 튜토리얼은 완료하는 데 약 20분이 소요됩니다.

이 학습을 완료하기 위한 팁

다음은 이 학습서를 성공적으로 완료하기 위한 몇 가지 팁입니다.

비디오 사진 사용

팁: 비디오를 시작한 후 학습을 통해 화면이동하면 비디오가 그림 모드로 이동합니다. 픽처 인 픽처를 사용하여 최상의 경험을 얻으려면 비디오 목차를 닫으십시오. 그림 모드를 사용하여 이 학습서의 태스크를 완료하면서 비디오를 따라갈 수 있습니다. 각 태스크에 대한 시간소인을 클릭하여 수행하십시오.

다음 애니메이션 이미지는 비디오 픽처 인 픽처 및 목차 기능을 사용하는 방법을 보여줍니다.

그림 및 장을 사용하는 방법

커뮤니티에서 도움 받기

이 튜토리얼에 도움이 필요하면 Cloud Pak for Data 커뮤니티 토론 포럼에서 질문하거나 답변을 찾을 수 있습니다.

브라우저 창 설정

이 튜토리얼을 완료하는 최적의 경험을 위해 한 브라우저 창에서 Cloud Pak for Data 를 열고 두 애플리케이션 간에 쉽게 전환할 수 있도록 다른 브라우저 창에서 이 튜토리얼 페이지를 열어 두십시오. 따라하기 쉽도록 두 개의 브라우저 창을 나란히 배열하는 것을 고려하십시오.

병행 학습서 및 UI

팁: 사용자 인터페이스에서 이 학습서를 완료하는 동안 안내식 둘러보기가 표시되면 나중에를 클릭하십시오.

태스크 1: 프로젝트 열기

데이터 세트 및 DataStage 플로우를 저장할 프로젝트가 필요하며 DataStage 서비스를 프로비저닝해야 합니다. 기존 프로젝트를 열거나 새 프로젝트를 작성하고 서비스를 프로비저닝하려면 다음 단계를 수행하십시오.

탐색 메뉴 ' 에서 프로젝트 > 모든 프로젝트 보기를 선택합니다
기존 프로젝트가 있는 경우, 이를 여십시오.
기존 프로젝트가 없는 경우 새 프로젝트를 클릭하십시오.
빈 프로젝트 작성을 선택하십시오.
프로젝트의 이름 및 선택적 설명을 입력하십시오.
작성을 클릭하십시오.
탐색 메뉴 ' 에서 서비스 > 서비스 인스턴스를 클릭합니다.
서비스 추가를 클릭하고 데이터 스테이지를 선택하십시오.
작성을 클릭하십시오. 서비스 인스턴스 페이지에서 프로비저닝된 서비스가 표시됩니다.

추가 정보나 동영상을 보려면 프로젝트 작성을 참조하십시오.

진행 상황 확인

다음 이미지는 프로비저닝된 서비스를 표시합니다.

태스크 2: 프로젝트에 데이터 세트 추가

이 학습서에서 사용되는 데이터 세트는 자원 허브에서 사용 가능합니다. 자원 허브에서 데이터 세트를 찾아 프로젝트에 추가하려면 다음 단계를 수행하십시오.

리소스 허브에서 고객 데이터 집합에 액세스합니다.
프로젝트에 추가를 클릭하십시오.
목록에서 프로젝트를 선택하고 추가를 클릭하십시오.
데이터 세트가 추가된 후 프로젝트 보기를 클릭하십시오.

자원 허브에서 프로젝트로 데이터 자산을 추가하는 방법에 대한 자세한 정보는 노트북에서 데이터 로드 및 액세스를 참조하십시오.

진행 상황 확인

다음 이미지는 프로젝트의 자산 탭을 표시합니다.

태스크 3: DataStage 플로우 작성

학습서 비디오 미리보기 이 작업을 미리 보려면 00:26부터 시작하는 동영상을 시청하세요.

DataStage 플로우에는 네 개의 노드 (원래 데이터 자산, 필터 노드, 정렬 노드 및 변환된 데이터 자산) 가 포함됩니다. DataStage 플로우를 작성하려면 다음 단계를 수행하십시오.

딸깍 하는 소리 새로운 자산 > 데이터 변환 및 통합 .
이름 및 설명을 제공한 후 작성을 클릭하십시오.
커넥터를 클릭한 후 자산 브라우저 노드를 캔버스로 끌어서 놓으십시오.
데이터 자산 > customers.csv를 선택하고 추가를 클릭하십시오.
노드 팔레트에서 스테이지 섹션을 펼친 다음 필터 노드를 캔버스로 끌어오십시오.
노드를 함께 링크하려면 Customers.csv 노드에서 파란색 화살표를 클릭하고 필터 노드로 끌어오십시오.
스테이지 섹션에서 정렬 노드를 캔버스로 끌어오십시오.
필터 노드를 정렬 노드에 연결하십시오.
커넥터 섹션을 펼치고 캔버스에서 자산 브라우저 노드를 끌어오십시오.
데이터 자산 > customers.csv를 선택하고 추가를 클릭하십시오. customer.csv 파일을 겹쳐쓰지 않도록 나중에 파일 이름을 변경합니다.
정렬 노드를 이 마지막 Customers.csv 노드에 연결하십시오.

진행 상황 확인

다음 이미지는 초기 흐름을 보여줍니다.
'

태스크 4: 노드 편집

학습서 비디오 미리보기 이 작업을 미리 보려면 03:27부터 시작하는 동영상을 시청하세요.

캔버스에서 각 노드의 등록 정보를 편집하려면 다음 단계를 수행하십시오.

노드 1: 첫 번째 자산 브라우저 노드 편집

첫 번째 Customer.csv 노드를 두 번 클릭하십시오.
오른쪽의 특성 패널에서 노드의 이름을 CustomerTable 로 바꾸어 자산 노드의 이름을 바꾸십시오.
출력 탭을 클릭하십시오.
열 섹션을 펼치고 편집을 클릭하십시오.
YTD_SALES 열의 데이터 유형에 있는 데이터 유형에서 십진수를 선택하여 YTD_SALES 열의 데이터 유형을 변경합니다.
특성 패널로 돌아가려면 적용 및 반환을 클릭하십시오.
저장을 클릭하여 고객 테이블 노드에 대한 변경 사항을 저장합니다.

노드 2: 필터 노드 편집

필터 노드를 두 번 클릭하십시오.
필터 노드의 이름을 바꾸려면 특성 패널에서 Filter_1 텍스트의 이름을 FilterYTDSales(으)로 바꾸십시오.
특성 섹션을 펼치십시오. 술어아래에서 편집을 클릭하십시오.
1. Where절 열 아래에 YTD_SALES > 1000를 입력하십시오.
2. 적용 후 돌아가기를 클릭하십시오.
출력 탭을 클릭하십시오.
열 섹션을 펼치고 편집을 클릭하십시오.
1. 모든 열을 선택하고 이 자습서에서 유지될 아래 나열된 다음 열을 선택 해제합니다.
  - CUST_ID
  - CUSTNAME
  - COUNTRY_CODE
  - EMAIL_ADDRESS
  - PHONE_NUMBER
  - YTD_SALES
  - SALESREP_ID
2. 선택한 행 삭제 아이콘 ' '을 클릭하여 선택한 나머지 열을 삭제합니다.
3. CUSTNAME 열의 경우, 이름을 CUSTOMERNAME(으)로 바꾸십시오. 이 변경은 필터 노드 뒤에 오는 노드로 전파됩니다.
4. 특성 패널로 돌아가려면 적용 및 반환을 클릭하십시오.
저장을 클릭하여 필터 노드에 대한 변경 사항을 저장합니다.

노드 3: 정렬 노드 편집

정렬 노드를 두 번 클릭하십시오.
특성 패널에서 텍스트 Sort_1의 이름을 SortYTDSales(으)로 바꾸어 정렬 노드의 이름을 바꾸십시오.
특성 섹션을 펼치십시오.
키 정렬에서 키 추가를 클릭합니다.
1. 키 추가를 클릭하십시오.
2. 키 드롭 다운에서 YTD_SALES를 선택하십시오.
3. 정렬 순서의 경우 내림차순을 선택하십시오.
4. 정렬 키 목록으로 돌아가려면 적용을 클릭하십시오.
5. 특성 패널로 돌아가려면 적용 및 반환을 클릭하십시오.
입력 탭을 클릭하고 열 섹션을 확장하여 CUSTOMERNAME 열 이름 변경사항이 필터 노드에서 하향 전파되었는지 확인하십시오.
출력 탭을 클릭하고 열 섹션을 확장하여 CUSTOMERNAME 열 이름 변경사항이 필터 노드에서 하향 전파되었는지 확인하십시오.
저장을 클릭하여 정렬 노드에 대한 변경 사항을 저장합니다.

노드 4: 마지막 자산 브라우저 노드 편집

마지막 Customers.csv 노드를 두 번 클릭하십시오.
특성 패널에서 노드의 이름을 CustomerFilteredTable 로 바꾸어 자산 노드의 이름을 바꾸십시오.
특성 섹션을 펼치고 데이터 자산 작성 선택란을 선택하십시오.
데이터 자산 이름 필드에 ' Customers filtered'을 입력합니다.
입력 탭을 클릭하고 열 섹션을 확장하여 CUSTOMERNAME 열 이름 변경사항이 필터 노드에서 하향 전파되었는지 확인하십시오.
저장 을 클릭하여 필터링된 고객 테이블 노드에 변경사항을 저장하십시오.

진행 상황 확인

다음 이미지는 최종 흐름을 보여줍니다.
'

태스크 5: DataStage 플로우 실행 및 자산 보기

학습서 비디오 미리보기 이 작업을 미리 보려면 06:36부터 시작하는 동영상을 시청하세요.

이제 플로우를 실행할 준비가 되었습니다. 플로우를 실행하고 프로젝트에서 변환된 자산을 보려면 다음 단계를 수행하십시오.

저장 을 클릭하십시오.
컴파일을 클릭하십시오.
실행을 클릭하십시오.
(선택사항) 실행 세부사항을 보려면 로그 링크를 클릭하십시오.
마지막 필터링된 고객 테이블 노드를 두 번 클릭하십시오.
특성 섹션을 펼치십시오.
아래로 스크롤하고 데이터 미리보기를 클릭하십시오. 데이터가 올바르게 필터링 및 정렬되었음을 알 수 있습니다.
1. 차트 패널을 클릭하십시오.
2. 시각화할 열에 대해 YTD_SALES를 선택하십시오.
3. 차트 유형에 대해 Q-Q 플롯을 클릭하십시오.
4. 닫기를 클릭하십시오.
프로젝트에서 데이터 자산을 작성하도록 플로우를 설정했으므로 탐색 추적에서 프로젝트 이름을 클릭하여 프로젝트로 돌아가십시오.
자산 탭에서 필터링된 고객 자산을 여십시오.

진행 상황 확인

다음 이미지는 고객이 필터링한 데이터 자산을 표시합니다.

다음 단계

이제 데이터를 사용할 준비가 되어 있습니다. 예를 들어, 사용자나 다른 사용자가 다음 태스크를 수행할 수 있습니다.

다른 학습서를 사용해 보십시오.
- 데이터 통합 학습서: 데이터 를 DataStage 와 통합
- DataStage 를 사용하여 엔터프라이즈 데이터를 눈송이로 로드
- 데이터 세분화
카탈로그에 데이터 자산을 추가하여 조직과 공유
노트북에서 데이터 분석
데이터 자산을 사용하여 모델 빌드 및 훈련

추가 자원

비디오를 더 보십시오.
샘플 데이터 집합을 찾아 리소스 허브에서 데이터 변환을 직접 경험해 보세요.
샘플 DataStage 프로젝트: COVID-19 Tracking with IBM DataStage를 시작하십시오.
이 추가 튜토리얼을 통해 ' DataStage 플로우에 대해 더 많은 실습 경험을 해보세요: 새로운 ' IBM ' DataStage ' 서비스 사용 시작하기 ' ' .

상위 주제: 빠른 시작 학습서