최신 변환이 아님
빠른 시작: 데이터 변환
DataStage 플로우를 사용하여 개별 데이터 소스에서 데이터를 쉽게 통합, 정리, 분석할 수 있습니다. DataStage 도구에 대해 읽고 비디오를 시청하고 데이터 변환에 대한 지식이 있는 사용자에게 적합하지만 코딩이 필요하지 않은 학습서를 사용하십시오.
필요 서비스 DataStage
기본 워크플로우에는 다음 태스크가 포함됩니다.
- 프로젝트를 작성합니다. 프로젝트는 데이터 작업을 위해 다른 사용자와 협업하는 위치입니다.
- 프로젝트에 데이터를 추가하십시오. 연결을 통해 원격 데이터 소스에서 데이터나 CSV 파일을 추가할 수 있습니다.
- DataStage 플로우를 작성합니다.
- 데이터를 세분화하는 오퍼레이션을 사용하는 단계를 수행합니다.
- 데이터를 변환할 작업을 작성하고 실행합니다.
DataStage에 대해 알아보기
DataStage는 프로젝트에서 데이터를 변환하고 통합하는데 사용할 수 있는 ETL(추출, 변환, 로드) 도구입니다.
DataStage는 사용하기 쉽게 설계되었고 Cloud Pak for Data에 완벽히 통합됩니다. ISX 파일을 사용하여 DataStage에 기존 레거시 병렬 작업을 가져오고 DataStage 캔버스를 사용하여 플로우를 작성, 편집, 테스트하며, 플로우에서 생성된 작업을 실행할 수 있습니다.
DataStage 플로우를 사용한 데이터 변환 방법에 대한 동영상 보기
단순 DataStage 플로우를 작성하는 방법을 보려면 이 비디오를 시청하십시오.
이 비디오는 이 문서에 기록된 단계를 수행하는 방법의 대안인 시각적 메소드를 제공합니다.
데이터를 변환하는 튜토리얼 시도
이 튜토리얼에서는 다음을 수행합니다.
- 프로젝트를 작성합니다.
- DataStage 서비스를 프로비저닝합니다.
- 갤러리에서 프로젝트에 데이터 세트를 추가합니다.
- DataStage 플로우를 작성합니다.
- DataStage 플로우를 실행하고 자산을 봅니다.
이 튜토리얼은 완료하는 데 약 20분이 소요됩니다.
1단계: 프로젝트 작성 및 DataStage 서비스 추가
{: #step1} 데이터 세트 및 DataStage 플로우를 저장할 프로젝트가 필요합니다.
- 기존 프로젝트가 있는 경우, 이를 여십시오. 기존 프로젝트가 없는 경우 홈 페이지에서 프로젝트 작성을 클릭하거나 프로젝트 페이지에서 새 프로젝트를 클릭하십시오.
- 빈 프로젝트 작성을 선택하십시오.
- 프로젝트 작성 화면에서 프로젝트에 대한 이름 및 선택적 설명을 추가하십시오.
- 기존 오브젝트 스토리지 서비스 인스턴스을(를) 선택하거나 새로 작성하십시오.
- 작성을 클릭하십시오.
- 탐색 메뉴에서 서비스 > 서비스 인스턴스를 클릭하십시오.
- 서비스 추가를 클릭하고 데이터 스테이지를 선택하십시오.
- 작성을 클릭하십시오. 서비스 인스턴스 페이지에서 프로비저닝된 서비스가 표시됩니다.
자세한 정보 또는 비디오를 시청하려면 프로젝트 작성을(를) 참조하십시오.
2단계: 프로젝트에 데이터 세트 추가
{: #step2}이(가) 학습서에서 사용되는 데이터 세트는 갤러리에서 사용 가능합니다.
- 갤러리의 고객 데이터 세트에 액세스하십시오.
- 프로젝트에 추가를 클릭하십시오.
- 목록에서 프로젝트를 선택하고 추가를 클릭하십시오.
- 데이터 세트가 추가된 후 프로젝트 보기를 클릭하십시오.
갤러리에서 프로젝트에 데이터 자산을 추가하는 방법에 대한 자세한 정보는 노트북의 데이터 로드 및 액세스를 참조하십시오.
3단계: DataStage 플로우 작성
{: #step3} DataStage 플로우는 네 개의 노드(원래 데이터 자산, 필터 노드, 정렬 노드 및 변환된 데이터 자산)를 포함합니다.
- 프로젝트에 추가 > DataStage 플로우를 클릭하십시오.
- 이름 및 설명을 제공한 후 작성을 클릭하십시오.
- 커넥터를 클릭한 후 자산 브라우저 노드를 캔버스로 끌어서 놓으십시오.
- 데이터 자산 > customers.csv를 선택하고 추가를 클릭하십시오.
- 노드 팔레트에서 스테이지 섹션을 펼친 다음 필터 노드를 캔버스로 끌어오십시오.
- 노드를 함께 링크하려면 Customers.csv_1 노드에서 파란색 화살표를 클릭하여 필터 노드로 끌어오십시오.
- 스테이지 섹션에서 정렬 노드를 캔버스로 끌어오십시오.
- 필터 노드를 정렬 노드에 연결하십시오.
- 커넥터 섹션을 펼치고 캔버스에서 자산 브라우저 노드를 끌어오십시오.
- 데이터 자산 > customers.csv를 선택하고 추가를 클릭하십시오. customer.csv 파일을 겹쳐쓰지 않도록 나중에 파일 이름을 변경합니다.
- 정렬 노드를 Customers.csv_2 노드에 연결하십시오.
4단계: 노드 편집
{: #step4} 이제 캔버스에서 각 노드의 특성을 편집하십시오.
- 첫 번째 자산 브라우저 노드를 편집하십시오.
- 첫 번째 Customer.csv_1 노드를 두 번 클릭하십시오.
- 오른쪽의 특성 패널에서 텍스트
customers.csv_1
을(를)Customer Table
(으)로 이름을 바꾸어 자산 노드의 이름을 바꾸십시오. - 출력 탭을 클릭하십시오.
- 열 섹션을 펼치고 편집을 클릭하십시오.
- YTD_SALES 열의 경우 VARCHAR을 클릭하고 DECIMAL을 선택하여 YTD_SALES 열의 데이터 유형을 변경하십시오.
- 특성 패널로 돌아가려면 적용 및 반환을 클릭하십시오.
- 저장을 클릭하여 고객 테이블 노드에 대한 변경 사항을 저장합니다.
- 필터 노드를 편집하십시오.
- 필터 노드를 두 번 클릭하십시오.
- 필터 노드의 이름을 바꾸려면 특성 패널에서
Filter_1
텍스트의 이름을Filter YTD Sales
(으)로 바꾸십시오. - 특성 섹션을 펼치십시오. 술어아래에서 편집을 클릭하십시오.
- where절 추가를 클릭하십시오.
- Where 절 열에서
YTD_SALES > 1000
을(를) 입력하십시오. - 적용 후 돌아가기를 클릭하십시오.
- 출력 탭을 클릭하십시오.
- 열 섹션을 펼치고 편집을 클릭하십시오.
- 모든 열을 선택하고 이 튜토리얼에 대해 유지될 아래 나열된 다음 열을 선택 취소하십시오.
- CUST_ID
- CUSTNAME
- COUNTRY_CODE
- EMAIL_ADDRESS
- PHONE_NUMBER
- YTD_SALES
- SALESREP_ID
- 휴지통 아이콘을 클릭하여 남은 선택된 열을 삭제하십시오.
- CUSTNAME 열의 경우, 이름을
CUSTOMERNAME
(으)로 바꾸십시오. 이 변경은 필터 노드 뒤에 오는 노드로 전파됩니다. - 특성 패널로 돌아가려면 적용 및 반환을 클릭하십시오.
- 저장을 클릭하여 필터 노드에 대한 변경 사항을 저장합니다.
- 정렬 노드를 편집하십시오.
- 정렬 노드를 두 번 클릭하십시오.
- 특성 패널에서 텍스트
Sort_1
의 이름을Sort YTD Sales
(으)로 바꾸어 정렬 노드의 이름을 바꾸십시오. - 특성 섹션을 펼치십시오.
- 정렬 키아래에서 편집을 클릭하십시오.
- 키 추가를 클릭하십시오.
- 키 드롭 다운에서 YTD_SALES를 선택하십시오.
- 정렬 순서의 경우 내림차순을 선택하십시오.
- 정렬 키 목록으로 돌아가려면 적용을 클릭하십시오.
- 특성 패널로 돌아가려면 적용 및 반환을 클릭하십시오.
- 입력 탭을 클릭하고 열 섹션을 펼쳐서
CUSTOMERNAME
열 이름이 필터 노드에서 아래로 전파되었는지 확인하십시오. - 출력 탭을 클릭하고 열 섹션을 펼쳐서
CUSTOMERNAME
열 이름이 필터 노드에서 아래로 전파되었는지 확인하십시오. - 저장을 클릭하여 정렬 노드에 대한 변경 사항을 저장합니다.
- 마지막 자산 브라우저 노드를 편집하십시오.
- 마지막 Customers.csv_2 노드를 두 번 클릭하십시오.
- 특성 패널에서 텍스트
Customers.csv_2
의 이름을Customer filtered table
(으)로 바꾸어 자산 노드의 이름을 바꾸십시오. - 특성 섹션을 펼치고 데이터 자산 작성 선택란을 선택하십시오.
- 데이터 자산 이름 필드에
Customers filtered
을(를) 입력하고 저장을 클릭하십시오. - 입력 탭을 클릭하고 열 섹션을 펼쳐서
CUSTOMERNAME
열 이름이 필터 노드에서 아래로 전파되었는지 확인하십시오. - 저장을 클릭하여 Customer_filtered 노드에 대한 변경 사항을 저장합니다.
5단계: DataStage 플로우 실행 및 자산 보기
{: #step5} 플로우를 실행한 후 프로젝트에서 변환된 자산을 보게 됩니다.
- 저장을 클릭하십시오.
- 컴파일을 클릭하십시오.
- 실행을 클릭하십시오.
- (선택사항) 실행 세부사항을 보려면 로그 링크를 클릭하십시오.
- 프로젝트로 돌아가서 자산 탭을 클릭하십시오.
- 고객이 필터링한 자산을 보십시오. 데이터가 올바르게 필터링 및 정렬되었음을 알 수 있습니다.
다음 단계
이제 데이터를 사용할 준비가 되어 있습니다. 예를 들어, 사용자나 다른 사용자가 다음 태스크를 수행할 수 있습니다.
추가 자원
- DataStage 플로우에 대한 비디오를 더 보십시오.
- 샘플 DataStage 프로젝트로 시작하십시오. COVID-19 IBM DataStage(으)로 추적.
- 샘플 데이터 세트를 찾아 갤러리에서 데이터를 변환하는 경험을 얻을 수 있습니다.
- 이 추가 학습서를 사용하여 DataStage 플로우에 대한 보다 직접적인 경험을 얻을 수 있습니다. 새 IBM DataStage 서비스를 사용하여 시작하기
.
상위 주제: 데이터 준비 시작하기