빠른 시작: 데이터 변환

DataStage 플로우를 사용하여 개별 데이터 소스에서 데이터를 쉽게 통합, 정리, 분석할 수 있습니다. DataStage 도구에 대해 읽고 비디오를 시청하고 데이터 변환에 대한 지식이 있는 사용자에게 적합하지만 코딩이 필요하지 않은 학습서를 사용하십시오.

필요 서비스 DataStage

기본 워크플로우에는 다음 태스크가 포함됩니다.

  1. 프로젝트를 작성합니다. 프로젝트는 데이터 작업을 위해 다른 사용자와 협업하는 위치입니다.
  2. 프로젝트에 데이터를 추가하십시오. 연결을 통해 원격 데이터 소스에서 데이터나 CSV 파일을 추가할 수 있습니다.
  3. DataStage 플로우를 작성합니다.
  4. 데이터를 세분화하는 오퍼레이션을 사용하는 단계를 수행합니다.
  5. 데이터를 변환할 작업을 작성하고 실행합니다.

DataStage에 대해 알아보기

DataStage는 프로젝트에서 데이터를 변환하고 통합하는데 사용할 수 있는 ETL(추출, 변환, 로드) 도구입니다.

DataStage는 사용하기 쉽게 설계되었고 Cloud Pak for Data에 완벽히 통합됩니다. ISX 파일을 사용하여 DataStage에 기존 레거시 병렬 작업을 가져오고 DataStage 캔버스를 사용하여 플로우를 작성, 편집, 테스트하며, 플로우에서 생성된 작업을 실행할 수 있습니다.

DataStage에 대한 자세한 정보

DataStage 플로우를 사용한 데이터 변환 방법에 대한 동영상 보기

비디오 시청 단순 DataStage 플로우를 작성하는 방법을 보려면 이 비디오를 시청하십시오.

이 비디오는 이 문서에 기록된 단계를 수행하는 방법의 대안인 시각적 메소드를 제공합니다.

데이터를 변환하는 튜토리얼 시도

이 튜토리얼에서는 다음을 수행합니다.

  • 프로젝트를 작성합니다.
  • DataStage 서비스를 프로비저닝합니다.
  • 갤러리에서 프로젝트에 데이터 세트를 추가합니다.
  • DataStage 플로우를 작성합니다.
  • DataStage 플로우를 실행하고 자산을 봅니다.

이 튜토리얼은 완료하는 데 약 20분이 소요됩니다.

1단계: 프로젝트 작성 및 DataStage 서비스 추가

{: #step1} 데이터 세트 및 DataStage 플로우를 저장할 프로젝트가 필요합니다.

  1. 기존 프로젝트가 있는 경우, 이를 여십시오. 기존 프로젝트가 없는 경우 홈 페이지에서 프로젝트 작성을 클릭하거나 프로젝트 페이지에서 새 프로젝트를 클릭하십시오.
  2. 빈 프로젝트 작성을 선택하십시오.
  3. 프로젝트 작성 화면에서 프로젝트에 대한 이름 및 선택적 설명을 추가하십시오.
  4. 기존 오브젝트 스토리지 서비스 인스턴스을(를) 선택하거나 새로 작성하십시오.
  5. 작성을 클릭하십시오.
  6. 탐색 메뉴에서 서비스 > 서비스 인스턴스를 클릭하십시오.
  7. 서비스 추가를 클릭하고 데이터 스테이지를 선택하십시오.
  8. 작성을 클릭하십시오. 서비스 인스턴스 페이지에서 프로비저닝된 서비스가 표시됩니다.

자세한 정보 또는 비디오를 시청하려면 프로젝트 작성을(를) 참조하십시오.

2단계: 프로젝트에 데이터 세트 추가

{: #step2}이(가) 학습서에서 사용되는 데이터 세트는 갤러리에서 사용 가능합니다.

  1. 갤러리의 고객 데이터 세트에 액세스하십시오.
  2. 프로젝트에 추가를 클릭하십시오.
  3. 목록에서 프로젝트를 선택하고 추가를 클릭하십시오.
  4. 데이터 세트가 추가된 후 프로젝트 보기를 클릭하십시오.

갤러리에서 프로젝트에 데이터 자산을 추가하는 방법에 대한 자세한 정보는 노트북의 데이터 로드 및 액세스를 참조하십시오.

3단계: DataStage 플로우 작성

{: #step3} DataStage 플로우는 네 개의 노드(원래 데이터 자산, 필터 노드, 정렬 노드 및 변환된 데이터 자산)를 포함합니다.

  1. 프로젝트에 추가 > DataStage 플로우를 클릭하십시오.
  2. 이름 및 설명을 제공한 후 작성을 클릭하십시오.
  3. 커넥터를 클릭한 후 자산 브라우저 노드를 캔버스로 끌어서 놓으십시오.
  4. 데이터 자산 > customers.csv를 선택하고 추가를 클릭하십시오.
  5. 노드 팔레트에서 스테이지 섹션을 펼친 다음 필터 노드를 캔버스로 끌어오십시오.
  6. 노드를 함께 링크하려면 Customers.csv_1 노드에서 파란색 화살표를 클릭하여 필터 노드로 끌어오십시오.
  7. 스테이지 섹션에서 정렬 노드를 캔버스로 끌어오십시오.
  8. 필터 노드를 정렬 노드에 연결하십시오.
  9. 커넥터 섹션을 펼치고 캔버스에서 자산 브라우저 노드를 끌어오십시오.
  10. 데이터 자산 > customers.csv를 선택하고 추가를 클릭하십시오. customer.csv 파일을 겹쳐쓰지 않도록 나중에 파일 이름을 변경합니다.
  11. 정렬 노드를 Customers.csv_2 노드에 연결하십시오.

4단계: 노드 편집

{: #step4} 이제 캔버스에서 각 노드의 특성을 편집하십시오.

  1. 첫 번째 자산 브라우저 노드를 편집하십시오.
    1. 첫 번째 Customer.csv_1 노드를 두 번 클릭하십시오.
    2. 오른쪽의 특성 패널에서 텍스트 customers.csv_1을(를) Customer Table(으)로 이름을 바꾸어 자산 노드의 이름을 바꾸십시오.
    3. 출력 탭을 클릭하십시오.
    4. 섹션을 펼치고 편집을 클릭하십시오.
    5. YTD_SALES 열의 경우 VARCHAR을 클릭하고 DECIMAL을 선택하여 YTD_SALES 열의 데이터 유형을 변경하십시오.
    6. 특성 패널로 돌아가려면 적용 및 반환을 클릭하십시오.
    7. 저장을 클릭하여 고객 테이블 노드에 대한 변경 사항을 저장합니다.
  2. 필터 노드를 편집하십시오.
    1. 필터 노드를 두 번 클릭하십시오.
    2. 필터 노드의 이름을 바꾸려면 특성 패널에서 Filter_1 텍스트의 이름을 Filter YTD Sales(으)로 바꾸십시오.
    3. 특성 섹션을 펼치십시오. 술어아래에서 편집을 클릭하십시오.
      1. where절 추가를 클릭하십시오.
      2. Where 절 열에서 YTD_SALES > 1000을(를) 입력하십시오.
      3. 적용 후 돌아가기를 클릭하십시오.
    4. 출력 탭을 클릭하십시오.
    5. 섹션을 펼치고 편집을 클릭하십시오.
    6. 모든 열을 선택하고 이 튜토리얼에 대해 유지될 아래 나열된 다음 열을 선택 취소하십시오.
      • CUST_ID
      • CUSTNAME
      • COUNTRY_CODE
      • EMAIL_ADDRESS
      • PHONE_NUMBER
      • YTD_SALES
      • SALESREP_ID
    7. 휴지통 아이콘을 클릭하여 남은 선택된 열을 삭제하십시오.
    8. CUSTNAME 열의 경우, 이름을 CUSTOMERNAME(으)로 바꾸십시오. 이 변경은 필터 노드 뒤에 오는 노드로 전파됩니다.
    9. 특성 패널로 돌아가려면 적용 및 반환을 클릭하십시오.
    10. 저장을 클릭하여 필터 노드에 대한 변경 사항을 저장합니다.
  3. 정렬 노드를 편집하십시오.
    1. 정렬 노드를 두 번 클릭하십시오.
    2. 특성 패널에서 텍스트 Sort_1의 이름을 Sort YTD Sales(으)로 바꾸어 정렬 노드의 이름을 바꾸십시오.
    3. 특성 섹션을 펼치십시오.
    4. 정렬 키아래에서 편집을 클릭하십시오.
    5. 키 추가를 클릭하십시오.
    6. 드롭 다운에서 YTD_SALES를 선택하십시오.
    7. 정렬 순서의 경우 내림차순을 선택하십시오.
    8. 정렬 키 목록으로 돌아가려면 적용을 클릭하십시오.
    9. 특성 패널로 돌아가려면 적용 및 반환을 클릭하십시오.
    10. 입력 탭을 클릭하고 섹션을 펼쳐서 CUSTOMERNAME 열 이름이 필터 노드에서 아래로 전파되었는지 확인하십시오.
    11. 출력 탭을 클릭하고 섹션을 펼쳐서 CUSTOMERNAME 열 이름이 필터 노드에서 아래로 전파되었는지 확인하십시오.
    12. 저장을 클릭하여 정렬 노드에 대한 변경 사항을 저장합니다.
  4. 마지막 자산 브라우저 노드를 편집하십시오.
    1. 마지막 Customers.csv_2 노드를 두 번 클릭하십시오.
    2. 특성 패널에서 텍스트 Customers.csv_2의 이름을 Customer filtered table(으)로 바꾸어 자산 노드의 이름을 바꾸십시오.
    3. 특성 섹션을 펼치고 데이터 자산 작성 선택란을 선택하십시오.
    4. 데이터 자산 이름 필드에 Customers filtered을(를) 입력하고 저장을 클릭하십시오.
    5. 입력 탭을 클릭하고 섹션을 펼쳐서 CUSTOMERNAME 열 이름이 필터 노드에서 아래로 전파되었는지 확인하십시오.
    6. 저장을 클릭하여 Customer_filtered 노드에 대한 변경 사항을 저장합니다.

5단계: DataStage 플로우 실행 및 자산 보기

{: #step5} 플로우를 실행한 후 프로젝트에서 변환된 자산을 보게 됩니다.

  1. 저장을 클릭하십시오.
  2. 컴파일을 클릭하십시오.
  3. 실행을 클릭하십시오.
  4. (선택사항) 실행 세부사항을 보려면 로그 링크를 클릭하십시오.
  5. 프로젝트로 돌아가서 자산 탭을 클릭하십시오.
  6. 고객이 필터링한 자산을 보십시오. 데이터가 올바르게 필터링 및 정렬되었음을 알 수 있습니다.

다음 단계

이제 데이터를 사용할 준비가 되어 있습니다. 예를 들어, 사용자나 다른 사용자가 다음 태스크를 수행할 수 있습니다.

추가 자원

상위 주제: 데이터 준비 시작하기