0 / 0
영어 버전 문서로 돌아가기
빠른 시작: 데이터 변환

빠른 시작: 데이터 변환

DataStage 플로우를 사용하여 개별 데이터 소스에서 데이터를 쉽게 통합, 정리, 분석할 수 있습니다. DataStage 도구에 대해 읽고 비디오를 시청하고 데이터 변환에 대한 지식이 있는 사용자에게 적합하지만 코딩이 필요하지 않은 학습서를 사용하십시오.

필수 서비스
Watson Studio
DataStage

기본 워크플로우에는 다음 태스크가 포함됩니다.

  1. 프로젝트를 작성하십시오. 프로젝트는 데이터 작업을 위해 다른 사용자와 협업하는 위치입니다.
  2. 프로젝트에 데이터를 추가하십시오. 연결을 통해 원격 데이터 소스에서 데이터나 CSV 파일을 추가할 수 있습니다.
  3. DataStage 플로우를 작성합니다.
  4. 데이터를 세분화하는 오퍼레이션을 사용하는 단계를 수행합니다.
  5. 데이터를 변환할 작업을 작성하고 실행합니다.

DataStage에 대해 알아보기

DataStage는 프로젝트에서 데이터를 변환하고 통합하는데 사용할 수 있는 ETL(추출, 변환, 로드) 도구입니다.

DataStage는 사용 편의성을 위해 설계되었으며 Cloud Pak for Data에 완전히 통합되어 있습니다. ISX 파일을 사용하여 DataStage에 기존 레거시 병렬 작업을 가져오고 DataStage 캔버스를 사용하여 플로우를 작성, 편집, 테스트하며, 플로우에서 생성된 작업을 실행할 수 있습니다.

DataStage에 대한 자세한 정보

DataStage 플로우를 사용한 데이터 변환 방법에 대한 동영상 보기

비디오 시청 단순 DataStage 플로우를 작성하는 방법을 보려면 이 비디오를 시청하십시오.

이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.


데이터를 변환하는 튜토리얼 시도

이 학습서에서는 다음 태스크를 완료합니다.

이 튜토리얼은 완료하는 데 약 20분이 소요됩니다.





이 학습을 완료하기 위한 팁다음은 이 학습서를 성공적으로 완료하기 위한 몇 가지 팁입니다.

비디오 사진 사용

팁: 비디오를 시작한 후 학습을 통해 화면이동하면 비디오가 그림 모드로 이동합니다. 픽처 인 픽처를 사용하여 최상의 경험을 얻으려면 비디오 목차를 닫으십시오. 그림 모드를 사용하여 이 학습서의 태스크를 완료하면서 비디오를 따라갈 수 있습니다. 각 태스크에 대한 시간소인을 클릭하여 수행하십시오.

다음 애니메이션 이미지는 비디오 픽처 인 픽처 및 목차 기능을 사용하는 방법을 보여줍니다.

그림 및 장을 사용하는 방법

커뮤니티에서 도움 받기

이 튜토리얼에 대한 도움이 필요한 경우 Cloud Pak for Data 커뮤니티 토론 포럼에서 질문하거나 응답을 찾을 수 있습니다.

브라우저 창 설정

이 튜토리얼을 완료하는 최적의 경험을 위해 한 브라우저 창에서 Cloud Pak for Data 를 열고 두 애플리케이션 간에 쉽게 전환할 수 있도록 다른 브라우저 창에서 이 튜토리얼 페이지를 열어 두십시오. 따라하기 쉽도록 두 개의 브라우저 창을 나란히 배열하는 것을 고려하십시오.

병행 학습서 및 UI

팁: 사용자 인터페이스에서 이 학습서를 완료하는 동안 안내식 둘러보기가 표시되면 나중에를 클릭하십시오.



태스크 1: 프로젝트 열기

데이터 세트 및 DataStage 플로우를 저장할 프로젝트가 필요하며 DataStage 서비스를 프로비저닝해야 합니다. 기존 프로젝트를 열거나 새 프로젝트를 작성하고 서비스를 프로비저닝하려면 다음 단계를 수행하십시오.

  1. Cloud Pak for Data 탐색 메뉴 탐색 메뉴에서 프로젝트 > 모든 프로젝트 보기 를 선택하십시오.

  2. 기존 프로젝트가 있는 경우, 이를 여십시오.

  3. 기존 프로젝트가 없는 경우 새 프로젝트를 클릭하십시오.

  4. 빈 프로젝트 작성을 선택하십시오.

  5. 프로젝트의 이름 및 선택적 설명을 입력하십시오.

  6. 작성을 클릭하십시오.

  7. 탐색 메뉴 탐색 메뉴에서 서비스 > 서비스 인스턴스를 클릭하십시오.

  8. 서비스 추가를 클릭하고 데이터 스테이지를 선택하십시오.

  9. 작성을 클릭하십시오. 서비스 인스턴스 페이지에서 프로비저닝된 서비스가 표시됩니다.

추가 정보나 동영상을 보려면 프로젝트 작성을 참조하십시오.

체크포인트 아이콘 진행 상태 확인

다음 이미지는 프로비저닝된 서비스를 표시합니다.

다음 이미지는 프로비저닝된 서비스를 표시합니다.




태스크 2: 프로젝트에 데이터 세트 추가

이 학습서에서 사용되는 데이터 세트는 자원 허브에서 사용 가능합니다. 자원 허브에서 데이터 세트를 찾아 프로젝트에 추가하려면 다음 단계를 수행하십시오.

  1. 자원 허브에서 고객 데이터 세트 에 액세스하십시오.

  2. 프로젝트에 추가를 클릭하십시오.

  3. 목록에서 프로젝트를 선택하고 추가를 클릭하십시오.

  4. 데이터 세트가 추가된 후 프로젝트 보기를 클릭하십시오.

자원 허브에서 프로젝트로 데이터 자산을 추가하는 방법에 대한 자세한 정보는 노트북에서 데이터 로드 및 액세스를 참조하십시오.

체크포인트 아이콘 진행 상태 확인

다음 이미지는 프로젝트의 자산 탭을 표시합니다.

다음 이미지는 프로젝트의 자산 탭을 표시합니다.




태스크 3: DataStage 플로우 작성

학습서 비디오 미리보기 이 태스크를 미리보려면 00:26에서 시작하는 비디오를 보십시오.

DataStage 플로우에는 네 개의 노드 (원래 데이터 자산, 필터 노드, 정렬 노드 및 변환된 데이터 자산) 가 포함됩니다. DataStage 플로우를 작성하려면 다음 단계를 수행하십시오.

  1. 새 자산 > DataStage를 클릭하십시오.

  2. 이름 및 설명을 제공한 후 작성을 클릭하십시오.

  3. 커넥터를 클릭한 후 자산 브라우저 노드를 캔버스로 끌어서 놓으십시오.

  4. 데이터 자산 > customers.csv를 선택하고 추가를 클릭하십시오.

  5. 노드 팔레트에서 스테이지 섹션을 펼친 다음 필터 노드를 캔버스로 끌어오십시오.

  6. 노드를 함께 링크하려면 Customers.csv 노드에서 파란색 화살표를 클릭하고 필터 노드로 끌어오십시오.

  7. 스테이지 섹션에서 정렬 노드를 캔버스로 끌어오십시오.

  8. 필터 노드를 정렬 노드에 연결하십시오.

  9. 커넥터 섹션을 펼치고 캔버스에서 자산 브라우저 노드를 끌어오십시오.

  10. 데이터 자산 > customers.csv를 선택하고 추가를 클릭하십시오. customer.csv 파일을 겹쳐쓰지 않도록 나중에 파일 이름을 변경합니다.

  11. 정렬 노드를 이 마지막 Customers.csv 노드에 연결하십시오.

체크포인트 아이콘 진행 상태 확인

다음 이미지는 초기 DataStage 플로우를 표시합니다.

다음 이미지는 초기 DataStage 플로우를 보여줍니다.




태스크 4: 노드 편집

학습서 비디오 미리보기 이 태스크를 미리 보려면 03:27에서 시작하는 비디오를 보십시오.

캔버스에서 각 노드의 등록 정보를 편집하려면 다음 단계를 수행하십시오.

노드 1: 첫 번째 자산 브라우저 노드 편집

  1. 첫 번째 Customer.csv 노드를 두 번 클릭하십시오.

  2. 오른쪽의 특성 패널에서 노드의 이름을 Customer Table 로 바꾸어 자산 노드의 이름을 바꾸십시오.

  3. 출력 탭을 클릭하십시오.

  4. 섹션을 펼치고 편집을 클릭하십시오.

  5. YTD_SALES 열의 경우 VARCHAR을 클릭하고 DECIMAL을 선택하여 YTD_SALES 열의 데이터 유형을 변경하십시오.

  6. 특성 패널로 돌아가려면 적용 및 반환을 클릭하십시오.

  7. 저장을 클릭하여 고객 테이블 노드에 대한 변경 사항을 저장합니다.

노드 2: 필터 노드 편집

  1. 필터 노드를 두 번 클릭하십시오.

  2. 필터 노드의 이름을 바꾸려면 특성 패널에서 Filter_1 텍스트의 이름을 Filter YTD Sales(으)로 바꾸십시오.

  3. 특성 섹션을 펼치십시오. 술어아래에서 편집을 클릭하십시오.

    1. where절 추가를 클릭하십시오.

    2. Where절 열 아래에 YTD_SALES > 1000를 입력하십시오.

    3. 적용 후 돌아가기를 클릭하십시오.

  4. 출력 탭을 클릭하십시오.

  5. 섹션을 펼치고 편집을 클릭하십시오.

    1. 모든 열을 선택하고 이 튜토리얼에 대해 유지될 아래 나열된 다음 열을 선택 취소하십시오.

      • CUST_ID
      • CUSTNAME
      • COUNTRY_CODE
      • EMAIL_ADDRESS
      • PHONE_NUMBER
      • YTD_SALES
      • SALESREP_ID
    2. 휴지통 아이콘을 클릭하여 남은 선택된 열을 삭제하십시오.

    3. CUSTNAME 열의 경우, 이름을 CUSTOMERNAME(으)로 바꾸십시오. 이 변경은 필터 노드 뒤에 오는 노드로 전파됩니다.

    4. 특성 패널로 돌아가려면 적용 및 반환을 클릭하십시오.

  6. 저장을 클릭하여 필터 노드에 대한 변경 사항을 저장합니다.

노드 3: 정렬 노드 편집

  1. 정렬 노드를 두 번 클릭하십시오.

  2. 특성 패널에서 텍스트 Sort_1의 이름을 Sort YTD Sales(으)로 바꾸어 정렬 노드의 이름을 바꾸십시오.

  3. 특성 섹션을 펼치십시오.

  4. 정렬 키아래에서 편집을 클릭하십시오.

    1. 키 추가를 클릭하십시오.

    2. 드롭 다운에서 YTD_SALES를 선택하십시오.

    3. 정렬 순서의 경우 내림차순을 선택하십시오.

    4. 정렬 키 목록으로 돌아가려면 적용을 클릭하십시오.

    5. 특성 패널로 돌아가려면 적용 및 반환을 클릭하십시오.

  5. 입력 탭을 클릭하고 섹션을 확장하여 CUSTOMERNAME 열 이름 변경사항이 필터 노드에서 하향 전파되었는지 확인하십시오.

  6. 출력 탭을 클릭하고 섹션을 확장하여 CUSTOMERNAME 열 이름 변경사항이 필터 노드에서 하향 전파되었는지 확인하십시오.

  7. 저장을 클릭하여 정렬 노드에 대한 변경 사항을 저장합니다.

노드 4: 마지막 자산 브라우저 노드 편집

  1. 마지막 Customers.csv 노드를 두 번 클릭하십시오.

  2. 특성 패널에서 노드의 이름을 Customer filtered table 로 바꾸어 자산 노드의 이름을 바꾸십시오.

  3. 특성 섹션을 펼치고 데이터 자산 작성 선택란을 선택하십시오.

  4. 데이터 자산 이름 필드에 Customers filtered을(를) 입력하고 저장을 클릭하십시오.

  5. 입력 탭을 클릭하고 섹션을 확장하여 CUSTOMERNAME 열 이름 변경사항이 필터 노드에서 하향 전파되었는지 확인하십시오.

  6. 저장 을 클릭하여 필터링된 고객 테이블 노드에 변경사항을 저장하십시오.

체크포인트 아이콘 진행 상태 확인

다음 이미지는 최종 DataStage 플로우를 표시합니다.

다음 이미지는 최종 DataStage 플로우를 표시합니다.




태스크 5: DataStage 플로우 실행 및 자산 보기

학습서 비디오 미리보기 이 태스크를 미리 보려면 06:36에서 시작하는 비디오를 보십시오.

이제 플로우를 실행할 준비가 되었습니다. 플로우를 실행하고 프로젝트에서 변환된 자산을 보려면 다음 단계를 수행하십시오.

  1. 저장 을 클릭하십시오.

  2. 컴파일을 클릭하십시오.

  3. 실행을 클릭하십시오.

  4. (선택사항) 실행 세부사항을 보려면 로그 링크를 클릭하십시오.

  5. 마지막 필터링된 고객 테이블 노드를 두 번 클릭하십시오.

  6. 특성 섹션을 펼치십시오.

  7. 아래로 스크롤하고 데이터 미리보기를 클릭하십시오. 데이터가 올바르게 필터링 및 정렬되었음을 알 수 있습니다.

    1. 차트 패널을 클릭하십시오.

    2. 시각화할 열에 대해 YTD_SALES를 선택하십시오.

    3. 차트 유형에 대해 Q-Q 플롯을 클릭하십시오.

    4. 닫기를 클릭하십시오.

  8. 프로젝트에서 데이터 자산을 작성하도록 플로우를 설정했으므로 탐색 추적에서 프로젝트 이름을 클릭하여 프로젝트로 돌아가십시오.

  9. 자산 탭에서 필터링된 고객 자산을 여십시오.

체크포인트 아이콘 진행 상태 확인

다음 이미지는 고객이 필터링한 데이터 자산을 표시합니다.

다음 이미지는 고객이 필터링한 데이터 자산을 표시합니다.



다음 단계

이제 데이터를 사용할 준비가 되어 있습니다. 예를 들어, 사용자나 다른 사용자가 다음 태스크를 수행할 수 있습니다.

추가 자원

상위 주제: 빠른 시작 학습서

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기