0 / 0
영어 버전 문서로 돌아가기
빠른 시작: DataStage 를 사용하여 스노우플레이크에 엔터프라이즈 데이터 로드
마지막 업데이트 날짜: 2024년 11월 28일
빠른 시작: DataStage 를 사용하여 스노우플레이크에 엔터프라이즈 데이터 로드

DataStage 는 사용자가 신뢰할 수 있는 데이터 파이프라인을 빌드하고, 분산된 환경에서 데이터를 조정하고, 클라우드 소스와 데이터 웨어하우스 간에 데이터를 이동 및 변환하는 데 도움을 주는 현대화된 데이터 통합 도구입니다. 이는 데이터를 쓰고, 읽고, 스노우플레이크에 로드하고, ETL 작업 디자인에 통합하기 위해 많은 다른 커넥터 중에서도 스노우플레이크 커넥터를 제공합니다. 이 빠른 시작 학습서는 DataStage를 통해 엔터프라이즈 데이터를 snowflake에 빠르고 효율적으로 로드하는 방법을 보여줍니다.

필수 서비스
DataStage

이 학습서에서는 다음 태스크를 완료합니다.

이 튜토리얼을 완료하는 데 약 20분이 소요됩니다.

튜토리얼 미리보기

비디오 시청 단순 DataStage 플로우를 작성하는 방법을 보려면 이 비디오를 시청하십시오.

이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.




이 학습을 완료하기 위한 팁
다음은 이 학습서를 성공적으로 완료하기 위한 몇 가지 팁입니다.

비디오 사진 사용

팁: 비디오를 시작한 후 학습을 통해 화면이동하면 비디오가 그림 모드로 이동합니다. 픽처 인 픽처를 사용하여 최상의 경험을 얻으려면 비디오 목차를 닫으십시오. 그림 모드를 사용하여 이 학습서의 태스크를 완료하면서 비디오를 따라갈 수 있습니다. 수행할 각 태스크의 시간소인을 클릭하십시오.

다음 애니메이션 이미지는 비디오 픽처 인 픽처 및 목차 기능을 사용하는 방법을 보여줍니다.

그림 및 장을 사용하는 방법

커뮤니티에서 도움 받기

이 튜토리얼에 도움이 필요하면 Cloud Pak for Data 커뮤니티 토론 포럼에서 질문하거나 답변을 찾을 수 있습니다.

브라우저 창 설정

이 튜토리얼을 완료하는 최적의 경험을 위해 한 브라우저 창에서 Cloud Pak for Data 를 열고 두 애플리케이션 간에 쉽게 전환할 수 있도록 다른 브라우저 창에서 이 튜토리얼 페이지를 열어 두십시오. 따라하기 쉽도록 두 개의 브라우저 창을 나란히 배열하는 것을 고려하십시오.

병행 학습서 및 UI

팁: 사용자 인터페이스에서 이 학습서를 완료하는 동안 안내식 둘러보기가 표시되면 나중에를 클릭하십시오.



전제조건 설정

Snowflake 평가판 계정에 등록

학습서 비디오 미리보기 이 태스크를 미리 보려면 00:05에서 시작하는 비디오를 시청하십시오.

  1. https://www.snowflake.com/ 으로 이동합니다.

  2. 무료 시작을 클릭하십시오.

  3. 등록 양식을 완료하고 계속을 클릭하십시오.

  4. 30일무료 평가판 시작 페이지에서 다음 단계를 완료하십시오.

    1. 스노우플레이크 에디션을 선택하십시오.

    2. 클라우드 제공자를 선택하십시오.

    3. GET STARTED를 클릭하십시오.

  5. 스노우플레이크에 가입해 주셔서 감사합니다 메시지가 표시될 때까지 질문을 건너뛰십시오.

  6. 이메일 계정에 액세스하여 스노우플레이크 컴퓨팅에서 이메일을 열고 활성화하려면 클릭을 클릭하십시오.

  7. 사용자 이름 및 비밀번호를 제공하고 시작하기를 클릭하십시오.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 눈송이 대시보드를 표시합니다.

Snowflake 대시보드

Cloud Pak for Data as a Service 에서 DataStage 평가판에 등록

학습서 비디오 미리보기 이 작업을 미리 보려면 00:36부터 시작하는 동영상을 시청하세요.

Cloud Pak for Data as a Service 에 등록하고 DataStage 서비스를 프로비저닝해야 합니다. DataStage 평가판 페이지로 이동합니다. 이 링크를 사용하여 다음 서비스가 프로비저닝됩니다.

  • DataStage
  • Cloud Object Storage

기존 IBMid 사용

기존 IBMid가 있는 경우 이 짧은 비디오를 보십시오.

이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.

새 IBMid 사용

기존 IBMid가 없는 경우 이 짧은 비디오를 보십시오.

이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 Cloud Pak for Data 홈 페이지를 표시합니다.

Cloud Pak for Data 홈 페이지

프로비저닝 서비스에 대한 자세한 정보는 IBM Cloud 서비스 작성 및 관리를 참조하십시오.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 필수 프로비저닝된 서비스 인스턴스를 표시합니다. 이제 스노우플레이크 평가판에 등록할 준비가 되었습니다.

프로비저닝된 서비스




태스크 1: 눈송이 데이터 웨어하우스 작성

학습서 비디오 미리보기 이 작업을 미리 보려면 00:51부터 시작하는 동영상을 시청하세요.

DataStage 를 사용하여 눈송이 계정에 데이터를 로드하는 것이 목표입니다. 이를 수행하려면 눈송이 계정에 데이터 웨어하우스가 필요합니다. Snowflake 계정에 데이터 웨어하우스를 작성하려면 다음 단계를 수행하십시오.

  1. 눈송이 평가판 계정에 로그인하십시오.

  2. 탐색 패널에서 관리 > 창고를 클릭하십시오.

    1. +Warehouse를 누르십시오.

    2. 이름에 DATASTAGEDATA 를 입력하십시오.

    3. 나머지 필드의 기본값을 승인하고 웨어하우스 작성을 누르십시오.

  3. 탐색 패널에서 데이터를 클릭하십시오.

    1. 데이터베이스 페이지에서 +데이터베이스를 클릭하십시오.

    2. 이름에 DATASTAGEDB을(를) 입력하고 작성을 클릭하십시오.

  4. 목록에서 새로 작성된 DATASTAGEDB 데이터베이스를 클릭하고 +스키마를 클릭하십시오.

    1. 스키마 이름에 MORTGAGE 를 입력하십시오.

    2. 작성을 클릭하십시오.

  5. 데이터베이스 목록에서 DATASTAGEDB > MORTGAGE를 선택하십시오.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 눈송이의 DATASTAGEDB 데이터베이스를 표시합니다. 이제 Cloud Pak for Data 에서 연결 정보 및 DataStage 플로우에 대한 샘플 프로젝트를 작성할 준비가 되었습니다.

눈송이의 DATASTAGEDB 데이터베이스




태스크 2: DataStage 프로젝트 작성

학습서 비디오 미리보기 이 작업을 미리 보려면 01:46부터 시작하는 동영상을 시청하세요.

외부 데이터 소스 및 DataStage 플로우에 대한 연결을 저장하려면 프로젝트가 필요합니다. 샘플 프로젝트를 작성하려면 다음 단계를 수행하십시오.

  1. 리소스 허브에서 데이터 통합 샘플 프로젝트에 액세스합니다.

  2. 프로젝트 작성을 클릭하십시오.

  3. 프로젝트를 Cloud Object Storage 인스턴스에 연관시키도록 프롬프트가 표시되면 목록에서 Cloud Object Storage 인스턴스를 선택하십시오.

  4. 작성을 클릭하십시오.

  5. 프로젝트 가져오기가 완료될 때까지 기다린 후 새 프로젝트 보기를 클릭하십시오.

  6. 자산 탭을 클릭하여 프로젝트 및 자산이 성공적으로 작성되었는지 확인하십시오.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 샘플 프로젝트를 표시합니다. 이제 눈송이에 대한 연결을 작성할 준비가 되었습니다.

다음 이미지는 샘플 프로젝트를 표시합니다.




태스크 3: 눈송이 데이터 웨어하우스에 대한 연결 작성

학습서 비디오 미리보기 이 작업을 미리 보려면 02:17부터 시작하는 동영상을 시청하세요.

DataStage 플로우에서 눈송이 데이터 웨어하우스에 액세스할 수 있도록 프로젝트에 연결 정보를 추가해야 합니다. 프로젝트에서 연결 자산을 작성하려면 다음 단계를 수행하십시오.

  1. 자산 탭에서 새 자산 > 데이터 소스에 연결을 클릭하십시오.

  2. 다음에서 눈송이를 검색하세요. 커넥터 찾기 검색 필드.

  3. 선택 눈송이 연결 유형을 클릭하고 다음 .

  4. 연결 작성: 눈송이 페이지에서 연결 이름으로 Snowflake 를 입력하십시오.

  5. 연결 세부사항의 경우, 방금 작성한 눈송이 계정의 정보를 사용하여 다음 필드를 완료하십시오.

    • 계정 이름: 계정 이름은 계정 ID, 지역 및 클라우드 제공자의 조합입니다. Snowflake 계정에 로그인할 때 URL에서 이 정보를 찾을 수 있습니다.

      1. 사용자 아이디를 클릭하면 메뉴 옵션을 볼 수 있습니다.

      2. 계정 위로 마우스를 가져갑니다.

      3. 계정 메뉴에서 계정 링크 위로 마우스를 가져갑니다.

      4. 다음 이미지와 같이 계정 URL 복사 아이콘을 클릭합니다:

        계정 링크 URL 복사

    • 데이터베이스: 유형 DATASTAGEDB

    • 역할: 유형 ACCOUNTADMIN

    • 웨어하우스: 유형 DATASTAGEDATA

    • 사용자 이름: 스노우플레이크 계정 사용자 이름을 입력하십시오.

    • 비밀번호: 눈송이 계정 비밀번호를 입력하십시오.

  6. 연결 테스트 를 클릭하여 눈송이 계정에 대한 연결을 테스트하십시오.

  7. 테스트에 성공하면 작성을 클릭하십시오. 위치 및 주권을 설정하지 않고 연결을 작성하도록 프롬프트가 표시되면 작성을 클릭하십시오. 이 조치는 Db2 Warehouse 에서 눈송이 계정으로 데이터를 로드하는 데 사용할 수 있는 눈송이 커넥터를 작성합니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 새 연결 정보를 표시합니다. 이제 DataStage 플로우를 작성할 준비가 되었습니다.

다음 이미지는 새 연결 정보를 표시합니다.




태스크 4: DataStage 플로우 작성

학습서 비디오 미리보기 이 작업을 미리 보려면 03:20부터 시작하는 동영상을 시청하세요.

이제 프로젝트에서 DataStage 자산을 작성할 준비가 되었습니다. DataStage 플로우를 작성하려면 다음 단계를 수행하십시오.

  1. 로부터 자산 탭, 클릭 새로운 자산 > 데이터 변환 및 통합 .

  2. 이름Load Db2 data to Snowflake 를 입력하십시오.

  3. 작성을 클릭하십시오.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 비어 있는 DataStage 캔버스를 표시합니다. 이제 DataStage 플로우를 디자인할 준비가 되었습니다.

다음 이미지는 비어 있는 DataStage 캔버스를 표시합니다.




태스크 5: DataStage 플로우 디자인

DataStage 플로우에는 두 개의 커넥터 노드가 포함되어 있습니다. 소스 데이터 자산을 가리키는 Db2 Warehouse 커넥터와 대상 데이터 자산을 가리키는 눈송이 커넥터 및 데이터 자산을 결합하고 필터링하는 여러 다른 노드입니다. 캔버스에 노드를 추가하려면 다음 단계를 수행하십시오.

두 개의 커넥터 노드를 추가하십시오.

학습서 비디오 미리보기 이 작업을 미리 보려면 03:36부터 시작하는 동영상을 시청하세요.

캔버스에 두 개의 커넥터 노드를 추가하려면 다음 단계를 수행하십시오.

소스 커넥터 노드 추가

  1. 노드 팔레트에서 커넥터 섹션을 펼치십시오.

  2. 자산 브라우저 커넥터를 끌어서 빈 캔버스에 놓으십시오.

    첫 번째 자산 브라우저 노드를 캔버스로 끌어 놓기

  3. 캔버스에 자산 브라우저 커넥터를 놓으면 자산을 선택하라는 프롬프트가 표시됩니다.

    1. 자산을 찾으려면 연결 > Data Fabric 평가판- Db2 Warehouse > BANKING > MORTGAGE_APPLICATION을 선택하십시오.

      팁: 연결 및 스키마를 펼치려면 선택란 대신 연결 또는 스키마 이름을 클릭하십시오.
    2. 추가 를 클릭하여 Db2 Warehouse 데이터 소스를 DataStage 캔버스에 놓으십시오.

Target 커넥터 노드 추가

  1. 노드 팔레트에서 커넥터 섹션을 펼치십시오.

  2. 자산 브라우저 커넥터를 끌어서 캔버스에 놓으면 두 번째 노드로 배치됩니다.

    두 번째 자산 브라우저 노드를 캔버스로 끌어 놓으십시오.

    1. 자산을 찾으려면 연결 > 스노우플레이크 > MORTGAGE를 선택하십시오.

      팁: MORTGAGE 스키마 이름을 선택하려면 선택란을 클릭하십시오.
    2. 추가 를 클릭하여 눈송이 연결을 DataStage 캔버스에 놓으십시오.

  3. 노드를 함께 링크하려면 화살표가 표시될 때까지 Mortgage_Application_1 노드 위로 마우스를 이동하십시오. 화살표를 눈송이 연결로 끌어 두 노드를 연결하십시오.

    캔버스에서 두 노드 연결

소스 및 대상 노드 구성

  1. MORTGAGE_APPLICATION 노드를 두 번 클릭하여 해당 설정을 보십시오.

    1. 출력 탭을 클릭하십시오.

    2. 런타임 열 사용 옵션을 선택하십시오. DataStage 는 메타데이터에 대해 유연합니다. 메타데이터가 완전히 정의되지 않은 상황을 처리할 수 있습니다. 이 경우 런타임 열 사용 을 선택하여 작업이 실제로 실행될 때 DataStage 작업이 메타데이터에 정의되지 않은 추가 열을 발견하는 경우 이러한 추가 열을 채택하고 나머지 작업을 통해 전파하도록 합니다. 이 기능을 사용하면 플로우 디자인이 스키마 드리프트에 대해 유연할 수 있습니다.

    3. 저장 을 클릭하십시오.

      Db2 Warehouse 에서 눈송이로 데이터를 읽기 때문에 Db2 Warehouse 커넥터가 플로우에서 첫 번째로 배치됩니다. 사용자의 목표는 Db2 Warehouse 데이터를 눈송이로 로드하는 것입니다. 그런 다음 Db2 Warehouse 커넥터에서 데이터를 읽는 눈송이 커넥터를 추가합니다. 따라서, 스노우플레이크 커넥터는 흐름에서 두 번째로 위치된다.

  2. MORTGAGE_DATA 커넥터를 두 번 클릭하여 해당 설정을 확인하십시오.

    1. 노드 이름을 Snowflake_mortgage_data 로 변경하십시오.

    2. 설정 측면 패널에서 입력 탭을 클릭하십시오.

    3. 사용 섹션을 펼치십시오.

    4. 쓰기 모드의 경우 삽입을 선택하십시오.

    5. 테이블 이름에 대해 스키마 이름 뒤에 APPLICATION 를 추가하십시오. 그러면 전체 테이블 이름이 MORTGAGE.APPLICATION로 표시됩니다.

    6. 테이블 조치에 대해 작성을 선택하십시오. 이 설정은 지정된 데이터베이스에 테이블을 작성하고, 눈송이에 스키마를 작성한 후 엔터프라이즈 데이터를 해당 테이블로 로드합니다.

    7. 조치 섹션의 다른 모든 필드에 대해 기본값을 승인하십시오.

    8. 저장 을 클릭하여 변경사항을 업데이트하고 DataStage 플로우로 돌아가십시오.

결합할 노드 추가 및 데이터 필터링

학습서 비디오 미리보기 이 작업을 미리 보려면 05:40부터 시작하는 동영상을 시청하세요.

이제 데이터를 눈송이로 로드하기 위한 기본 DataStage 플로우가 있습니다. 데이터를 결합하고 필터링하기 위해 여러 노드를 추가하려면 다음 단계를 수행하십시오.

다른 에셋 커넥터 노드 추가

  1. 노드 팔레트에서 커넥터 섹션을 펼치십시오.

  2. 자산 브라우저 커넥터를 MORTGAGE_APPLICATION 노드에 가까운 캔버스로 끌어오십시오.

  3. 캔버스에 자산 브라우저 커넥터를 놓으면 자산을 선택하라는 프롬프트가 표시됩니다.

    1. 자산을 찾으려면 연결 > Data Fabric 평가판- Db2 Warehouse > BANKING > MORTGAGE_신청자를 선택하십시오.

      팁: 연결 및 스키마를 펼치려면 선택란 대신 연결 또는 스키마 이름을 클릭하십시오.
    2. 추가 를 클릭하여 Db2 Warehouse 데이터 소스를 DataStage 캔버스에 놓으십시오.

조인 단계 노드 추가

  1. 노드 팔레트에서 스테이지 섹션을 펼치십시오.

  2. 노드 팔레트에서 결합 스테이지를 캔버스로 끌어 노드를 MORTGAGE_APPLICATIONsnowflake_mortgage_data 노드 사이의 링크 라인에 놓으십시오. 이 조치는 MORTGAGE_APPLICATION 노드에서 JOIN 노드로의 링크를 Snowflake_mortgage_data 노드로 유지보수합니다.

  3. 화살표를 보려면 MORTGAGE_신청자 커넥터 위로 마우스를 이동하십시오. 화살표를 결합 스테이지에 연결하십시오.

  4. MORTGAGE_신청자 노드를 두 번 클릭하여 해당 설정을 보십시오.

    1. 출력 탭을 클릭하십시오.

    2. 런타임 열 사용 옵션을 선택하십시오. 이전에 언급한 바와 같이 이 옵션은 스키마 드리프트를 수용합니다.

    3. 저장 을 클릭하십시오.

  5. Join_1 노드를 두 번 클릭하여 설정을 편집하십시오.

    1. 특성 섹션을 펼치십시오.

    2. 키 추가를 클릭하십시오.

      1. 키 추가를 다시 클릭하십시오.

      2. 가능한 키 목록에서 ID 를 선택하십시오.

      3. 적용을 클릭하십시오.

      4. 적용 및 리턴을 클릭하여 Join_1 노드 설정으로 돌아가십시오.

    3. Join_1 노드 이름을 Join_on_ID(으)로 변경하십시오.

    4. 출력 탭을 클릭하십시오.

    5. 스키마 드리프트를 수용하려면 런타임 열 사용 옵션을 선택하십시오.

    6. 저장을 클릭하여 Join_on_ID 노드 설정을 저장하십시오.

필터 단계 노드 추가

  1. 노드 팔레트스테이지 섹션에서 필터 노드를 캔버스로 끌고 Join_on_ID눈송이 _mortgage_data 노드 사이의 링크 행에 노드를 놓으십시오.

  2. Filter_1 노드를 두 번 클릭하여 설정을 편집하십시오.

    1. 특성 섹션을 펼치십시오.

    2. 술어아래에서 편집을 클릭하십시오.

      1. Where 절 열에서 편집 아이콘 ' 편집 클릭하고 ' STATE_CODE='CA''를 입력합니다. 이 조항은 캘리포니아 신청자에게만 모기지 신청을 필터링합니다.

      2. 적용 후 돌아가기를 클릭하십시오.

    3. 출력 탭을 클릭하십시오.

      1. 스키마 드리프트를 수용하려면 런타임 열 사용 옵션을 선택하십시오.
    4. 저장 을 클릭하여 필터 노드 설정을 저장하십시오.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 완료된 DataStage 플로우를 표시합니다. 이제 DataStage 작업을 실행할 준비가 되었습니다.

다음 이미지는 완료된 DataStage 플로우를 표시합니다.




태스크 6: DataStage 작업 실행

학습서 비디오 미리보기 이 작업을 미리 보려면 07:23부터 시작하는 동영상을 시청하세요.

이제 DataStage 작업을 컴파일하고 실행하여 모기지 애플리케이션 데이터를 Db2 Warehouse 에서 눈송이로 로드할 준비가 되었습니다. DataStage 작업을 실행하려면 다음 단계를 수행하십시오.

  1. 도구 모음에서 컴파일을 클릭하십시오. 이 조치는 DataStage 플로우의 유효성을 검증합니다.

  2. 플로우가 성공적으로 컴파일되면 도구 모음에서 실행 을 클릭하여 DataStage 작업을 시작하십시오. 실행을 완료하는 데 몇 분이 걸릴 수 있습니다.

  3. 실행이 완료되면 경고와 함께 실행 성공이라는 메시지가 표시됩니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 성공적인 실행이 완료되었음을 표시합니다. 이제 DataStage 작업이 완료되었으므로 눈송이에서 새 테이블을 볼 수 있습니다.

다음 이미지는 성공적인 실행이 완료되었음을 표시합니다.




태스크 7: 눈송이 데이터 웨어하우스에서 데이터 자산 보기

학습서 비디오 미리보기 이 작업을 미리 보려면 07:31부터 시작하는 동영상을 시청하세요.

데이터가 데이터를 눈송이에 올바르게 로드했는지 확인하기 위해 눈송이 대시보드로 돌아갈 수 있습니다.

  1. 데이터 > 데이터베이스로 이동하십시오.

  2. DATASTAGEDB > MORTGAGE > TABLES를 펼치십시오.

  3. APPLICATION 테이블을 선택하십시오.

  4. 테이블 이름 아래에서 데이터 미리보기 탭을 클릭하십시오.

  5. DATASTAGEDATA 웨어하우스를 선택하십시오.

  6. DataStage에서 가져온 모기지 애플리케이션 데이터의 미리보기를 보려면 미리보기 를 클릭하십시오.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 스노우플레이크에서 로드된 테이블을 표시합니다.

다음 이미지는 눈송이로 로드된 기본음 있지 대한음 이 설정되어 있습니다.



DataStage를 사용하여 Db2 Warehouse 에서 스노우플레이크로 엔터프라이즈 데이터를 로드했습니다.


다음 단계

다른 학습서를 사용해 보십시오.

자세한 정보