Multicloud Data Integration 학습서: 데이터 통합

데이터 패브릭 평가판의 다중 클라우드 데이터 통합 사용 사례를 사용하여 세 개의 외부 데이터 소스에 저장된 데이터를 변환하려면 이 학습서를 사용하십시오. 목표는 DataStage를 사용하여 데이터를 변환한 후 변환된 데이터를 단일 출력 파일로 전달하는 것입니다.

이 학습서의 내용은 골든 뱅크가 자격을 갖춘 대출 신청자에게 대출할 수 없는 새로운 규정을 고수할 필요가 있다는 것입니다. 골든 뱅크의 데이터 엔지니어로서 현재 DataStage를 사용하여 익명화된 모기지 애플리케이션 데이터를 모기지 신청자의 개인 식별 정보와 함께 집계합니다. 대출 기관은 이 정보를 사용하여 모기지 애플리케이션을 승인 또는 거부해야 하는지 여부를 결정하는 데 도움을 줍니다. 귀하의 지도력은 각 신용 점수 범위에서 대출자에게 제안하는 이자율을 매일 계산하는 일부 위험 분석가를 추가했습니다. 각 신청자의 신용 점수 정보, 신청자의 총 부채 및 이자율 검색 테이블을 포함하는 대출자와 공유하는 스프레드시트에 이 정보를 통합해야 합니다. 그런 다음 대상 출력 .csv 파일에 데이터를 로드합니다.

이 학습서에서는 다음 태스크를 완료합니다.

  1. 기존 DataStage 플로우를 실행하십시오.
  2. DataStage 플로우를 다음과 같이 편집하십시오.
    1. PostgreSQL 데이터를 추가하십시오.
    2. 다른 결합 스테이지를 추가하십시오.
    3. 변환기 스테이지를 추가합니다.
    4. MongoDB 데이터를 추가하십시오.
    5. 검색 스테이지를 추가합니다.
  3. 순차 파일 노드를 편집하고 DataStage 플로우를 실행하십시오.
  4. 카탈로그를 작성합니다.
  5. 출력을 보고 카탈로그에 공개합니다.

이 학습서에 대한 도움말이 필요한 경우 질문을 하거나 Cloud Pak for Data 커뮤니티 토론 포럼에서 답을 찾으십시오.

팁: 이 학습을 완료하는 최적의 경험을 보려면 Cloud Pak for Data as a Service를 하나의 브라우저 탭에서 열고 이 학습서 페이지를 다른 브라우저 탭에서 열어 두 애플리케이션 간에 쉽게 전환할 수 있습니다.

튜토리얼 미리보기

비디오 시청 이 비디오를 시청하면 이 학습서의 단계를 미리 볼 수 있습니다.

이 비디오는 이 문서에 기록된 단계를 수행하는 방법의 대안인 시각적 메소드를 제공합니다.

전제조건

Cloud Pak for Data as a Service에 대한 서비스를 등록하고 Multicloud Data Integration 통합 사용 사례에 필요한 서비스를 프로비저닝해야 합니다.

다음 방법 중 하나로 Cloud Pak for Data as a Service에 등록할 수 있습니다.

필요한 서비스 프로비저닝

필요한 서비스를 확인하거나 프로비저닝하려면 다음 단계를 수행하십시오.

비디오 시청 이 태스크를 미리 보려면 01:09에서 시작하는 비디오를 시청하십시오.

  1. Cloud Pak for Data 탐색 메뉴에서 서비스 > 서비스 인스턴스를 선택하십시오.
  2. 제품 드롭 다운 상자를 사용하여 기존 DataStage 서비스 인스턴스가 있는지 판별하십시오.
  3. DataStage 서비스 인스턴스를 작성해야 하는 경우 서비스 추가를 클릭하십시오.
  4. DataStage를 선택하십시오.
  5. Lite 플랜을 선택하십시오.
  6. 작성을 클릭하십시오.
  7. 다음과 같은 추가 서비스를 확인하거나 프로비저닝하려면 다음 단계를 반복하십시오.
    • Watson Knowledge Catalog
    • Cloud Object Storage

샘플 프로젝트 작성

이 학습서에 대한 샘플 프로젝트를 아직 작성하지 않은 경우 다음 단계를 수행하십시오.

비디오 시청 이 태스크를 미리 보려면 01:44에서 시작하는 비디오를 시청하십시오.

  1. 갤러리의 Multicloud Data Integration 안내서 샘플 프로젝트에 액세스하십시오.
  2. 프로젝트 작성을 클릭하십시오.
  3. 프로젝트를 Cloud Object Storage 인스턴스에 연관시키도록 프롬프트가 표시되면 목록에서 Cloud Object Storage 인스턴스를 선택하십시오.
  4. 작성을 클릭하십시오.
  5. 새 프로젝트 보기를 클릭하여 프로젝트 및 자산이 성공적으로 작성되었는지 확인하십시오.

1단계: 기존 DataStage 플로우 실행

다음 단계를 수행하여 모기지 신청자 및 모기지 애플리케이션 데이터 세트를 결합하는 CSV 파일을 프로젝트에 작성하는 DataStage 플로우를 실행하십시오.

비디오 시청 이 태스크를 미리 보려면 02:24에서 시작하는 비디오를 시청하십시오.

  1. 멀티클라우드 데이터 통합 프로젝트에서 자산 탭을 클릭하여 프로젝트의 모든 자산을 확인하십시오.
  2. 플로우 > DataStage 플로우를 클릭하십시오. DataStage 플로우가 표시되지 않으면 돌아가서 서비스 인스턴스를 보고 DataStage 인스턴스가 성공적으로 프로비저닝되었는지 확인하십시오. 필요한 서비스 프로비저닝을 참조하십시오.
  3. 목록에서 멀티클라우드 데이터 통합 플로우를 클릭하여 여십시오. 이 플로우는 Db2 Warehouse에 저장된 모기지 신청자모기지 애플리케이션 테이블을 결합하고, 데이터를 캘리포니아주의 상태에서 해당 레코드에 필터링하며, 출력으로 CSV 형식의 순차 파일을 작성합니다.
  4. MORTGAGE_APPLICATIONS_1 노드를 두 번 클릭하여 설정을 보십시오.
    1. 특성 섹션을 펼치십시오.
    2. 아래로 스크롤하고 데이터 미리보기를 클릭하십시오. 이 데이터 세트에는 모기지 애플리케이션에 대한 정보 캡처가 포함됩니다.
    3. 닫기를 클릭하십시오.
  5. MORTGAGE_APPLICANTS_1 노드를 두 번 클릭하여 설정을 보십시오.
    1. 특성 섹션을 펼치십시오.
    2. 아래로 스크롤하고 데이터 미리보기를 클릭하십시오. 이 데이터 세트에는 대출을 신청한 모기지 신청자에 대한 정보가 포함됩니다.
    3. 닫기를 클릭하십시오.
  6. 컴파일을 클릭한 후 실행을 클릭하십시오. 또는 실행을 클릭하여 컴파일한 후 DataStage 플로우를 실행할 수 있습니다.
  7. 도구 모음에서 로그를 클릭하여 플로우의 진행 상태를 확인하십시오. 실행을 완료하는 데 약 1분이 소요될 수 있습니다.
  8. 실행이 완료되면 사이트 이동 경로에서 멀티클라우드 데이터 통합을 클릭하여 프로젝트로 돌아가십시오.
  9. 자산 탭에서 데이터 > 데이터 자산을 클릭하십시오.
  10. MORTGAGE_INTEREST_RATES.CSV 파일을 여십시오. 이 파일에는 결합 키에 대한 ID를 사용하는 모기지 신청자와 모기지 애플리케이션 데이터 세트의 열이 포함되어 있다는 것을 알 수 있습니다.

단계 2: DataStage 플로우 편집

DataStage 플로우를 편집하고 결합 노드 설정을 변경하려면 다음 단계를 수행하십시오.

비디오 시청 이 태스크를 미리 보려면 04:16에서 시작하는 비디오를 시청하십시오.

  1. 플로우 > DataStage 플로우를 클릭하십시오.
  2. 멀티클라우드 데이터 통합 플로우를 여십시오.
  3. Join_on_ID 노드를 두 번 클릭하여 설정을 편집하십시오.
  4. 출력 탭을 클릭하고 섹션을 펼쳐 결합된 데이터 세트의 열 목록을 확인하십시오.
  5. 편집을 클릭하십시오.
  6. EMAIL_ADDRESS 열 이름으로 를 선택하십시오.
  7. 적용 및 리턴을 클릭하여 Join_on_ID 노드 설정으로 돌아가십시오.
  8. 저장을 클릭하여 Join_on_ID 노드 설정을 저장하십시오.

단계 3: PostgreSQL 데이터 추가

PostgreSQL 데이터베이스에 저장된 신용 점수 데이터를 DataStage 플로우에 추가하려면 다음 단계를 수행하십시오.

비디오 시청 이 태스크를 미리 보려면 04:57에서 시작하는 비디오를 시청하십시오.

  1. 노드 팔레트에서 커넥터 섹션을 펼치십시오.
  2. 자산 브라우저 커넥터를 MORTGAGE_APPLICANTS_1 노드 옆의 캔버스로 끌어 오십시오.
  3. 자산을 찾으려면 연결 > 데이터 패브릭 평가판- Databases for PostgreSQL > BANKING > CREDIT_SCORE를 선택하십시오.
  4. 각 신청자의 신용 점수 데이터를 미리 보려면 아이콘을 클릭하십시오.
  5. 추가를 클릭하십시오.

단계 4: 다른 결합 단계 추가

다음 단계에 따라 다른 결합 스테이지를 추가하여 필터링된 모기지 애플리케이션/모기지 신청자가 DataStage 플로우의 신용 점수 데이터와 결합된 데이터를 결합하십시오.

비디오 시청 이 태스크를 미리 보려면 05:28에서 시작하는 비디오를 시청하십시오.

  1. 노드 팔레트에서 스테이지 섹션을 펼치십시오.
  2. 결합 스테이지를 캔버스로 끌어 놓고 Filter_State_Code 노드와 Sequential_file_1 노드 사이의 Link_4 위에 노드를 놓으십시오.
  3. 화살표를 보려면 CREDIT_SCORE_1 커넥터 위로 마우스를 이동하십시오. 화살표를 결합 스테이지에 연결하십시오.
  4. CREDIT_SCORE_1 노드를 두 번 클릭하여 설정을 편집하십시오.
    1. 출력 탭을 클릭하고 섹션을 펼쳐 결합된 데이터 세트의 열 목록을 확인하십시오.
    2. 편집을 클릭하십시오.
    3. EMAIL_ADDRESSCREDIT_SCORE 열 이름의 경우 를 선택하십시오.
    4. 적용 및 리턴을 클릭하여 CREDIT_SCORE_1 노드 설정으로 돌아가십시오.
    5. 저장을 클릭하여 CREDIT_SCORE_1 노드 설정을 저장하십시오.
  5. Join_1 노드를 두 번 클릭하여 설정을 편집하십시오.
    1. 특성 섹션을 펼치십시오.
    2. 키 추가를 클릭하십시오.
      1. 키 추가를 다시 클릭하십시오.
      2. 드롭 다운 목록에서 EMAIL_ADDRESS를 선택하십시오.
      3. 적용을 클릭하십시오.
    3. 적용 및 리턴을 클릭하여 Join_1 노드 설정으로 돌아가십시오.
    4. Join_1 노드 이름을 Join_on_email(으)로 변경하십시오.
    5. 저장을 클릭하여 Join_1 노드 설정을 저장하십시오.

단계 5: 변환기 스테이지 추가

LOAN_AMOUNT 및 CREDITCARD_DEBT 열을 합산하여 새 열을 작성하는 변환기 스테이지를 추가하려면 다음 단계를 수행합니다.

비디오 시청 이 태스크를 미리 보려면 06:42에서 시작하는 비디오를 시청하십시오.

  1. 변환기 스테이지를 캔버스로 끌어 놓고 Join_on_email 노드와 Sequential_file_1 노드 사이의 Link_5 위에 노드를 놓으십시오.
  2. 변환기 노드를 두 번 클릭하여 설정을 편집하십시오.
    1. 출력 탭을 클릭하십시오.
      1. 열 추가를 클릭하십시오.
      2. 열 목록의 맨 아래로 화면 이동하여 새 열을 확인하십시오.
      3. TOTAL_DEBT 열의 이름을 지정하십시오.
      4. 행의 파생 열에서 연필 아이콘을 클릭하십시오.
      5. 계산기 아이콘을 클릭하여 표현식 빌더를 여십시오.
      6. LOAN_AMOUNT을(를) 검색하고 열 이름을 두 번 클릭하여 표현식에 추가하십시오.
      7. 더하기 부호(+)를 입력하십시오.
      8. CREDITCARD_DEBT을(를) 검색하고 열 이름을 두 번 클릭하여 표현식에 추가하십시오.
      9. 최종 표현식이 Link_5.LOAN_AMOUNT + Link_5.CREDITCARD_DEBT인지 확인하십시오.
      10. 적용 및 리턴을 클릭하여 변환기 페이지로 돌아갑니다.
    2. 캔버스로 리턴하려면 저장 및 리턴을 클릭하십시오.

단계 6: MongoDB 데이터 추가

MongoDB 데이터베이스에 새 데이터 자산 커넥터를 추가하여 플로우에 이율을 포함하려면 다음 단계를 수행하십시오.

비디오 시청 이 태스크를 미리 보려면 07:30에서 시작하는 비디오를 시청하십시오.

  1. 노드 팔레트에서 커넥터 섹션을 펼치십시오.
  2. 자산 브라우저 커넥터를 CREDIT_SCORE_1 노드 옆의 캔버스로 끌어 오십시오.
  3. 자산을 찾으려면 연결 > 데이터 패브릭 평가판-Mongo DB > DOCUMENT > DS_INTEREST_RATES를 선택하십시오.
  4. 각 신용 점수 범위의 금리를 미리보려면 아이콘을 클릭하십시오. STARTING_LIMIT 및 ENDING_LIMIT 열의 값을 사용하여 신청자의 신용 점수를 기반으로 적절한 이자율을 검색합니다. ID 열이 필요하지 않으므로 다음 단계에서 해당 열을 삭제합니다.
  5. 추가를 클릭하십시오.

Step 7: 검색 스테이지 추가

각 신청자의 신용 점수를 기준으로 적절한 이자율을 검색하려고 합니다. 다음 단계를 수행하여 검색 스테이지를 추가하고 각 금리의 시작 및 종료 신용 점수 제한 범위를 지정하십시오.

비디오 시청 이 태스크를 미리 보려면 08:19에서 시작하는 비디오를 시청하십시오.

  1. 검색 스테이지를 캔버스로 끌어 놓고 Transformer_1 노드와 Sequential_file_1 노드 사이의 Link_7 위에 노드를 놓으십시오.
  2. DS_INTEREST_RATES_1 커넥터를 Lookup_1 스테이지에 연결하십시오.
  3. DS_INTEREST_RATES_1 노드를 두 번 클릭하여 설정을 편집하십시오.
  4. 출력 탭을 클릭하십시오.
    1. 섹션을 펼치고 편집을 클릭하십시오.
    2. _ID 열을 선택하십시오.
    3. 이 불필요한 열을 삭제하려면 삭제 아이콘을 클릭하십시오.
    4. 적용 및 리턴을 클릭하여 DS_INTEREST_RATES_1 노드 설정으로 돌아가십시오.
    5. 저장을 클릭하여 DS_INTEREST_RATES_1 노드에 대한 변경 사항을 저장합니다.
  5. Lookup_1 노드를 두 번 클릭하여 설정을 편집하십시오.
  6. 특성 섹션을 펼치십시오.
    1. 열에 범위 적용 필드의 경우 CREDIT_SCORE를 선택하십시오. 참조 링크, 연산자범위 열 필드가 표시됩니다.
    2. 참조 링크의 경우 Link_9를 선택하십시오.
    3. 첫 번째 연산자의 경우 <를 선택하십시오.
    4. 첫 번째 범위 열의 경우 ENDING_LIMIT를 선택하십시오.
    5. 두 번째 연산자의 경우 >를 선택하십시오.
    6. 두 번째 범위 열의 경우 STARTING_LIMIT를 선택하십시오.
  7. 출력 탭을 클릭하십시오.
    1. 섹션을 펼치고 편집을 클릭하십시오.
    2. STARTING_LIMITENDING_LIMIT 열을 선택하십시오.
    3. 불필요한 출력을 삭제하려면 삭제 아이콘을 클릭하십시오.
    4. 적용 및 리턴을 클릭하여 Lookup_1 노드 설정으로 돌아가십시오.
    5. 저장을 클릭하여 Lookup_1 노드에 대한 변경 사항을 저장합니다.

8단계: 순차 파일 노드 편집 및 DataStage 플로우 실행

다음 단계에 따라 순차 파일 노드를 편집하여 프로젝트에서 최종 출력 파일을 데이터 자산으로 작성한 후 DataStage 플로우를 컴파일하고 실행하십시오.

비디오 시청 이 태스크를 미리 보려면 09:39에서 시작하는 비디오를 시청하십시오.

  1. Sequential_file_1 노드를 두 번 클릭하여 설정을 편집하십시오.
  2. 입력 탭을 클릭하십시오.
  3. 데이터 자산 작성을 선택하십시오.
  4. 데이터 자산 이름의 경우 MORTGAGE_APPLICANTS_INTEREST_RATES.CSV을(를) 입력하십시오.
  5. 특성 섹션을 펼치십시오.
  6. 대상 파일의 경우 MORTGAGE_APPLICANTS_INTEREST_RATES.CSV을(를) 입력하십시오.
  7. 저장을 클릭하십시오.
  8. 실행을 클릭하여 컴파일한 다음 DataStage 플로우를 실행합니다.
  9. 도구 모음에서 로그를 클릭하여 플로우의 진행 상태를 확인하십시오.

9단계: 카탈로그 작성

다른 데이터 엔지니어와 골든 뱅크의 비즈니스 분석가들은 모기지 금리에 액세스할 필요가 있습니다. Watson Knowledge Catalog Lite 계획을 사용하면 하나의 카탈로그만 작성할 수 있습니다. 이미 카탈로그가 있는 경우 이 단계를 건너뛰십시오. 그렇지 않으면 다음 단계를 수행하여 금리 데이터 세트를 공개할 수 있는 카탈로그를 작성하는 카탈로그를 작성하십시오.

비디오 시청 이 태스크를 미리 보려면 10:10에서 시작하는 비디오를 시청하십시오.

  1. Cloud Pak for Data 탐색 메뉴에서 카탈로그 > 모든 카탈로그 보기를 선택하십시오.
  2. 카탈로그 작성을 클릭하십시오.
  3. 이름의 경우 Mortgage Approval Catalog을(를) 입력하십시오. 선두 또는 후미 공간 없이 표시된 대로 정확하게 카탈로그 이름을 입력하십시오. 카탈로그를 Cloud Object Storage 인스턴스에 연관시키도록 프롬프트되면 목록에서 Cloud Object Storage를 선택하십시오.
  4. 다른 모든 필드에 대해서는 기본값을 채택하십시오.
  5. 작성을 클릭하십시오.

10단계: 출력 보기 및 카탈로그에 공개

프로젝트에서 출력 파일을 보려면 다음 단계를 수행한 후 카탈로그에 공개하십시오.

비디오 시청 이 태스크를 미리 보려면 10:40에서 시작하는 비디오를 시청하십시오.

  1. Cloud Pak for Data 탐색 메뉴에서 프로젝트 > 모든 프로젝트 보기를 선택하십시오.
  2. 멀티클라우드 데이터 통합 프로젝트를 여십시오.
  3. 자산 탭에서 데이터 > 데이터 자산을 클릭하십시오.
  4. MORTGAGE_APPLICANTS_INTEREST_RATES.CSV 파일을 여십시오.
  5. 각 데이터 항목의 끝에 이자율이 있는 통합 데이터를 보려면 오른쪽으로 화면 이동하십시오.
  6. 프로젝트로 돌아가려면 사이트 이동 경로에서 멀티클라우드 데이터 통합을 클릭하십시오.
  7. 자산 탭에서 MORTGAGE_APPLICANTS_INTEREST_RATES.CSV 파일의 행 끝에 있는 오버플로우 메뉴를 클릭하고 카탈로그에 공개를 선택하십시오.
  8. 목록에서 모기지 승인 카탈로그를 선택하고 공개를 클릭하십시오.
  9. Cloud Pak for Data 탐색 메뉴에서 카탈로그 > 모든 카탈로그 보기를 선택하십시오.
  10. 모기지 승인 카탈로그를 여십시오.
  11. Mortgage을(를) 검색하십시오.
  12. MORTGAGE_APPLICANTS_INTEREST_RATES.CSV 파일을 여십시오.
  13. 데이터를 보려면 자산 탭을 클릭하십시오.

자세히 보기

상위 주제: 데이터 패브릭 학습서