최신 변환이 아님
Multicloud Data Integration 학습서: 데이터 통합
데이터 패브릭 평가판의 다중 클라우드 데이터 통합 사용 사례를 사용하여 세 개의 외부 데이터 소스에 저장된 데이터를 변환하려면 이 학습서를 사용하십시오. 목표는 DataStage를 사용하여 데이터를 변환한 후 변환된 데이터를 단일 출력 파일로 전달하는 것입니다.
이 학습서의 내용은 골든 뱅크가 자격을 갖춘 대출 신청자에게 대출할 수 없는 새로운 규정을 고수할 필요가 있다는 것입니다. 골든 뱅크의 데이터 엔지니어로서 현재 DataStage를 사용하여 익명화된 모기지 애플리케이션 데이터를 모기지 신청자의 개인 식별 정보와 함께 집계합니다. 대출 기관은 이 정보를 사용하여 모기지 애플리케이션을 승인 또는 거부해야 하는지 여부를 결정하는 데 도움을 줍니다. 귀하의 지도력은 각 신용 점수 범위에서 대출자에게 제안하는 이자율을 매일 계산하는 일부 위험 분석가를 추가했습니다. 각 신청자의 신용 점수 정보, 신청자의 총 부채 및 이자율 검색 테이블을 포함하는 대출자와 공유하는 스프레드시트에 이 정보를 통합해야 합니다. 그런 다음 대상 출력 .csv 파일에 데이터를 로드합니다.
이 학습서에서는 다음 태스크를 완료합니다.
- 기존 DataStage 플로우를 실행하십시오.
- DataStage 플로우를 다음과 같이 편집하십시오.
- 순차 파일 노드를 편집하고 DataStage 플로우를 실행하십시오.
- 카탈로그를 작성합니다.
- 출력을 보고 카탈로그에 공개합니다.
이 학습서에 대한 도움말이 필요한 경우 질문을 하거나 Cloud Pak for Data 커뮤니티 토론 포럼에서 답을 찾으십시오.
튜토리얼 미리보기
이 비디오를 시청하면 이 학습서의 단계를 미리 볼 수 있습니다.
이 비디오는 이 문서에 기록된 단계를 수행하는 방법의 대안인 시각적 메소드를 제공합니다.
전제조건
Cloud Pak for Data as a Service에 대한 서비스를 등록하고 Multicloud Data Integration 통합 사용 사례에 필요한 서비스를 프로비저닝해야 합니다.
다음 방법 중 하나로 Cloud Pak for Data as a Service에 등록할 수 있습니다.
필요한 서비스 프로비저닝
필요한 서비스를 확인하거나 프로비저닝하려면 다음 단계를 수행하십시오.
이 태스크를 미리 보려면 01:09에서 시작하는 비디오를 시청하십시오.
- Cloud Pak for Data 탐색 메뉴에서 서비스 > 서비스 인스턴스를 선택하십시오.
- 제품 드롭 다운 상자를 사용하여 기존 DataStage 서비스 인스턴스가 있는지 판별하십시오.
- DataStage 서비스 인스턴스를 작성해야 하는 경우 서비스 추가를 클릭하십시오.
- DataStage를 선택하십시오.
- Lite 플랜을 선택하십시오.
- 작성을 클릭하십시오.
- 다음과 같은 추가 서비스를 확인하거나 프로비저닝하려면 다음 단계를 반복하십시오.
- Watson Knowledge Catalog
- Cloud Object Storage
샘플 프로젝트 작성
이 학습서에 대한 샘플 프로젝트를 아직 작성하지 않은 경우 다음 단계를 수행하십시오.
이 태스크를 미리 보려면 01:44에서 시작하는 비디오를 시청하십시오.
- 갤러리의 Multicloud Data Integration 안내서 샘플 프로젝트에 액세스하십시오.
- 프로젝트 작성을 클릭하십시오.
- 프로젝트를 Cloud Object Storage 인스턴스에 연관시키도록 프롬프트가 표시되면 목록에서 Cloud Object Storage 인스턴스를 선택하십시오.
- 작성을 클릭하십시오.
- 새 프로젝트 보기를 클릭하여 프로젝트 및 자산이 성공적으로 작성되었는지 확인하십시오.
1단계: 기존 DataStage 플로우 실행
다음 단계를 수행하여 모기지 신청자 및 모기지 애플리케이션 데이터 세트를 결합하는 CSV 파일을 프로젝트에 작성하는 DataStage 플로우를 실행하십시오.
이 태스크를 미리 보려면 02:24에서 시작하는 비디오를 시청하십시오.
- 멀티클라우드 데이터 통합 프로젝트에서 자산 탭을 클릭하여 프로젝트의 모든 자산을 확인하십시오.
- 플로우 > DataStage 플로우를 클릭하십시오. DataStage 플로우가 표시되지 않으면 돌아가서 서비스 인스턴스를 보고 DataStage 인스턴스가 성공적으로 프로비저닝되었는지 확인하십시오. 필요한 서비스 프로비저닝을 참조하십시오.
- 목록에서 멀티클라우드 데이터 통합 플로우를 클릭하여 여십시오. 이 플로우는 Db2 Warehouse에 저장된 모기지 신청자 및 모기지 애플리케이션 테이블을 결합하고, 데이터를 캘리포니아주의 상태에서 해당 레코드에 필터링하며, 출력으로 CSV 형식의 순차 파일을 작성합니다.
- MORTGAGE_APPLICATIONS_1 노드를 두 번 클릭하여 설정을 보십시오.
- 특성 섹션을 펼치십시오.
- 아래로 스크롤하고 데이터 미리보기를 클릭하십시오. 이 데이터 세트에는 모기지 애플리케이션에 대한 정보 캡처가 포함됩니다.
- 닫기를 클릭하십시오.
- MORTGAGE_APPLICANTS_1 노드를 두 번 클릭하여 설정을 보십시오.
- 특성 섹션을 펼치십시오.
- 아래로 스크롤하고 데이터 미리보기를 클릭하십시오. 이 데이터 세트에는 대출을 신청한 모기지 신청자에 대한 정보가 포함됩니다.
- 닫기를 클릭하십시오.
- 컴파일을 클릭한 후 실행을 클릭하십시오. 또는 실행을 클릭하여 컴파일한 후 DataStage 플로우를 실행할 수 있습니다.
- 도구 모음에서 로그를 클릭하여 플로우의 진행 상태를 확인하십시오. 실행을 완료하는 데 약 1분이 소요될 수 있습니다.
- 실행이 완료되면 사이트 이동 경로에서 멀티클라우드 데이터 통합을 클릭하여 프로젝트로 돌아가십시오.
- 자산 탭에서 데이터 > 데이터 자산을 클릭하십시오.
- MORTGAGE_INTEREST_RATES.CSV 파일을 여십시오. 이 파일에는 결합 키에 대한 ID를 사용하는 모기지 신청자와 모기지 애플리케이션 데이터 세트의 열이 포함되어 있다는 것을 알 수 있습니다.
단계 2: DataStage 플로우 편집
DataStage 플로우를 편집하고 결합 노드 설정을 변경하려면 다음 단계를 수행하십시오.
이 태스크를 미리 보려면 04:16에서 시작하는 비디오를 시청하십시오.
- 플로우 > DataStage 플로우를 클릭하십시오.
- 멀티클라우드 데이터 통합 플로우를 여십시오.
- Join_on_ID 노드를 두 번 클릭하여 설정을 편집하십시오.
- 출력 탭을 클릭하고 열 섹션을 펼쳐 결합된 데이터 세트의 열 목록을 확인하십시오.
- 편집을 클릭하십시오.
- EMAIL_ADDRESS 열 이름으로 키를 선택하십시오.
- 적용 및 리턴을 클릭하여 Join_on_ID 노드 설정으로 돌아가십시오.
- 저장을 클릭하여 Join_on_ID 노드 설정을 저장하십시오.
단계 3: PostgreSQL 데이터 추가
PostgreSQL 데이터베이스에 저장된 신용 점수 데이터를 DataStage 플로우에 추가하려면 다음 단계를 수행하십시오.
이 태스크를 미리 보려면 04:57에서 시작하는 비디오를 시청하십시오.
- 노드 팔레트에서 커넥터 섹션을 펼치십시오.
- 자산 브라우저 커넥터를 MORTGAGE_APPLICANTS_1 노드 옆의 캔버스로 끌어 오십시오.
- 자산을 찾으려면 연결 > 데이터 패브릭 평가판- Databases for PostgreSQL > BANKING > CREDIT_SCORE를 선택하십시오.
- 각 신청자의 신용 점수 데이터를 미리 보려면 눈 아이콘을 클릭하십시오.
- 추가를 클릭하십시오.
단계 4: 다른 결합 단계 추가
다음 단계에 따라 다른 결합 스테이지를 추가하여 필터링된 모기지 애플리케이션/모기지 신청자가 DataStage 플로우의 신용 점수 데이터와 결합된 데이터를 결합하십시오.
이 태스크를 미리 보려면 05:28에서 시작하는 비디오를 시청하십시오.
- 노드 팔레트에서 스테이지 섹션을 펼치십시오.
- 결합 스테이지를 캔버스로 끌어 놓고 Filter_State_Code 노드와 Sequential_file_1 노드 사이의 Link_4 위에 노드를 놓으십시오.
- 화살표를 보려면 CREDIT_SCORE_1 커넥터 위로 마우스를 이동하십시오. 화살표를 결합 스테이지에 연결하십시오.
- CREDIT_SCORE_1 노드를 두 번 클릭하여 설정을 편집하십시오.
- 출력 탭을 클릭하고 열 섹션을 펼쳐 결합된 데이터 세트의 열 목록을 확인하십시오.
- 편집을 클릭하십시오.
- EMAIL_ADDRESS 및 CREDIT_SCORE 열 이름의 경우 키를 선택하십시오.
- 적용 및 리턴을 클릭하여 CREDIT_SCORE_1 노드 설정으로 돌아가십시오.
- 저장을 클릭하여 CREDIT_SCORE_1 노드 설정을 저장하십시오.
- Join_1 노드를 두 번 클릭하여 설정을 편집하십시오.
- 특성 섹션을 펼치십시오.
- 키 추가를 클릭하십시오.
- 키 추가를 다시 클릭하십시오.
- 드롭 다운 목록에서 EMAIL_ADDRESS를 선택하십시오.
- 적용을 클릭하십시오.
- 적용 및 리턴을 클릭하여 Join_1 노드 설정으로 돌아가십시오.
- Join_1 노드 이름을
Join_on_email
(으)로 변경하십시오. - 저장을 클릭하여 Join_1 노드 설정을 저장하십시오.
단계 5: 변환기 스테이지 추가
LOAN_AMOUNT 및 CREDITCARD_DEBT 열을 합산하여 새 열을 작성하는 변환기 스테이지를 추가하려면 다음 단계를 수행합니다.
이 태스크를 미리 보려면 06:42에서 시작하는 비디오를 시청하십시오.
- 변환기 스테이지를 캔버스로 끌어 놓고 Join_on_email 노드와 Sequential_file_1 노드 사이의 Link_5 위에 노드를 놓으십시오.
- 변환기 노드를 두 번 클릭하여 설정을 편집하십시오.
- 출력 탭을 클릭하십시오.
- 열 추가를 클릭하십시오.
- 열 목록의 맨 아래로 화면 이동하여 새 열을 확인하십시오.
TOTAL_DEBT
열의 이름을 지정하십시오.- 행의 파생 열에서 연필 아이콘을 클릭하십시오.
- 계산기 아이콘을 클릭하여 표현식 빌더를 여십시오.
LOAN_AMOUNT
을(를) 검색하고 열 이름을 두 번 클릭하여 표현식에 추가하십시오.- 더하기 부호(
+
)를 입력하십시오. CREDITCARD_DEBT
을(를) 검색하고 열 이름을 두 번 클릭하여 표현식에 추가하십시오.- 최종 표현식이
Link_5.LOAN_AMOUNT + Link_5.CREDITCARD_DEBT
인지 확인하십시오. - 적용 및 리턴을 클릭하여 변환기 페이지로 돌아갑니다.
- 캔버스로 리턴하려면 저장 및 리턴을 클릭하십시오.
- 출력 탭을 클릭하십시오.
단계 6: MongoDB 데이터 추가
MongoDB 데이터베이스에 새 데이터 자산 커넥터를 추가하여 플로우에 이율을 포함하려면 다음 단계를 수행하십시오.
이 태스크를 미리 보려면 07:30에서 시작하는 비디오를 시청하십시오.
- 노드 팔레트에서 커넥터 섹션을 펼치십시오.
- 자산 브라우저 커넥터를 CREDIT_SCORE_1 노드 옆의 캔버스로 끌어 오십시오.
- 자산을 찾으려면 연결 > 데이터 패브릭 평가판-Mongo DB > DOCUMENT > DS_INTEREST_RATES를 선택하십시오.
- 각 신용 점수 범위의 금리를 미리보려면 눈 아이콘을 클릭하십시오. STARTING_LIMIT 및 ENDING_LIMIT 열의 값을 사용하여 신청자의 신용 점수를 기반으로 적절한 이자율을 검색합니다. ID 열이 필요하지 않으므로 다음 단계에서 해당 열을 삭제합니다.
- 추가를 클릭하십시오.
Step 7: 검색 스테이지 추가
각 신청자의 신용 점수를 기준으로 적절한 이자율을 검색하려고 합니다. 다음 단계를 수행하여 검색 스테이지를 추가하고 각 금리의 시작 및 종료 신용 점수 제한 범위를 지정하십시오.
이 태스크를 미리 보려면 08:19에서 시작하는 비디오를 시청하십시오.
- 검색 스테이지를 캔버스로 끌어 놓고 Transformer_1 노드와 Sequential_file_1 노드 사이의 Link_7 위에 노드를 놓으십시오.
- DS_INTEREST_RATES_1 커넥터를 Lookup_1 스테이지에 연결하십시오.
- DS_INTEREST_RATES_1 노드를 두 번 클릭하여 설정을 편집하십시오.
- 출력 탭을 클릭하십시오.
- 열 섹션을 펼치고 편집을 클릭하십시오.
- _ID 열을 선택하십시오.
- 이 불필요한 열을 삭제하려면 삭제 아이콘을 클릭하십시오.
- 적용 및 리턴을 클릭하여 DS_INTEREST_RATES_1 노드 설정으로 돌아가십시오.
- 저장을 클릭하여 DS_INTEREST_RATES_1 노드에 대한 변경 사항을 저장합니다.
- Lookup_1 노드를 두 번 클릭하여 설정을 편집하십시오.
- 특성 섹션을 펼치십시오.
- 열에 범위 적용 필드의 경우 CREDIT_SCORE를 선택하십시오. 참조 링크, 연산자 및 범위 열 필드가 표시됩니다.
- 참조 링크의 경우 Link_9를 선택하십시오.
- 첫 번째 연산자의 경우 <를 선택하십시오.
- 첫 번째 범위 열의 경우 ENDING_LIMIT를 선택하십시오.
- 두 번째 연산자의 경우 >를 선택하십시오.
- 두 번째 범위 열의 경우 STARTING_LIMIT를 선택하십시오.
- 출력 탭을 클릭하십시오.
- 열 섹션을 펼치고 편집을 클릭하십시오.
- STARTING_LIMIT 및 ENDING_LIMIT 열을 선택하십시오.
- 불필요한 출력을 삭제하려면 삭제 아이콘을 클릭하십시오.
- 적용 및 리턴을 클릭하여 Lookup_1 노드 설정으로 돌아가십시오.
- 저장을 클릭하여 Lookup_1 노드에 대한 변경 사항을 저장합니다.
8단계: 순차 파일 노드 편집 및 DataStage 플로우 실행
다음 단계에 따라 순차 파일 노드를 편집하여 프로젝트에서 최종 출력 파일을 데이터 자산으로 작성한 후 DataStage 플로우를 컴파일하고 실행하십시오.
이 태스크를 미리 보려면 09:39에서 시작하는 비디오를 시청하십시오.
- Sequential_file_1 노드를 두 번 클릭하여 설정을 편집하십시오.
- 입력 탭을 클릭하십시오.
- 데이터 자산 작성을 선택하십시오.
- 데이터 자산 이름의 경우
MORTGAGE_APPLICANTS_INTEREST_RATES.CSV
을(를) 입력하십시오. - 특성 섹션을 펼치십시오.
- 대상 파일의 경우
MORTGAGE_APPLICANTS_INTEREST_RATES.CSV
을(를) 입력하십시오. - 저장을 클릭하십시오.
- 실행을 클릭하여 컴파일한 다음 DataStage 플로우를 실행합니다.
- 도구 모음에서 로그를 클릭하여 플로우의 진행 상태를 확인하십시오.
9단계: 카탈로그 작성
다른 데이터 엔지니어와 골든 뱅크의 비즈니스 분석가들은 모기지 금리에 액세스할 필요가 있습니다. Watson Knowledge Catalog Lite 계획을 사용하면 하나의 카탈로그만 작성할 수 있습니다. 이미 카탈로그가 있는 경우 이 단계를 건너뛰십시오. 그렇지 않으면 다음 단계를 수행하여 금리 데이터 세트를 공개할 수 있는 카탈로그를 작성하는 카탈로그를 작성하십시오.
이 태스크를 미리 보려면 10:10에서 시작하는 비디오를 시청하십시오.
- Cloud Pak for Data 탐색 메뉴에서 카탈로그 > 모든 카탈로그 보기를 선택하십시오.
- 카탈로그 작성을 클릭하십시오.
- 이름의 경우
Mortgage Approval Catalog
을(를) 입력하십시오. 선두 또는 후미 공간 없이 표시된 대로 정확하게 카탈로그 이름을 입력하십시오. 카탈로그를 Cloud Object Storage 인스턴스에 연관시키도록 프롬프트되면 목록에서 Cloud Object Storage를 선택하십시오. - 다른 모든 필드에 대해서는 기본값을 채택하십시오.
- 작성을 클릭하십시오.
10단계: 출력 보기 및 카탈로그에 공개
프로젝트에서 출력 파일을 보려면 다음 단계를 수행한 후 카탈로그에 공개하십시오.
이 태스크를 미리 보려면 10:40에서 시작하는 비디오를 시청하십시오.
- Cloud Pak for Data 탐색 메뉴에서 프로젝트 > 모든 프로젝트 보기를 선택하십시오.
- 멀티클라우드 데이터 통합 프로젝트를 여십시오.
- 자산 탭에서 데이터 > 데이터 자산을 클릭하십시오.
- MORTGAGE_APPLICANTS_INTEREST_RATES.CSV 파일을 여십시오.
- 각 데이터 항목의 끝에 이자율이 있는 통합 데이터를 보려면 오른쪽으로 화면 이동하십시오.
- 프로젝트로 돌아가려면 사이트 이동 경로에서 멀티클라우드 데이터 통합을 클릭하십시오.
- 자산 탭에서 MORTGAGE_APPLICANTS_INTEREST_RATES.CSV 파일의 행 끝에 있는 오버플로우 메뉴를 클릭하고 카탈로그에 공개를 선택하십시오.
- 목록에서 모기지 승인 카탈로그를 선택하고 공개를 클릭하십시오.
- Cloud Pak for Data 탐색 메뉴에서 카탈로그 > 모든 카탈로그 보기를 선택하십시오.
- 모기지 승인 카탈로그를 여십시오.
Mortgage
을(를) 검색하십시오.- MORTGAGE_APPLICANTS_INTEREST_RATES.CSV 파일을 여십시오.
- 데이터를 보려면 자산 탭을 클릭하십시오.
자세히 보기
상위 주제: 데이터 패브릭 학습서