데이터 통합 학습서: 외부 데이터 가상화
이 튜토리얼을 통해 데이터 패브릭 평가판의 데이터 통합 유스 케이스를 사용하여 세 개의 외부 데이터 소스에 저장된 데이터를 가상화합니다. Watson Query 를 사용하여 가상 테이블을 작성하고 세 개의 데이터 소스 ( Db2 Warehouse, PostgreSQL 데이터베이스 및 MongoDB 데이터베이스) 에 있는 기존 데이터에서 가상 테이블을 함께 결합하는 것이 목표입니다. 데이터 통합 학습서를 완료한 경우 이 학습서에서 Watson Query를 사용하여 수행한 것과 동일한 여러 태스크를 DataStage 를 사용하여 수행했습니다.
이 학습서의 내용은 골든 뱅크가 자격을 갖춘 대출 신청자에게 대출할 수 없는 새로운 규정을 고수할 필요가 있다는 것입니다. Watson Query 를 사용하여 데이터 이동 없이 서로 다른 데이터 소스의 데이터를 결합하고 프로젝트의 다른 데이터 과학자 및 데이터 엔지니어가 가상 데이터를 사용할 수 있도록 합니다.
다음 애니메이션 이미지는 이 학습서의 끝에서 수행할 작업에 대한 빠른 미리보기를 제공합니다. 외부 데이터 소스에 연결하고, 가상 테이블 및 뷰를 작성하고, 이를 프로젝트에 추가합니다. 더 큰 이미지를 보려면 이미지를 클릭하십시오.
튜토리얼 미리보기
이 학습서에서는 다음 태스크를 완료합니다.
- 전제조건을 설정하십시오.
- 태스크 1: Platform assets catalog를 확인하십시오.
- 태스크 2: Platform assets catalog에 데이터 연결을 추가하십시오.
- 태스크 3: Watson Query에 데이터 소스를 추가하십시오.
- 태스크 4: 데이터 테이블 가상화
- 태스크 5: 가상 테이블을 결합하여 가상 결합 보기를 작성하십시오.
- 태스크 6: API키 생성
- 태스크 7: 프로젝트에서 가상 결합 보기에 액세스합니다.
- 정리 (선택사항)
비디오를 시청하면 이 학습서의 단계를 미리 볼 수 있습니다. 비디오에 표시된 사용자 인터페이스에 약간의 차이가 있을 수 있습니다. 이 비디오는 작성된 학습서와 함께 사용하기 위한 것입니다.
이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.
이 학습을 완료하기 위한 팁
다음은 이 학습서를 성공적으로 완료하기 위한 몇 가지 팁입니다.
비디오 사진 사용
다음 애니메이션 이미지는 비디오 픽처 인 픽처 및 목차 기능을 사용하는 방법을 보여줍니다.
커뮤니티에서 도움 받기
이 튜토리얼에 대한 도움이 필요한 경우 Cloud Pak for Data 커뮤니티 토론 포럼에서 질문하거나 응답을 찾을 수 있습니다.
브라우저 창 설정
이 튜토리얼을 완료하는 최적의 경험을 위해 한 브라우저 창에서 Cloud Pak for Data 를 열고 두 애플리케이션 간에 쉽게 전환할 수 있도록 다른 브라우저 창에서 이 튜토리얼 페이지를 열어 두십시오. 따라하기 쉽도록 두 개의 브라우저 창을 나란히 배열하는 것을 고려하십시오.
전제조건 설정
Cloud Pak for Data as a Service 가입
Cloud Pak for Data as a Service 에 등록하고 데이터 통합 유스 케이스에 필요한 서비스를 프로비저닝해야 합니다.
- 기존 Cloud Pak for Data as a Service 계정이 있는 경우 이 튜토리얼을 시작할 수 있습니다. Lite 플랜 계정이 있는 경우에는 계정당 한 명의 사용자만 이 학습서를 실행할 수 있습니다.
- Cloud Pak for Data as a Service 계정이 아직 없는 경우에는 데이터 패브릭 평가판에 등록하십시오.
다음 비디오를 보고 Cloud Pak for Data의 데이터 패브릭에 대해 알아보십시오.
이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.
필요한 프로비저닝된 서비스 확인
이 태스크를 미리 보려면 01:06에 시작하는 비디오를 보십시오.
필요한 서비스를 확인하거나 프로비저닝하려면 다음 단계를 수행하십시오.
Cloud Pak for Data 탐색 메뉴 에서 서비스 > 서비스 인스턴스를 선택하십시오.
제품 드롭 다운 목록을 사용하여 기존 Watson Query 서비스 인스턴스가 있는지 여부를 판별하십시오.
Watson Query 서비스 인스턴스를 작성해야 하는 경우 서비스 추가를 클릭하십시오.
Watson Query를 선택하십시오.
Lite 플랜을 선택하십시오.
작성을 클릭하십시오.
Watson Query 서비스가 프로비저닝되는 동안 기다리십시오. 완료하는 데 몇 분이 걸릴 수 있습니다.
다음과 같은 추가 서비스를 확인하거나 프로비저닝하려면 다음 단계를 반복하십시오.
- IBM Knowledge Catalog
- Cloud Object Storage
진행 상태 확인
다음 이미지는 프로비저닝된 서비스 인스턴스를 표시합니다.
샘플 프로젝트 작성
이 태스크를 미리 보려면 01:46에서 시작하는 비디오를 보십시오.
이 학습서에 대한 샘플 프로젝트가 이미 있는 경우 태스크 1로 건너뛰십시오. 그렇지 않으면, 다음 단계를 수행하십시오.
자원 허브에서 데이터 통합 샘플 프로젝트 에 액세스하십시오.
프로젝트 작성을 클릭하십시오.
프로젝트를 Cloud Object Storage 인스턴스에 연관시키도록 프롬프트가 표시되면 목록에서 Cloud Object Storage 인스턴스를 선택하십시오.
작성을 클릭하십시오.
프로젝트 가져오기가 완료될 때까지 기다린 후 새 프로젝트 보기 를 클릭하여 프로젝트 및 자산이 성공적으로 작성되었는지 확인하십시오.
자산 탭을 클릭하여 연결 및 DataStage 플로우를 확인하십시오.
진행 상태 확인
다음 이미지는 샘플 프로젝트의 자산 탭을 표시합니다. 이제 학습서를 시작할 준비가 되었습니다.
태스크 1: Platform assets catalog 확인
이 태스크를 미리 보려면 02:42에 시작하는 비디오를 보십시오.
플랫폼 레벨 또는 서비스 레벨에서 외부 데이터 소스에 대한 연결을 추가할 수 있습니다. Platform assets catalog를 사용하여 플랫폼 레벨에서 연결을 추가할 때 프로젝트, 카탈로그 및 Watson Query 데이터 소스에 해당 연결을 쉽게 포함할 수 있습니다. 다음 단계에 따라 Platform assets catalog를 확인하십시오.
Cloud Pak for Data 탐색 메뉴 에서 데이터 > 플랫폼 연결을 선택하십시오.
기존 연결이 표시되면 Platform assets catalog가 이미 있는 것이므로 태스크 2로 건너뛸 수 있습니다. 연결이 표시되지 않지만 새 연결을 작성하는 옵션이 표시되면 태스크 2로 건너뛸 수 있습니다.
Platform assets catalog가 없는 경우 카탈로그 작성을 클릭하십시오.
목록에서 Cloud Object Storage 를 선택하십시오.
중복 자산 처리의 기본값을 승인하십시오.
작성을 클릭하십시오. 플랫폼 연결 페이지가 표시됩니다.
진행 상태 확인
다음 이미지는 플랫폼 연결을 표시합니다. 여기에서 연결을 작성할 수 있습니다. 샘플 프로젝트에 연결이 포함되어 있으므로 샘플 프로젝트에서 이 카탈로그에 외부 데이터 소스에 대한 연결을 추가할 수 있습니다.
태스크 2: Platform assets catalog 에 데이터 연결 추가
이 태스크를 미리 보려면 03:22에서 시작하는 비디오를 보십시오.
데이터 통합 샘플 프로젝트에는 외부 데이터 소스에 대한 여러 연결이 포함되어 있습니다. 그런 다음 Platform assets catalog에 세 개의 연결을 추가하고 Watson Query에서 이러한 연결을 사용할 수 있도록 설정할 수 있습니다. 다음 단계에 따라 샘플 프로젝트에서 Platform assets catalog로의 연결을 공개하십시오.
Cloud Pak for Data 탐색 메뉴 에서 프로젝트 > 모든 프로젝트 보기를 선택하십시오.
데이터 통합 프로젝트를 클릭하십시오.
자산 탭을 클릭하십시오.
자산 유형아래에서 데이터 액세스 > 연결을 클릭하십시오.
다음 연결 자산을 선택하십시오.
- Data Fabric 평가판- Db2 Warehouse
- Data Fabric 평가판- MongoDB
- Data Fabric 평가판- Databases for PostgreSQL
카탈로그에 공개를 클릭하십시오.
목록에서 플랫폼 자산 카탈로그 를 선택하고 다음을 클릭하십시오.
자산을 검토하고 공개를 클릭하십시오.
Cloud Pak for Data 탐색 메뉴 에서 데이터 > 플랫폼 연결 을 선택하여 카탈로그에 공개된 세 개의 연결을 확인하십시오.
진행 상태 확인
다음 이미지는 세 개의 플랫폼 연결을 표시합니다. 이제 데이터 소스를 추가할 준비가 되었습니다.
태스크 3: Watson Query 에 데이터 소스 추가
이 태스크를 미리보려면 04:05에서 시작하는 비디오를 보십시오.
이제 Platform assets catalog 에서 Watson Query로 이러한 외부 데이터 소스를 추가할 수 있습니다. 데이터 소스를 추가하려면 다음 단계를 수행하십시오.
Cloud Pak for Data 탐색 메뉴 에서 데이터 > Data virtualization를 선택하십시오.
참고: 통제를 적용하도록 기본 카탈로그 설정에 대한 알림이 표시되면 이 알림을 안전하게 닫을 수 있습니다. 기본 카탈로그 설정은 선택사항입니다.데이터 소스 페이지의 테이블 보기에서 연결 추가 > 기존 플랫폼 연결을 클릭하십시오.
Data Fabric 평가판- Db2 Warehouse를 선택하십시오.
추가 를 클릭하십시오.
이 단계를 반복하여 Data Fabric 평가판-Mongo DB 및 Data Fabric 평가판- Databases for PostgreSQL 연결을 추가하십시오.
진행 상태 확인
다음 이미지는 데이터 소스를 표시합니다. 이제 해당 외부 데이터 소스에 저장된 데이터에서 가상 테이블을 작성할 준비가 되었습니다.
태스크 4: 데이터 테이블 가상화
이 태스크를 미리 보려면 04:40에서 시작하는 비디오를 보십시오.
MORTGAGE_APPLICATION, MORTGAGE_신청자및 CREDIT_SCORES 테이블을 가상화하려고 합니다. 나중에 처음 두 개의 가상 테이블을 세 번째 테이블과 결합하여 새 가상 결합 보기를 작성할 수 있습니다. 데이터 테이블을 가상화하려면 다음 단계를 수행하십시오.
서비스 메뉴에서 가상화 > 가상화를 클릭하십시오.
필요한 경우 테이블 보기로 변경하고 테이블이 로드되는 동안 기다리십시오. 최대 30초가 소요될 수 있습니다. 테이블의 전체 목록을 보려면 새로 고치기 를 클릭해야 합니다. 사용 가능한 테이블이 표시되면 모든 테이블이 로드됩니다. 테이블 수는 다를 수 있습니다.
테이블 탭에서 다음 기준에 따라 테이블을 필터링하십시오.
커넥터: IBM Db2 Warehouse 및 PostgreSQL
데이터베이스: Data Fabric 평가판- Db2 Warehouse 및 Data Fabric 평가판- Databases for PostgreSQL
스키마: BANKING
가상화할 MORTGAGE_APPLICATION, MORTGAGE_신청자및 CREDIT_SCORE 테이블을 선택하십시오. 테이블 이름 위로 마우스를 이동하여 전체 이름을 보고 올바른 테이블 이름을 선택했는지 확인할 수 있습니다.
카트에 추가를 클릭하십시오.
카트 보기 를 클릭하여 선택사항을 보십시오. 여기에서 테이블 및 스키마 이름을 편집하거나 카트에서 선택사항을 제거할 수 있습니다.
지금은 프로젝트에 지정옆에 있는 선택란을 지우십시오. 이 조치를 수행하면 가상화된 데이터 페이지에서 가상 테이블을 사용할 수 있습니다.
가상화를 클릭하십시오.
확인 을 클릭하여 테이블 가상화를 시작하십시오.
가상화가 완료되면 가상화된 데이터로 이동 을 클릭하여 새로 작성된 테이블을 확인하십시오.
진행 상태 확인
다음 이미지는 가상화된 데이터 페이지를 표시합니다. 이제 이러한 가상 테이블을 결합하여 가상 테이블을 작성할 준비가 되었습니다.
태스크 5: 가상 테이블을 결합하여 가상 결합 보기 작성
MORTGAGE_신청자및 MORTGAGE_APPLICATION 가상 테이블을 결합하여 가상 결합 보기를 작성하려고 합니다. 그런 다음, 결과 가상 오브젝트를 CREDIT_SCORE 가상 테이블과 조인하여 두 번째 가상 조인 뷰를 작성하려고 합니다.
가상 결합 보기 1: MORTGAGE_신청자및 MORTGAGE_APPLICATION 가상 테이블 결합
이 태스크를 미리보려면 05:59에서 시작하는 비디오를 보십시오.
첫 번째 가상 결합 보기를 작성하려면 다음 단계를 수행하십시오.
가상화된 데이터 페이지에서 가상화할 MORTGAGE_APPLICATION 및 MORTGAGE_신청자 테이블을 선택하십시오.
스키마 이름을 기록해 두십시오. 나중에 SQL 조회를 실행하려면 이 이름이 필요합니다.
결합을 클릭하십시오.
MORTGAGE_APPLICATION 테이블의 열 목록에서 ID 열을 MORTGAGE_신청자 테이블의 ID 열과 연결하도록 끌어 놓으십시오.
두 테이블 모두에서 모든 컬럼을 선택하십시오.
결합된 테이블의 미리보기를 보려면 미리보기 를 클릭하십시오.
미리보기 창을 닫으십시오.
SQL 편집기에서 열기를 클릭한 후 결합 캔버스로 돌아갈 수 없음을 알리는 알림에서 계속 을 클릭하십시오. SQL 편집기를 사용하여 데이터 세트에 대한 조회를 실행할 수 있습니다. 이 경우 캘리포니아 신청자를 필터링할 때 데이터 세트에 포함될 레코드를 미리 보려고 합니다.
스키마를 복사한 후 기존 조회를 삭제하십시오. 다음 SQL문에 스키마를 삽입해야 합니다.
새 조회에 대해 다음 SELECT문을 복사하여 붙여넣으십시오.
<your schema>
를 이전에 기록한 스키마 이름으로 바꾸십시오.SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
조회는 SELECT * FROM DV_IBMID_663002GN1Q.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
모두 실행을 클릭하십시오.
조회가 완료되면 히스토리 탭에서 조회를 선택하십시오. 결과 탭에서 테이블이 캘리포니아 주의 신청자로만 필터링되는 것을 볼 수 있습니다.
이전 을 클릭하여 SQL 편집기를 닫으십시오.
캘리포니아 지원자에서 필터링된 데이터 세트를 미리 보았으므로 이 필터 기준을 가상 결합 보기에 추가합니다. MORTGAGE_신청자 테이블의 경우 필터 기준에 대해 다음 명령문을 복사하여 붙여넣으십시오.
<your schema>
를 이전에 기록한 스키마 이름으로 바꾸십시오."<your-schema>"."MORTGAGE_APPLICANT"."STATE_CODE"='CA'
필터 기준은 "DV_IBMID_663002GN1Q". "MORTGAGE_신청자". "STATE_CODE" = 'CA' 와 유사합니다.
다음 을 클릭하십시오.
두 테이블에서 동일한 이름을 가진 열을 구별하도록 열 이름을 편집할 수 있습니다. 이 경우 기본 열 이름을 유지하고 다음을 클릭하십시오.
지정 및 검토 페이지에서 보기 이름에
APPLICANTS_APPLICATIONS_JOINED
를 입력하십시오.지금은 프로젝트에 지정 옵션을 선택 취소하십시오. 나중에 가상 오브젝트를 작성하고 이를 데이터 통합 프로젝트에 지정합니다.
뷰 작성을 클릭하십시오.
가상화가 완료되면 가상화된 데이터로 이동 을 클릭하여 새로 작성된 결합 보기를 확인하십시오.
진행 상태 확인
다음 이미지는 가상화된 데이터 페이지를 표시합니다. 이제 두 번째 가상 결합 보기를 작성할 준비가 되었습니다.
가상 조인 뷰 2: APPLICANTS_APPLICATIONS_JOIN및 CREDIT_SCORE 가상 테이블 조인
이 태스크를 미리보려면 07:47에서 시작하는 비디오를 보십시오.
두 번째 가상 결합 보기를 작성하려면 다음 단계를 수행하십시오.
가상화된 데이터 페이지에서 가상화할 APPLICANTS_APPLICATIONS_JOINED 및 CREDIT_SCORE 테이블을 선택하십시오.
결합을 클릭하십시오.
APPLICANTS_APPLICATIONS_JOINED 테이블의 열 목록에서 끌어서 CREDIT_SCORE 테이블의 EMAIL_ADDRESS 열과 EMAIL_ADDRESS 열을 연결하십시오.
결합된 테이블의 미리보기를 보려면 미리보기 를 클릭하십시오.
미리보기 창을 닫으십시오.
다음 을 클릭하십시오.
기본 열 이름을 승인하고 다음을 클릭하십시오.
지정 및 검토 페이지에서 보기 이름에
APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
를 입력하십시오.이번에는 프로젝트에 지정 을 선택한 상태로 두고 데이터 통합 프로젝트를 선택하십시오.
뷰 작성을 클릭하십시오.
가상화가 완료되면 가상화된 데이터로 이동 을 클릭하여 새로 작성된 결합 보기를 확인하십시오.
진행 상태 확인
다음 이미지는 가상화된 데이터 페이지를 표시합니다. 이제 프로젝트의 가상 데이터에 대해 작업할 준비가 되었습니다.
태스크 6: API키 생성
이 태스크를 미리보려면 08:27에서 시작하는 비디오를 보십시오.
가상화된 자산을 보려면 API키 양식으로 개인 신임 정보를 제공해야 합니다. 아직 저장된 API 키가 없는 경우에는 다음 단계를 수행하여 API 키를 작성합니다.
IBM Cloud 콘솔에서 API키 페이지 에 액세스하십시오. 프롬프트가 표시되면 로그인하십시오.
API키 페이지에서 IBM Cloud API키 작성을 클릭하십시오. 기존 API키가 있는 경우 단추에 작성이라는 레이블이 붙을 수 있습니다.
이름 및 설명을 입력하십시오.
작성을 클릭하십시오.
복사 API 키입니다.
나중에 사용할 수 있도록 API 키를 다운로드하십시오.
진행 상태 확인
다음 이미지는 API키 페이지를 표시합니다. 이제 프로젝트에서 가상 테이블을 볼 준비가 되었습니다.
태스크 7: 프로젝트의 가상 결합 보기에 액세스
이 태스크를 미리보려면 09:01에 시작하는 비디오를 보십시오.
가상 테이블이 Watson Query에 대한 연결과 함께 프로젝트에 추가되었습니다. 다음 단계에 따라 프로젝트를 열어 가상 데이터 및 가상 데이터에 액세스하는 데 필요한 연결 정보를 확인하십시오.
Cloud Pak for Data로 다시 전환하십시오. 탐색 메뉴 에서 프로젝트 > 모든 프로젝트 보기를 선택하십시오.
데이터 통합 프로젝트를 여십시오.
자산 탭을 클릭하십시오.
가상화된 데이터를 여십시오. 예를 들어, 스키마 이름으로 시작하고 APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED 가 뒤따르는 데이터 자산을 클릭하여 보십시오.
데이터 자산에 액세스하기 위한 신임 정보를 제공하십시오.
인증 방법으로 API키를 선택하십시오.
API키를 붙여넣으십시오.
연결을 클릭하십시오.
데이터 자산을 스크롤하여 캘리포니아 주의 모든 신청자를 확인하십시오.
진행 상태 확인
다음 이미지는 프로젝트의 가상 데이터를 표시합니다. 이제 가상 데이터를 분석할 준비가 되었습니다.
골든 은행의 데이터 엔지니어로서 Watson Query 를 사용하여 다른 데이터 소스의 데이터와 다른 유형의 데이터를 결합했습니다. SQL 구문을 사용하고 데이터 이동 없이 데이터에 액세스하여 결합했습니다.
정리 (선택사항)
데이터 통합 유스 케이스에서 학습서를 다시 가져오려면 다음 아티팩트를 삭제하십시오.
아티팩트 | 삭제 방법 |
---|---|
Platform assets catalog 의 연결 | 카탈로그에서 자산 제거 |
데이터 가상화 | 데이터 > Data virtualization로 이동하십시오. 가상화된 데이터 페이지에서 테이블의 오버플로우 메뉴 에 액세스하고 제거를 선택하십시오. |
데이터 소스 | 데이터 > Data virtualization로 이동하십시오. 데이터 소스 페이지에서 연결에 대한 삭제 아이콘 을 클릭하십시오. |
데이터 통합 샘플 프로젝트 | 프로젝트 삭제 |
다음 단계
다른 학습서를 사용해 보십시오.
다른 데이터 패브릭 유스 케이스에 등록하십시오.
자세한 정보
상위 주제: 유스 케이스 학습서