최신 변환이 아님
학습서: 데이터 확인
이 학습서를 사용하여 데이터 패브릭 평가판의 Data Governance and Privacy 사용 사례를 사용하여 신뢰할 수 있고 보호되는 데이터에 대해 작업하십시오. 데이터 패브릭에서 데이터를 평가, 공유, 구체화 및 분석하는 것이 목표입니다.
이 학습서의 내용은 골든 뱅크에는 고품질의 고객 모기지 데이터에 대한 액세스가 필요한 여러 부서가 있다는 점입니다. 데이터 분석가는 올바른 데이터를 검색하여 찾고 해당 컨텐츠를 이해하고 신뢰한 다음 다른 데이터 분석가 및 데이터 과학자가 사용할 수 있도록 준비해야 합니다.
이 학습서에서는 다음 태스크를 완료합니다.
- 데이터 자산을 이해 및 연결합니다.
- 자산을 강화하고 관계를 작성합니다.
- 프로젝트에 풍부한 데이터를 추가합니다.
- 데이터를 시각화합니다.
- 분석 및 AI에 대한 데이터를 준비합니다.
- Data Refinery 플로우를 실행합니다.
이 학습서에 대한 도움말이 필요한 경우 질문을 하거나 Cloud Pak for Data 커뮤니티 토론 포럼에서 답을 찾으십시오.
전제조건
Cloud Pak for Data as a Service를 등록하고 Data Governance and Privacy 사용 사례에 필요한 서비스를 프로비저닝해야 합니다.
다음 방법 중 하나로 Cloud Pak for Data as a Service에 등록할 수 있습니다.
필요한 서비스 프로비저닝
필요한 서비스를 확인하거나 프로비저닝하려면 다음 단계를 수행하십시오.
- Cloud Pak for Data 탐색 메뉴에서 서비스 > 서비스 인스턴스를 선택하십시오.
- 제품 드롭 다운 상자를 사용하여 기존 Watson Knowledge Catalog 서비스 인스턴스가 있는지 판별하십시오.
- Watson Knowledge Catalog 서비스 인스턴스를 작성해야 하는 경우 서비스 추가를 클릭하십시오.
- Watson Knowledge Catalog를 선택하십시오.
- Lite 플랜을 선택하십시오.
- 작성을 클릭하십시오.
데이터 신뢰 및 보호
이 태스크를 미리 보려면 00:47에서 시작하는 비디오를 시청하십시오.
다음 두 개의 학습서를 완료하십시오.
1단계: 데이터 자산 이해 및 연결
이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오.
카탈로그는 다른 사용자와 자산을 공유하는 위치입니다. 조직은 서로 다른 자산에 대해 서로 다른 카탈로그를 작성할 수 있습니다. 사용자는 협업자로 추가된 카탈로그만 액세스할 수 있습니다. 데이터 자산을 이해하고 적용하려면 다음 단계를 수행하십시오.
- Cloud Pak for Data 탐색 메뉴에서 카탈로그 > 모든 카탈로그 보기를 선택하십시오.
- 모기지 승인 카탈로그를 여십시오.
- 주요 자산 섹션에는 최근에 추가된 자산, 과거 사용 및 인기에 따라 AI 및 머신 러닝에서 제안된 자산인 Watson 권장이 있는 자산, 협업자가 평가하고 검토한 높은 평가 등급 자산이 표시됩니다.
- 해당 섹션을 닫으려면 기능 자산 숨김을 클릭하십시오.
mortgage
을(를) 검색하십시오.- 카탈로그 자산을 보려면 MORTGAGE_APPLICANTS를 클릭하십시오. 개요 탭은 자산에 대한 기본 정보(예: 설명, 등급, 태그, 자산이 있는 위치, 비즈니스 용어, 분류 및 관련 자산)를 제공합니다.
- 프로파일 탭을 클릭하십시오. 데이터 정책이 사용 가능한 카탈로그에 자산을 추가하면 Watson Knowledge Catalog가 자동으로 프로파일을 작성하고 해당 열의 값을 기반으로 자산의 컨텐츠를 분류합니다. 프로파일 정보는 데이터 분석가 및 데이터 과학자가 데이터의 컨텐츠, 품질 및 사용성을 이해하는 데 매우 유용합니다. Watson Knowledge Catalog는 데이터 유형을 식별하기 위해 자동으로 데이터 분류를 추론합니다. 정책 적용에서 이러한 데이터 분류를 사용하여 중요한 데이터를 보호할 수 있습니다.
- 오른쪽으로 스크롤하여 ZIP_CODE 열을 선택하십시오.
- 이 열의 데이터 분류는 상업 및 정부 엔티티입니다. 이 열을 재분류하는 것은 쉽습니다. 다른 가능한 분류 및 해당 신뢰 수준을 보려면 드롭 다운 목록을 클릭하십시오. 미국 우편번호를 선택하십시오.
- 데이터 미리보기를 보려면 자산 탭을 클릭하십시오.
- 열 메타데이터를 보려면 지정된 비즈니스 용어에 대한 열의 눈 아이콘을 클릭하십시오.
- 검토 탭을 클릭하십시오. 다른 사용자가 자산을 쉽게 찾을 수 있도록 MORTGAGE_APPLICANTS 자산에 대한 등급과 의견을 결정합니다.
- 등급에 대해 별 5개를 선택하십시오.
- 검토를 위해
This contains high quality customer data from the mortgage system.
입력 - 제출을 클릭하십시오.
2단계: 자산 강화 및 관계 작성
이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오.
자산이 카탈로그에 추가되거나 공개되면 자산에 대한 추가 수동 강화를 수행하여 다른 사용자와 공유하기 위한 추가 정보를 제공할 수 있습니다. 예를 들어, 자산 간의 관계를 작성하여 다른 사용자가 자산을 링크할 수 있는 방법을 볼 수 있습니다. 자산을 강화하고 관계를 작성하려면 다음 단계를 수행하십시오.
- MORTGAGE_APPLICANTS 카탈로그 자산의 경우 개요 탭을 클릭하십시오.
- 설명 섹션에서 편집 아이콘을 클릭하십시오.
Mortgage applicants from the Mortgage System
을(를) 입력하십시오.- 저장을 클릭하십시오.
- 이 자산은 모기지 시스템의 자산이므로 비즈니스 용어옆에 있는 +(더하기 부호)를 클릭하십시오.
default
을(를) 검색하십시오.- 모기지 기본값을 선택하십시오.
- 추가를 클릭하십시오.
- 이 자산에는 개인 정보가 포함되어 있으므로 분류옆에 있는 +(더하기 부호)를 클릭하십시오.
- 개인을 식별할 수 있는 정보를 선택하십시오.
- 추가를 클릭하십시오.
- 이 자산은 다른 모기지 자산과 관련되어 있으므로 관련 자산옆에 있는 자산 추가를 클릭하십시오.
- Is related to를 선택하고 다음을 클릭하십시오.
- CREDIT_SCORE 및 MORTGAGE_APPLICATION 자산을 선택하고 추가를 클릭하십시오.
- 관련 자산을 보려면 MORTGAGE_APPLICATION을 클릭하십시오.
단계 3: 프로젝트에 강화된 데이터 추가
이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오.
데이터 분석가 팀은 MORTGAGE_APPLICANTS가 모기지 분석 프로젝트에 유용할 것이라고 판단했습니다. 다음 단계에 따라 강화된 데이터를 프로젝트에 추가하십시오.
- 사이트 이동 경로에서 모기지 승인 카탈로그를 클릭하십시오.
- MORTGAGE_APPLICANTS 카탈로그 자산의 경우, 오버플로우 메뉴에서 프로젝트에 추가를 선택하십시오.
- Data Governance and Privacy 프로젝트를 선택하십시오.
- 추가를 클릭하십시오.
- 알림이 표시되면 프로젝트로 이동을 클릭하십시오. 알림이 누락되면 다음을 수행하십시오.
- Cloud Pak for Data 탐색 메뉴를 클릭하고 프로젝트 > 모든 프로젝트 보기를 선택하십시오.
- Data Governance and Privacy 프로젝트를 클릭하십시오.
- 프로젝트에서 자산 탭을 클릭하여 MORTGAGE_APPLICANTS 데이터 자산 및 데이터 패브릭 평가판 - Db2 Warehouse 연결 자산을 확인하십시오.
4단계: 데이터 시각화
이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오.
MORTGAGE_APPLICANTS 데이터는 분석 도구와 모델을 준비하기 위해 약간의 정리와 정제가 필요합니다. Data Refinery의 시각화 기능은 사용자가 데이터의 내용을 더 잘 이해할 수 있도록 빠르고 쉬운 방법을 제공하므로, 데이터의 구체화를 결정할 수 있습니다. 시각화는 데이터의 처음 5,000행을 기반으로 합니다. 다음 단계를 수행하여 데이터를 시각화하십시오.
- MORTGAGE_APPLICANTS 데이터 자산을 클릭하여 데이터를 미리보십시오.
- 정제를 클릭하여 Data Refinery에서 데이터 자산을 열고 데이터를 읽고 처리할 때까지 기다리십시오.
- 시각화 탭을 클릭하십시오.
- 시각화할 열의 경우 STATE를 선택하십시오.
- 데이터 시각화를 클릭하십시오. 이 도구는 이 열에 대한 최상의 차트 유형으로 원형 차트를 선택합니다. 막대, 단어 클라우드 및 선버스트 옆에 파란색 점으로 표시되는 몇 가지 제안된 차트 유형이 있습니다.
- 버블 차트 유형을 선택하십시오. 버블은 특정 데이터 세트에서 값의 분포를 빠르게 시각화하는 쉬운 방법입니다.
- 차트 유형 드롭 다운에서 히트 맵 차트 유형을 선택하십시오.
- 이 차트 유형에는 두 개의 열이 필요합니다. 다음 열을 선택하십시오.
- 열 필드의 경우 STATE를 선택하십시오.
- 행 필드의 경우 EDUCATION을 선택하십시오.
- 히트 맵을 사용하면 범례의 레버를 조정하여 관심이 있는 범위를 확대할 수 있습니다.
5단계: 분석 및 AI에 대한 데이터 준비
이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오.
MORTGAGE_APPLICANTS 데이터를 준비하기 위해 다음을 수행합니다.
- 이름을 이름 및 성으로 분할하십시오.
- 이름 열의 이름을 FULL_NAME으로 바꿉니다.
데이터를 준비하려면 다음 단계를 수행하십시오.
- 데이터 탭을 클릭하십시오.
- 이름 열을 이름 및 성으로 분할하려고 합니다. 이름 열을 선택하십시오.
- 단계 패널에서 새 단계를 클릭하십시오.
- 조직 섹션으로 스크롤하여 분할 열을 선택하십시오.
- 새 열의 이름 필드에
FIRST_NAME, LAST_NAME
을(를) 입력하십시오(두 개의 새 열 이름을 쉼표 및 공백으로 표시). - 적용을 클릭하십시오. 새 FIRST_NAME 및 LAST_NAME 열이 원래 NAME 열 옆에 표시됩니다.
- 이름 열의 이름을 변경하여 신청자의 전체 이름임을 표시하려고 합니다. 이름 열에서 편집(연필) 아이콘을 클릭하십시오.
FULL_NAME
을(를) 입력하십시오.- 사용자 키보드에서 Enter를 누르십시오.
단계 6: Data Refinery 플로우 실행
이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오.
이제 데이터를 정리했으므로 다음 단계를 수행하여 Data Refinery 플로우를 실행하십시오.
- 정보 패널이 오른쪽에 표시되어야 합니다. 표시되지 않으면 패널을 클릭하고 도구 모음에서 정보 아이콘을 클릭하십시오.
- 기본적으로 대상 데이터 세트는 프로젝트에 저장됩니다. 편집을 클릭하여 대상 위치를 변경하십시오. 이 시나리오에서는 기본 이름(MORTGAGE_APPLICANTS_shaped)과 출력 위치(Data Governance and Privacy 프로젝트)를 유지합니다. 완료 탭을 클릭하여 데이터 탭으로 돌아가십시오.
- 도구 모음에서 작업 아이콘을 클릭하고 작업 저장 및 작성을 선택합니다.
- 이름의 경우
Job to refine MORTGAGE_APPLICANTS
을(를) 입력하십시오. - 작업 구성을 계속하려면 다음을 클릭하십시오.
- 기본값을 승인하고 다음을 클릭하여 작업의 스케줄을 계속하십시오.
- 스케줄을 해제한 상태로 유지하고 다음을 클릭하여 알림 설정을 계속하십시오.
- 알림에 대한 기본값을 승인하고 다음을 클릭하여 검토를 계속하십시오.
- 작업 설정을 검토하고 작성 및 실행을 클릭하십시오.
- 이름의 경우
- 알림이 표시되면 작업 세부사항을 클릭하십시오. 알림이 누락되면 다음을 수행하십시오.
- 사이트 이동 경로에서 Data Governance and Privacy 프로젝트를 클릭하십시오.
- 작업 탭을 클릭하십시오.
- MORTGAGE_APPLICANTS를 정제하는 작업 작업을 클릭하십시오.
- 상태를 업데이트하려면 새로 고침 아이콘을 클릭하십시오. 작업 실행이 완료되면 상태는 완료됨으로 변경됩니다.
- 새 자산을 보려면 사이트 이동 경로에서 Data Governance and Privacy 프로젝트를 클릭하십시오.
- MORTGAGE_APPLICANTS_flow: Data Refinery 플로우
- MORTGAGE_APPLICANTS_shaped: 대상 구체화의 데이터 자산
- 데이터 자산을 미리보려면 MORTGAGE_APPLICANTS_shaped를 클릭하십시오. 업데이트된 열 이름과 두 개의 새 열에 주의하십시오.
자세히 보기
상위 주제: 데이터 패브릭 학습서