학습서: 데이터 확인

이 학습서를 사용하여 데이터 패브릭 평가판의 Data Governance and Privacy 사용 사례를 사용하여 신뢰할 수 있고 보호되는 데이터에 대해 작업하십시오. 데이터 패브릭에서 데이터를 평가, 공유, 구체화 및 분석하는 것이 목표입니다.

이 학습서의 내용은 골든 뱅크에는 고품질의 고객 모기지 데이터에 대한 액세스가 필요한 여러 부서가 있다는 점입니다. 데이터 분석가는 올바른 데이터를 검색하여 찾고 해당 컨텐츠를 이해하고 신뢰한 다음 다른 데이터 분석가 및 데이터 과학자가 사용할 수 있도록 준비해야 합니다.

이 학습서에서는 다음 태스크를 완료합니다.

  1. 데이터 자산을 이해 및 연결합니다.
  2. 자산을 강화하고 관계를 작성합니다.
  3. 프로젝트에 풍부한 데이터를 추가합니다.
  4. 데이터를 시각화합니다.
  5. 분석 및 AI에 대한 데이터를 준비합니다.
  6. Data Refinery 플로우를 실행합니다.

이 학습서에 대한 도움말이 필요한 경우 질문을 하거나 Cloud Pak for Data 커뮤니티 토론 포럼에서 답을 찾으십시오.

팁: 이 학습을 완료하는 최적의 경험을 보려면 Cloud Pak for Data as a Service를 하나의 브라우저 탭에서 열고 이 학습서 페이지를 다른 브라우저 탭에서 열어 두 애플리케이션 간에 쉽게 전환할 수 있습니다.

전제조건

Cloud Pak for Data as a Service를 등록하고 Data Governance and Privacy 사용 사례에 필요한 서비스를 프로비저닝해야 합니다.

다음 방법 중 하나로 Cloud Pak for Data as a Service에 등록할 수 있습니다.

필요한 서비스 프로비저닝

필요한 서비스를 확인하거나 프로비저닝하려면 다음 단계를 수행하십시오.

  1. Cloud Pak for Data 탐색 메뉴에서 서비스 > 서비스 인스턴스를 선택하십시오.
  2. 제품 드롭 다운 상자를 사용하여 기존 Watson Knowledge Catalog 서비스 인스턴스가 있는지 판별하십시오.
  3. Watson Knowledge Catalog 서비스 인스턴스를 작성해야 하는 경우 서비스 추가를 클릭하십시오.
  4. Watson Knowledge Catalog를 선택하십시오.
  5. Lite 플랜을 선택하십시오.
  6. 작성을 클릭하십시오.

데이터 신뢰 및 보호

비디오 시청 이 태스크를 미리 보려면 00:47에서 시작하는 비디오를 시청하십시오.

다음 두 개의 학습서를 완료하십시오.

  • 데이터 신뢰 데이터 자산을 가져오고 강화하여 카탈로그에 공개하는 학습서
  • 데이터 보호 데이터 보호 규칙 및 마스킹 플로우를 작성하여 데이터를 보호하는 학습서

1단계: 데이터 자산 이해 및 연결

비디오 시청 이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오.

카탈로그는 다른 사용자와 자산을 공유하는 위치입니다. 조직은 서로 다른 자산에 대해 서로 다른 카탈로그를 작성할 수 있습니다. 사용자는 협업자로 추가된 카탈로그만 액세스할 수 있습니다. 데이터 자산을 이해하고 적용하려면 다음 단계를 수행하십시오.

  1. Cloud Pak for Data 탐색 메뉴에서 카탈로그 > 모든 카탈로그 보기를 선택하십시오.
  2. 모기지 승인 카탈로그를 여십시오.
  3. 주요 자산 섹션에는 최근에 추가된 자산, 과거 사용 및 인기에 따라 AI 및 머신 러닝에서 제안된 자산인 Watson 권장이 있는 자산, 협업자가 평가하고 검토한 높은 평가 등급 자산이 표시됩니다.
  4. 해당 섹션을 닫으려면 기능 자산 숨김을 클릭하십시오.
  5. mortgage을(를) 검색하십시오.
  6. 카탈로그 자산을 보려면 MORTGAGE_APPLICANTS를 클릭하십시오. 개요 탭은 자산에 대한 기본 정보(예: 설명, 등급, 태그, 자산이 있는 위치, 비즈니스 용어, 분류 및 관련 자산)를 제공합니다.
  7. 프로파일 탭을 클릭하십시오. 데이터 정책이 사용 가능한 카탈로그에 자산을 추가하면 Watson Knowledge Catalog가 자동으로 프로파일을 작성하고 해당 열의 값을 기반으로 자산의 컨텐츠를 분류합니다. 프로파일 정보는 데이터 분석가 및 데이터 과학자가 데이터의 컨텐츠, 품질 및 사용성을 이해하는 데 매우 유용합니다. Watson Knowledge Catalog는 데이터 유형을 식별하기 위해 자동으로 데이터 분류를 추론합니다. 정책 적용에서 이러한 데이터 분류를 사용하여 중요한 데이터를 보호할 수 있습니다.
  8. 오른쪽으로 스크롤하여 ZIP_CODE 열을 선택하십시오.
  9. 이 열의 데이터 분류는 상업 및 정부 엔티티입니다. 이 열을 재분류하는 것은 쉽습니다. 다른 가능한 분류 및 해당 신뢰 수준을 보려면 드롭 다운 목록을 클릭하십시오. 미국 우편번호를 선택하십시오.
  10. 데이터 미리보기를 보려면 자산 탭을 클릭하십시오.
  11. 열 메타데이터를 보려면 지정된 비즈니스 용어에 대한 열의 아이콘을 클릭하십시오.
  12. 검토 탭을 클릭하십시오. 다른 사용자가 자산을 쉽게 찾을 수 있도록 MORTGAGE_APPLICANTS 자산에 대한 등급과 의견을 결정합니다.
    1. 등급에 대해 별 5개를 선택하십시오.
    2. 검토를 위해 This contains high quality customer data from the mortgage system. 입력
    3. 제출을 클릭하십시오.

2단계: 자산 강화 및 관계 작성

비디오 시청 이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오.

자산이 카탈로그에 추가되거나 공개되면 자산에 대한 추가 수동 강화를 수행하여 다른 사용자와 공유하기 위한 추가 정보를 제공할 수 있습니다. 예를 들어, 자산 간의 관계를 작성하여 다른 사용자가 자산을 링크할 수 있는 방법을 볼 수 있습니다. 자산을 강화하고 관계를 작성하려면 다음 단계를 수행하십시오.

  1. MORTGAGE_APPLICANTS 카탈로그 자산의 경우 개요 탭을 클릭하십시오.
  2. 설명 섹션에서 편집 아이콘을 클릭하십시오.
    1. Mortgage applicants from the Mortgage System을(를) 입력하십시오.
    2. 저장을 클릭하십시오.
  3. 이 자산은 모기지 시스템의 자산이므로 비즈니스 용어옆에 있는 +(더하기 부호)를 클릭하십시오.
    1. default을(를) 검색하십시오.
    2. 모기지 기본값을 선택하십시오.
    3. 추가를 클릭하십시오.
  4. 이 자산에는 개인 정보가 포함되어 있으므로 분류옆에 있는 +(더하기 부호)를 클릭하십시오.
    1. 개인을 식별할 수 있는 정보를 선택하십시오.
    2. 추가를 클릭하십시오.
  5. 이 자산은 다른 모기지 자산과 관련되어 있으므로 관련 자산옆에 있는 자산 추가를 클릭하십시오.
    1. Is related to를 선택하고 다음을 클릭하십시오.
    2. CREDIT_SCOREMORTGAGE_APPLICATION 자산을 선택하고 추가를 클릭하십시오.
  6. 관련 자산을 보려면 MORTGAGE_APPLICATION을 클릭하십시오.

단계 3: 프로젝트에 강화된 데이터 추가

비디오 시청 이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오.

데이터 분석가 팀은 MORTGAGE_APPLICANTS가 모기지 분석 프로젝트에 유용할 것이라고 판단했습니다. 다음 단계에 따라 강화된 데이터를 프로젝트에 추가하십시오.

  1. 사이트 이동 경로에서 모기지 승인 카탈로그를 클릭하십시오.
  2. MORTGAGE_APPLICANTS 카탈로그 자산의 경우, 오버플로우 메뉴에서 프로젝트에 추가를 선택하십시오.
    1. Data Governance and Privacy 프로젝트를 선택하십시오.
    2. 추가를 클릭하십시오.
  3. 알림이 표시되면 프로젝트로 이동을 클릭하십시오. 알림이 누락되면 다음을 수행하십시오.
    1. Cloud Pak for Data 탐색 메뉴를 클릭하고 프로젝트 > 모든 프로젝트 보기를 선택하십시오.
    2. Data Governance and Privacy 프로젝트를 클릭하십시오.
  4. 프로젝트에서 자산 탭을 클릭하여 MORTGAGE_APPLICANTS 데이터 자산 및 데이터 패브릭 평가판 - Db2 Warehouse 연결 자산을 확인하십시오.

4단계: 데이터 시각화

비디오 시청 이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오.

MORTGAGE_APPLICANTS 데이터는 분석 도구와 모델을 준비하기 위해 약간의 정리와 정제가 필요합니다. Data Refinery의 시각화 기능은 사용자가 데이터의 내용을 더 잘 이해할 수 있도록 빠르고 쉬운 방법을 제공하므로, 데이터의 구체화를 결정할 수 있습니다. 시각화는 데이터의 처음 5,000행을 기반으로 합니다. 다음 단계를 수행하여 데이터를 시각화하십시오.

  1. MORTGAGE_APPLICANTS 데이터 자산을 클릭하여 데이터를 미리보십시오.
  2. 정제를 클릭하여 Data Refinery에서 데이터 자산을 열고 데이터를 읽고 처리할 때까지 기다리십시오.
  3. 시각화 탭을 클릭하십시오.
  4. 시각화할 열의 경우 STATE를 선택하십시오.
  5. 데이터 시각화를 클릭하십시오. 이 도구는 이 열에 대한 최상의 차트 유형으로 원형 차트를 선택합니다. 막대, 단어 클라우드 및 선버스트 옆에 파란색 점으로 표시되는 몇 가지 제안된 차트 유형이 있습니다.
  6. 버블 차트 유형을 선택하십시오. 버블은 특정 데이터 세트에서 값의 분포를 빠르게 시각화하는 쉬운 방법입니다.
  7. 차트 유형 드롭 다운에서 히트 맵 차트 유형을 선택하십시오.
  8. 이 차트 유형에는 두 개의 열이 필요합니다. 다음 열을 선택하십시오.
    1. 필드의 경우 STATE를 선택하십시오.
    2. 필드의 경우 EDUCATION을 선택하십시오.
  9. 히트 맵을 사용하면 범례의 레버를 조정하여 관심이 있는 범위를 확대할 수 있습니다.

5단계: 분석 및 AI에 대한 데이터 준비

비디오 시청 이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오.

MORTGAGE_APPLICANTS 데이터를 준비하기 위해 다음을 수행합니다.

  • 이름을 이름 및 성으로 분할하십시오.
  • 이름 열의 이름을 FULL_NAME으로 바꿉니다.

데이터를 준비하려면 다음 단계를 수행하십시오.

  1. 데이터 탭을 클릭하십시오.
  2. 이름 열을 이름 및 성으로 분할하려고 합니다. 이름 열을 선택하십시오.
  3. 단계 패널에서 새 단계를 클릭하십시오.
    1. 조직 섹션으로 스크롤하여 분할 열을 선택하십시오.
    2. 새 열의 이름 필드에 FIRST_NAME, LAST_NAME을(를) 입력하십시오(두 개의 새 열 이름을 쉼표 및 공백으로 표시).
    3. 적용을 클릭하십시오. 새 FIRST_NAMELAST_NAME 열이 원래 NAME 열 옆에 표시됩니다.
  4. 이름 열의 이름을 변경하여 신청자의 전체 이름임을 표시하려고 합니다. 이름 열에서 편집(연필) 아이콘을 클릭하십시오.
    1. FULL_NAME을(를) 입력하십시오.
    2. 사용자 키보드에서 Enter를 누르십시오.

단계 6: Data Refinery 플로우 실행

비디오 시청 이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오.

이제 데이터를 정리했으므로 다음 단계를 수행하여 Data Refinery 플로우를 실행하십시오.

  1. 정보 패널이 오른쪽에 표시되어야 합니다. 표시되지 않으면 패널을 클릭하고 도구 모음에서 정보 아이콘을 클릭하십시오.
  2. 기본적으로 대상 데이터 세트는 프로젝트에 저장됩니다. 편집을 클릭하여 대상 위치를 변경하십시오. 이 시나리오에서는 기본 이름(MORTGAGE_APPLICANTS_shaped)과 출력 위치(Data Governance and Privacy 프로젝트)를 유지합니다. 완료 탭을 클릭하여 데이터 탭으로 돌아가십시오.
  3. 도구 모음에서 작업 아이콘을 클릭하고 작업 저장 및 작성을 선택합니다.
    작업 저장 및 작성
    1. 이름의 경우 Job to refine MORTGAGE_APPLICANTS을(를) 입력하십시오.
    2. 작업 구성을 계속하려면 다음을 클릭하십시오.
    3. 기본값을 승인하고 다음을 클릭하여 작업의 스케줄을 계속하십시오.
    4. 스케줄을 해제한 상태로 유지하고 다음을 클릭하여 알림 설정을 계속하십시오.
    5. 알림에 대한 기본값을 승인하고 다음을 클릭하여 검토를 계속하십시오.
    6. 작업 설정을 검토하고 작성 및 실행을 클릭하십시오.
  4. 알림이 표시되면 작업 세부사항을 클릭하십시오. 알림이 누락되면 다음을 수행하십시오.
    1. 사이트 이동 경로에서 Data Governance and Privacy 프로젝트를 클릭하십시오.
    2. 작업 탭을 클릭하십시오.
    3. MORTGAGE_APPLICANTS를 정제하는 작업 작업을 클릭하십시오.
  5. 상태를 업데이트하려면 새로 고침 아이콘을 클릭하십시오. 작업 실행이 완료되면 상태완료됨으로 변경됩니다.
  6. 새 자산을 보려면 사이트 이동 경로에서 Data Governance and Privacy 프로젝트를 클릭하십시오.
    • MORTGAGE_APPLICANTS_flow: Data Refinery 플로우
    • MORTGAGE_APPLICANTS_shaped: 대상 구체화의 데이터 자산
  7. 데이터 자산을 미리보려면 MORTGAGE_APPLICANTS_shaped를 클릭하십시오. 업데이트된 열 이름과 두 개의 새 열에 주의하십시오.

자세히 보기

상위 주제: 데이터 패브릭 학습서