학습서: 데이터 신뢰

이 학습서를 통해 데이터 패브릭 평가판의 Data Governance and Privacy 사용 사례를 통해 신뢰할 수 있는 데이터를 제공하는 방법을 알아보세요. 데이터 소스에 연결하고, 메타데이터로 데이터 자산을 강화하며, 데이터 품질 분석을 실행하여 고품질의 데이터 자산을 작성하는 것이 목표입니다.

이 학습서의 내용은 골든 뱅크에는 고품질의 고객 모기지 데이터에 대한 액세스가 필요한 여러 부서가 있다는 점입니다. 거버넌스 팀의 데이터 스튜워드는 데이터 이용자가 셀프 서비스 카탈로그에서 쉽게 찾을 수 있는 고품질의 보호된 데이터 자산을 제공하기 위해 회사의 데이터를 정렬하고 구성해야 합니다.

이 학습서에서는 다음 태스크를 완료합니다.

  1. 비즈니스 용어를 추가합니다.
  2. 카테고리를 작성하십시오.
  3. 데이터를 프로젝트로 가져옵니다.
  4. 데이터를 강화합니다.
  5. 메타데이터 강화의 결과를 보십시오.
  6. 카탈로그를 작성합니다.
  7. 카탈로그에 자산을 공개합니다.

이 학습서에 대한 도움말이 필요한 경우 질문을 하거나 Cloud Pak for Data 커뮤니티 토론 포럼에서 답을 찾으십시오.

팁: 이 학습을 완료하는 최적의 경험을 보려면 Cloud Pak for Data as a Service를 하나의 브라우저 탭에서 열고 이 학습서 페이지를 다른 브라우저 탭에서 열어 두 애플리케이션 간에 쉽게 전환할 수 있습니다.

전제조건

Cloud Pak for Data as a Service에 등록하고 Data Governance and Privacy 사용 사례에 필요한 서비스를 프로비저닝해야 합니다.

다음 방법 중 하나로 Cloud Pak for Data as a Service에 등록할 수 있습니다.

필요한 서비스 프로비저닝

비디오 시청 이 태스크를 미리 보려면 01:03에서 시작하는 비디오를 시청하십시오.

필요한 서비스를 확인하거나 프로비저닝하려면 다음 단계를 수행하십시오.

  1. Cloud Pak for Data 탐색 메뉴에서 서비스 > 서비스 인스턴스를 선택하십시오.
  2. 제품 드롭 다운 상자를 사용하여 기존 Watson Knowledge Catalog 서비스 인스턴스가 있는지 판별하십시오.
  3. Watson Knowledge Catalog 서비스 인스턴스를 작성해야 하는 경우 서비스 추가를 클릭하십시오.
  4. Watson Knowledge Catalog를 선택하십시오.
  5. Lite 플랜을 선택하십시오.
  6. 작성을 클릭하십시오.

샘플 프로젝트 작성

비디오 시청 이 태스크를 미리 보려면 01:43에서 시작하는 비디오를 시청하십시오.

이 학습서에 대한 샘플 프로젝트를 아직 작성하지 않은 경우 다음 단계를 수행하십시오.

  1. 갤러리의 Data Governance and Privacy 안내서 학습서 샘플 프로젝트에 액세스하십시오.
  2. 프로젝트 작성을 클릭하십시오.
  3. 프로젝트를 Cloud Object Storage 인스턴스에 연관시키도록 프롬프트가 표시되면 목록에서 Cloud Object Storage 인스턴스를 선택하십시오.
  4. 작성을 클릭하십시오.
  5. 새 프로젝트 보기를 클릭하여 프로젝트 및 자산이 성공적으로 작성되었는지 확인하십시오.

1단계: 비즈니스 용어 추가

비디오 시청 이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오

기업에서 균일하고 이해하기 쉬운 방식으로 데이터가 설명되도록 비즈니스 용어를 사용하여 비즈니스 개념 정의를 표준화합니다. 비즈니스 용어는 데이터의 컨텐츠, 데이터의 민감도 또는 데이터의 제목이나 용도와 같은 기타 데이터 특성을 설명할 수 있습니다. 다음 단계를 수행하여 데이터 자산을 강화하는 데 사용할 비즈니스 용어를 작성하십시오.

  1. Data Governance and Privacy 프로젝트에서 자산 탭을 클릭하십시오.
  2. Banking.csv 데이터 자산의 오버플로우 메뉴에서 다운로드를 선택하십시오.
  3. Cloud Pak for Data as a Service 탐색 메뉴에서 거버넌스 > 비즈니스 용어를 선택하십시오.
  4. 비즈니스 용어 추가 > 파일에서 가져오기를 클릭하십시오.
  5. 파일 추가를 클릭하십시오.
    1. Banking.csv를 선택하십시오.
    2. 열기를 클릭하십시오.
  6. 다음을 클릭하십시오.
  7. 모든 값 바꾸기를 선택하십시오.
  8. 가져오기를 클릭하십시오.

단계 2: 카테고리 작성

비디오 시청 이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오

데이터 보호 규칙을 제외한 모든 유형의 거버넌스 아티팩트에 대한 논리 구조를 제공하는 카테고리를 작성합니다. 거버넌스 아티팩트를 쉽게 찾고 관리하며 가시성을 제어하기 위해 카테고리에 거버넌스 아티팩트를 그룹화합니다. 해당 의미와 서로에 대한 관계를 기반으로 카테고리를 계층 구조로 구성할 수 있습니다. 카테고리를 작성하려면 다음 단계를 수행하십시오.

  1. Cloud Pak for Data as a Service 서비스 탐색 메뉴에서 거버넌스 > 카테고리를 선택하십시오.
  2. 카테고리 추가 > 새 카테고리를 클릭하십시오.
  3. 이름에 Banking을(를) 입력하십시오.
  4. 작성을 클릭하십시오.

3단계: 프로젝트로 데이터 가져오기

비디오 시청 이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오

샘플 프로젝트에는 프로젝트로 가져오려는 모기지 파일을 포함하는 Db2 Warehouse 인스턴스에 대한 연결이 포함됩니다. 다음 단계를 수행하여 데이터 자산을 가져오십시오.

  1. Cloud Pak for Data 탐색 메뉴에서 프로젝트 > 모든 프로젝트 보기를 선택하십시오.
  2. Data Governance and Privacy 프로젝트를 클릭하십시오.
  3. 새 자산 > 메타데이터 가져오기를 클릭하십시오.
  4. 이름에 Mortgage data - metadata import을(를) 입력하십시오.
  5. 다음을 클릭하여 계속 진행하십시오.
  6. 대상 선택의 경우, 이 프로젝트를 선택하고 다음을 클릭하여 계속하십시오.
  7. 범위 선택의 경우 연결 선택을 클릭하십시오.
    1. 데이터 패브릭 평가판- Db2 Warehouse 연결을 선택하십시오.
    2. AI_MORTGAGE 스키마를 선택하십시오.
    3. 다음 테이블을 선택하십시오.
      • COMMERICIAL_CLIENT
      • CREDIT_SCORE
      • HOUSE_PRICE
      • MORTGAGE_APPLICANTS
      • MORTGAGE_APPLICATION
    4. 선택을 클릭하십시오.
  8. 스케줄을 계속하려면 다음을 클릭하십시오.
  9. 검토를 계속하려면 다음을 클릭하십시오.
  10. 가져오기 요약을 검토하고 작성을 클릭하십시오. 메타데이터 가져오기 작업이 시작됩니다.

단계 4: 가져온 데이터 강화

비디오 시청 이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오

가져온 데이터를 강화하려면 다음 단계를 수행하십시오.

  1. 사이트 이동 경로에서 데이터 거버넌스 프로젝트 이름을 클릭하십시오.
  2. 새 자산 > 메타데이터 강화를 클릭하십시오.
  3. 이름에 Mortgage data - metadata enrichment을(를) 입력하십시오.
  4. 다음을 클릭하여 계속 진행하십시오.
  5. 프로젝트에서 데이터 선택을 클릭하십시오.
    1. 데이터 자산을 선택하십시오.
    2. 다음 자산을 선택하십시오.
      • COMMERICIAL_CLIENT
      • CREDIT_SCORE
      • HOUSE_PRICE
      • MORTGAGE_APPLICANTS
      • MORTGAGE_APPLICATION
  6. 강화 목표를 계속하려면 다음을 클릭하십시오.
  7. 모든 강화 목표를 선택하십시오.
    • 프로파일 데이터
    • 품질 분석
    • 용어 지정
  8. 카테고리 선택을 클릭하십시오.
    1. [미분류]은행을 선택하십시오.
    2. 선택을 클릭하십시오.
  9. 샘플링의 경우 기본을 선택하십시오.
  10. 스케줄을 계속하려면 다음을 클릭하십시오.
  11. 검토를 계속하려면 다음을 클릭하십시오.
  12. 작성을 클릭하십시오.
  13. 표시되는 알림에서 작업 실행을 클릭하여 작업의 세부사항을 보십시오. 알림을 놓치는 경우 다음을 수행하십시오.
    1. 사이트 이동 경로에서 데이터 거버넌스 프로젝트 이름을 클릭하십시오.
    2. 작업 탭을 클릭하십시오.
    3. 작업 세부사항을 보려면 모기지 데이터 - 메타데이터 강화를 클릭하십시오.
  14. 작업을 실행하는 데 몇 분이 소요될 수 있습니다. 로그를 보려면 작업 실행 날짜 및 시간을 클릭하십시오.

5단계: 메타데이터 강화 결과 보기

비디오 시청 이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오

메타데이터 강화 실행이 완료되면 다음 단계를 수행하여 강화된 데이터를 보십시오.

  1. 다시 프로젝트로 이동하려면 사이트 이동 경로에서 Data Governance and Privacy 프로젝트 이름을 클릭하십시오.
  2. 자산 탭을 클릭하십시오.
  3. 모든 자산목록에서 모기지 데이터 - 메타데이터 강화를 클릭하십시오.
  4. 탭을 클릭하십시오.
  5. 목록에서 CREDIT_SCORE 자산의 도시 열을 선택하십시오.
    1. 세부 사항 탭의 측면 패널에서 프로파일링 정보(예: 형식, 도수 분포, 통계)를 볼 수 있습니다.
      • 이 분석(열 분석이라고도 함)은 문자 그대로 데이터의 프로파일을 캡처합니다. 구조화된 프로파일링은 샘플 값, 형식(aka 패턴), 데이터 특성의 감지(길이, 데이터 유형, 최소/최대 등) 및 빈도 분포를 제공합니다.
      • 이름 “CSRidUpdate21”불분명한 열의 경우, 이메일 주소처럼 보이는 샘플 값은 사용자가 해당 열에 포함된 내용을 이해하는 데 도움이 됩니다. "ZIP"이라는 열의 경우, 80%의 5자리 우편번호와 20%의 6자리 캐나다 우편번호를 갖는 도수 분포는 사용자가 이 데이터가 전세계적인 데이터베이스로부터 온다는 것을 알 수 있게 합니다. 프로파일링은 사용자가 데이터를 빠르게 이해할 수 있도록 일관된 정보를 제공합니다.
    2. 측면 패널에서 거버넌스 탭을 클릭하여 데이터 클래스 및 비즈니스 용어 자동 지정을 확인하십시오.
      • 중요한 데이터 요소 찾기, 평가 및 관리는 비즈니스 가치의 잠금 해제, 규정 표준 준수 및 위험 감소에 대한 전제조건입니다. Watson Knowledge Catalog는 사용자가 데이터를 인식하고 선별하는 방법을 반영하는 특허 기술을 사용하여 데이터 선별 프로세스를 자동화하여 데이터 스튜워드의 생산성을 향상시킬 수 있습니다.
      • 이 자동 비즈니스 용어 지정은 비즈니스 의미를 노이즈로부터 데이터 설정 신호에 연결합니다. 의미를 지정하는 이 프로세스는 종종 맵핑 또는 자동 태그 지정과 같은 구문을 사용하여 참조됩니다. 비즈니스 용어를 지정하는 값은 올바른 비즈니스 용어가 있는 데이터를 검색을 사용하여 찾기 쉽고, 데이터 보호 규칙을 사용하여 보호하기 쉽고, 자동화 규칙을 사용하여 특정 데이터 품질 규칙을 트리거하는 것을 더 쉽게 분석할 수 있다는 점입니다.
      • 자동 비즈니스 용어 지정과 마찬가지로, 자동 데이터 클래스 할당(aka 데이터 분류)은 비즈니스 의미 및 가치의 자동 감지를 허용합니다. 자동 데이터 클래스 지정은 실제 데이터 값을 분석하여 최상의 데이터 클래스를 지정하며, 이 결과는 자동 비즈니스 용어 지정 프레임워크에서 사용되는 몇 가지 요소 중 하나입니다.
      • 자동 데이터 클래스 지정은 열 분석으로 알려진 프로파일링과 함께 실행됩니다. IBM은 즉시 사용 가능한 데이터 클래스 중 200개 이상을 제공합니다. 이 범위는 코어 세트(ID, 코드, 텍스트, 수량 등)에서 특정 도메인(신용 카드, 이메일 주소 등)까지의 범위입니다. 일부 예에서, 이러한 데이터 클래스들은 유효한 신용 카드 번호의 구조를 검증하는 것과 같은 데이터의 입증을 제공합니다.
    3. CREDIT_SCORE 자산의 도시 열에서 오버플로우 메뉴를 클릭하고 데이터 품질 보기를 선택하십시오.
      • 엔터프라이즈 규모에서 데이터를 관리하고 신뢰하는 것은 데이터 품질을 분석하기 위한 확장 가능한 프레임워크에 따라 다릅니다. 사전 빌드되거나 사용자 정의된 품질 측정을 사용하면 사용자는 단일 숫자에서 데이터의 특성을 쉽게 이해할 수 있으며 가장 중요한 자산에 대해 조치를 취할 수 있습니다.
      • WKC는 각 열과 데이터 자산에 대한 데이터 품질 점수를 즉시 생성합니다. 데이터 품질 점수는 사전 빌드된 차원에 따라 모든 레코드의 모든 값을 분석하여 모든 데이터 자산 및 열에 대해 계산됩니다. 데이터 자산의 영양 레이블과 같은 이 스코어링에 대해 생각해 보십시오. 데이터 자산의 전체 품질을 캡처하는 표준화된 메트릭 세트입니다. 이 데이터 품질 점수를 사용하여 고객은 신속하게 찾고 가치와 위험을 찾을 수 있습니다.
      • 데이터 품질 점수는 사용자가 데이터 품질 문제를 찾고 진단하고 우선순위를 지정하는 데 도움을 줍니다. 점수는 또한 비즈니스 가치를 식별하고 모니터하는 데 도움이 됩니다. 예를 들어, 내 데이터 품질 점수가 높고 DQ 차원 위반이 거의 발견되지 않는 경우, 데이터 자산이 품질이라고 확신할 수 있습니다. 완료되면 X를 클릭하여 데이터 품질 창을 닫으십시오.
    4. 데이터 품질 창을 닫습니다.
  6. CREDIT_SCORE 자산의 도시 열에서 오버플로우 메뉴를 클릭하고 검토됨으로 표시를 선택하십시오.

6단계: 카탈로그 작성

비디오 시청 이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오

이제 강화된 데이터가 있으므로 데이터 과학자 및 데이터 분석가가 강화된 데이터 자산을 사용할 수 있도록 해당 데이터 자산을 카탈로그에 공개하려고 합니다. Watson Knowledge Catalog Lite 계획을 사용하면 하나의 카탈로그만 작성할 수 있습니다. 이미 카탈로그가 있는 경우 이 단계를 건너뛰십시오. 그렇지 않으면, 다음 단계를 수행하여 강화된 데이터 자산을 저장할 카탈로그를 작성하십시오.

  1. Cloud Pak for Data 탐색 메뉴에서 카탈로그 > 모든 카탈로그 보기를 선택하십시오.
  2. 카탈로그 작성을 클릭하십시오.
  3. 이름의 경우 Mortgage Approval Catalog을(를) 입력하십시오. 선두 또는 후미 공간 없이 표시된 대로 정확하게 카탈로그 이름을 입력하십시오. 카탈로그를 Cloud Object Storage 인스턴스에 연관시키도록 프롬프트되면 목록에서 Cloud Object Storage를 선택하십시오.
  4. 다른 모든 필드에 대해서는 기본값을 채택하십시오.
  5. 작성을 클릭하십시오.

7단계: 카탈로그에 데이터 공개

비디오 시청 이 태스크를 미리 보려면 02:23에서 시작하는 비디오를 시청하십시오

카탈로그에 강화된 데이터 자산을 저장하려면 다음 단계를 수행하십시오.

  1. 프로젝트를 다시 탐색하려면 Cloud Pak for Data 탐색 메뉴에서 프로젝트 > 모든 프로젝트 보기를 선택하십시오.
  2. Data Governance and Privacy 프로젝트를 클릭하십시오.
  3. 자산 탭을 클릭하십시오.
  4. 모든 자산목록에서 모기지 데이터 - 메타데이터 강화를 클릭하십시오.
  5. 목록에서 CREDIT_SCORE 파일을 선택하고 공개를 클릭하십시오.
    1. 대상 카탈로그의 경우 모기지 승인 카탈로그를 선택하십시오.
    2. 태그의 경우 confidential을(를) 입력하고 +(더하기 부호)를 클릭하십시오.
    3. 공개를 클릭하십시오.
  6. 목록에서 남아 있는 네 개의 파일을 선택하고 공개를 클릭하십시오.
    1. 대상 카탈로그의 경우 모기지 승인 카탈로그를 선택하십시오.
    2. 공개를 클릭하십시오.
  7. Cloud Pak for Data 탐색 메뉴에서 카탈로그 > 모든 카탈로그 보기를 선택하십시오.
  8. 모기지 승인 카탈로그를 클릭하십시오.
  9. 5개의 파일이 카탈로그에 추가되었는지 확인하십시오.

다음 단계

이제 데이터 보호 규칙 및 마스킹 플로우를 작성하여 데이터에 대한 액세스를 제어하여 데이터를 보호할 준비가 되었습니다.데이터 보호 학습서를 참조하십시오.

자세히 보기

상위 주제: 데이터 패브릭 학습서