데이터 거버넌스 사용 사례
많은 기업들은 민감한 데이터를 보호해야 하는 데이터에 대한 액세스를 제공하는 이점에 균형을 맞추기 위해 애쓰고 있습니다. Cloud Pak for Data as a Service 은 데이터가 액세스 가능하고 보호되도록 보장하기 위해 엔터프라이즈에서 데이터 거버넌스를 자동화하는 데 필요한 방법을 제공합니다.
Cloud Pak for Data에서 데이터 거버넌스 솔루션을 구현하는 데 필요한 데이터 패브릭 유스 케이스를 보려면 이 비디오를 보십시오.
이 비디오는 이 문서에 기록된 단계를 수행하는 방법의 대안인 시각적 메소드를 제공합니다.
인증 확인
많은 기업이 다음과 같은 데이터 거버넌스 문제에 직면하고 있습니다.
- 확장 시 데이터 프라이버시 제공
- 조직은 여러 클라우드 플랫폼 및 사내 구축 환경에서 데이터 소스에 있는 데이터에 대한 데이터 개인정보 보호 규정을 준수해야 합니다.
- 고품질 데이터에 액세스
- 조직은 여러 팀에서 고품질의 엔터프라이즈 데이터에 대한 액세스를 제공해야 합니다.
- 전체 고객 프로파일 작성
- 팀은 셀프 서비스 프로세스 및 데이터 관리를 최적화하기 위해 신속하게 규모로 고객의 정확한 보기를 빌드해야 합니다.
- 셀프 서비스 데이터 이용 제공
- 데이터 과학자들과 같은 데이터 소비자들은 자신들이 필요로 하는 데이터를 찾아서 사용하기 위해 애쓰고 있다.
Cloud Pak for Data as a Service를 사용하여 데이터 패브릭을 구현하여 이러한 문제를 해결할 수 있습니다.
예제: 골든 뱅크의 과제
거버넌스 팀이 데이터 거버넌스를 구현하기 때문에 골든 뱅크의 사례를 따르십시오. 골든 뱅크에는 민감한 데이터가 포함된 대량의 고객 및 모기지 데이터가 있습니다. 은행은 데이터의 품질을 보장하고 민감한 데이터를 마스크하며 여러 부서에서 사용할 수 있도록 하려고 합니다.
프로세스
데이터 관리를 구현하는 방법은 조직의 요구에 따라 다릅니다. 선형 또는 반복 방식으로 데이터 통제를 구현할 수 있습니다. 기본 기능 및 사전 정의된 아티팩트에 의존하거나 솔루션을 사용자 정의할 수 있습니다.
데이터 통제를 구현하려면 조직이 다음 프로세스를 따를 수 있습니다.
Cloud Pak for Data as a Service 의 Watson Knowledge Catalog 및 Match 360 서비스는 조직에서 데이터 통제 솔루션을 구현하는 데 필요한 모든 도구 및 프로세스를 제공합니다.
1. 비즈니스 어휘 설정
문제를 해결하기 위해 팀은 데이터를 분류하고 설명하기 위해 메타데이터로 작동하는 통제 아티팩트를 가져오거나 작성하여 비즈니스 어휘를 설정해야 합니다.
- 데이터 개인정보 보호를 자동화하기 전에 팀은 제어할 데이터가 정확하게 식별되는지 확인해야 합니다.
- 데이터 품질을 분석하려면 먼저 데이터의 형식을 식별해야 합니다.
- 데이터를 쉽게 찾을 수 있도록 팀에서 데이터의 내용을 정확하게 설명해야 합니다.
이 프로세스의 첫 번째 단계에서 통제 팀은 사전 정의된 통제 아티팩트의 기초를 빌드하고 조직에 특정한 사용자 정의 통제 아티팩트를 작성할 수 있습니다. 데이터의 형식, 비즈니스 의미, 민감도, 값 범위 및 통제 정책을 설명하는 아티팩트를 작성할 수 있습니다.
당신이 사용할 수 있는 것 | 수행할 수 있는 작업 | 다음 경우에 사용 |
---|---|---|
카테고리 | 사전 정의된 카테고리를 사용하여 통제 아티팩트를 저장하십시오. 카테고리를 작성하여 폴더와 유사한 계층 구조로 통제 아티팩트를 구성하십시오. 카테고리의 아티팩트에 대한 권한을 정의하는 역할과 협업을 추가하십시오. |
사전 정의된 카테고리 이상이 필요합니다. 통제 아티팩트를 소유, 작성자 및 볼 수 있는 사용자를 세분화하여 제어할 수 있습니다. |
워크플로우 | 통제 아티팩트를 작성하거나 검토해야 하는 사용자를 제한하지 않는 기본 워크플로우 구성을 사용하십시오. 통제 아티팩트에 대한 워크플로우를 구성하고 카테고리에 있는 통제 아티팩트의 유형을 작성할 수 있는 사용자를 지정하십시오. |
통제 아티팩트를 작성하는 사용자를 제어하려고 합니다. 초안 통제 아티팩트를 공개하기 전에 검토할 것을 원합니다. |
거버넌스 아티팩트 | 사전 정의된 비즈니스 용어, 데이터 클래스 및 분류를 사용하십시오. 메타데이터로 작동하는 통제 아티팩트를 작성하여 데이터 자산을 보강, 정의 및 제어합니다. |
사용자가 데이터를 이해하는 데 도움이 되도록 자산에 지식 및 의미를 추가하려고 합니다. 데이터 품질 분석을 개선하려고 합니다. |
Knowledge Accelerators | 사전 정의된 통제 아티팩트 세트를 가져와서 데이터 분류, 규정 준수, 셀프 서비스 분석 및 기타 통제 조작을 개선할 수 있습니다. | 비즈니스 문제, 비즈니스 성과, 산업 표준 및 규정을 설명하는 표준 용어가 필요합니다. 사전 작성된 통제 아티팩트를 가져와서 시간을 절약할 수 있습니다. |
예제: 골든 뱅크의 비즈니스 어휘
골든 뱅크의 거버넌스 팀 리더는 팀이 작성할 통제 아티팩트를 보유하기 위해 뱅킹카테고리를 작성하기 시작합니다. 팀 리더는 통제 아티팩트를 작성할 수 있는 권한이 있도록 나머지 거버넌스 팀 구성원을 편집기 역할과 함께 은행 카테고리에 추가합니다. 그런 다음 팀 리더는 다른 팀 구성원이 각 아티팩트 유형을 작성할 책임이 있도록 워크플로우를 구성합니다. 모든 워크플로우에는 팀 리더의 승인 단계가 필요합니다.
한 통제 팀 구성원은 스프레드시트에서 비즈니스 용어 세트를 가져옵니다. 일부 비즈니스 용어는 개인 및 상업용 클라이언트를 구분합니다. 다른 팀 구성원이 상위 상업 클라이언트 목록을 포함하는 참조 데이터 세트인 "다이아몬드 레벨 클라이언트 이름" 을 작성합니다. 세 번째 팀 구성원은 참조 데이터 세트를 기반으로 상위 상업 클라이언트를 식별하기 위해 사용자 정의 데이터 클래스인 "다이아몬드 레벨 클라이언트" 를 작성합니다.
2. 데이터를 보호하기 위한 규칙 정의
프로세스의 다음 단계에서 팀은 데이터를 볼 수 있는 사용자를 제어하여 데이터 개인정보 보호 규정을 준수하도록 규칙을 정의합니다. 팀에서 데이터 보호 규칙을 작성하여 통제된 카탈로그에서 데이터를 보호하는 방법을 정의합니다. 팀은 이러한 데이터 보호 규칙을 사용하여 데이터의 컨텐츠, 형식 또는 의미 또는 데이터에 액세스하는 사용자의 신원을 기반으로 중요한 데이터를 마스크할 수 있습니다.
당신이 사용할 수 있는 것 | 수행할 수 있는 작업 | 다음 경우에 사용 |
---|---|---|
데이터 보호 규칙 | 데이터에 대한 액세스를 거부하거나 데이터 값을 마스킹하거나 데이터 자산에서 행을 필터링하여 통제된 카탈로그에서 무단 액세스로부터 민감한 정보를 보호합니다. 사용자 정의된 세부 단위 레벨에서 통제된 카탈로그의 데이터를 동적으로 일관적으로 마스크합니다. |
통제된 카탈로그에서 데이터 개인정보 보호정책을 자동으로 적용해야 합니다. 개인정보 보호 규정을 준수하는 동안 데이터의 가용성 및 유틸리티를 유지하려고 합니다. |
마스킹 플로우 | 프로덕션 데이터의 사본 또는 서브세트를 추출할 때 고급 형식 보존 데이터 마스킹 기능을 사용합니다. | 데이터 무결성을 유지하는 익명화된 훈련 데이터 및 테스트 세트가 필요합니다. |
정책 및 통제 규칙 | 데이터 보안을 위한 조직의 지침, 규정, 표준 또는 절차에 대해 설명하고 문서화합니다. 통제 정책을 구현하는 데 필요한 동작 또는 조치를 설명합니다. |
데이터를 사용하는 사용자가 데이터 통제 정책을 이해하기를 원합니다. |
예제: 골든 뱅크의 데이터 보호 규칙
모기지 승인에 대한 예측 모델을 작성하기 위해, 골든 뱅크의 데이터 과학자들은 민감한 데이터를 포함하는 데이터 세트에 대한 액세스를 필요로 한다. 예를 들어, 데이터 과학자들은 사회보장번호가 있는 칼럼을 포함하는 모기지 신청자들에 관한 데이터로 테이블에 접근하기를 원한다.
통제 팀 구성원은 사회 보장 번호를 마스크하는 데이터 보호 규칙을 작성합니다. 데이터 자산에 있는 컬럼의 지정된 데이터 클래스가 "US Social Security Number" 이면, 해당 컬럼의 값은 10 X로 대체된다.
통제 팀 구성원은 데이터 보호 규칙을 포함하는 정책을 작성합니다. 정책은 규칙을 구현하는 비즈니스 이유를 설명합니다.
3. 카탈로그에서 공유할 데이터의 큐레이트
데이터는 프로젝트에서 고품질의 데이터 자산을 관리하고 데이터를 필요로 하는 사용자가 이를 찾을 수 있는 카탈로그에 공개합니다. 데이터는 통제 아티팩트를 데이터를 설명하는 메타데이터로 지정하고 시맨틱 검색에 데이터를 알리는 방식으로 데이터 자산을 강화합니다.
당신이 사용할 수 있는 것 | 수행할 수 있는 작업 | 다음 경우에 사용 |
---|---|---|
Metadata import | 데이터 자산을 작성하기 위해 연결과 연관된 데이터에 대한 기술 메타데이터를 자동으로 가져옵니다. | 데이터 소스에서 많은 데이터 자원을 작성해야 합니다. 이전에 가져온 데이터 자산을 새로 고쳐야 합니다. |
메타데이터 강화 | 데이터 클래스를 자동으로 지정하고 데이터 유형 및 열의 형식을 식별하기 위해 단일 실행에서 여러 데이터 자산을 프로파일합니다. 자산에 비즈니스 용어를 자동으로 지정하고 데이터 분류를 기반으로 용어 제안을 생성합니다. 데이터 자산에 대한 변경사항을 발견하고 평가하는 간격으로 가져오기 및 강화 작업을 다시 실행하십시오. |
가져온 많은 데이터 자산을 축소하고 공개해야 합니다. |
데이터 품질 분석 | 단일 실행의 여러 데이터 세트에서 품질 분석을 실행하여 결측값 또는 데이터 클래스 위반과 같은 데이터 품질의 공통 차원을 스캔합니다. 데이터의 컨텐츠 및 구조에 대한 변경사항을 계속 추적하고 변경된 데이터를 반복적으로 분석합니다. |
데이터의 품질이 데이터 분석 또는 모델의 정확성에 영향을 줄 수 있는지 여부를 알아야 합니다. 사용자가 수정할 데이터 세트를 식별해야 합니다. |
마스터 데이터 탐색기 | 마스터 데이터 탐색기를 IBM Match 360, 사용자 및 시스템에서 마스터 데이터 엔티티를 검색, 보기 및 분석할 수 있습니다. 사용자는 마스터 데이터를 사용할 수 있는 공간에서 직접 마스터 데이터를 발견할 수 있습니다. |
사용자 및 시스템에는 데이터의 전체 보기가 필요합니다. 사용자 및 시스템은 마스터 데이터 엔티티를 검색, 보기 및 분석해야 합니다. API를 사용하여 비즈니스 애플리케이션을 신뢰할 수 있는 마스터 데이터에 연결하려고 합니다. |
예제: 골든 뱅크의 데이터 큐레이션 및 통합
통제 팀의 데이터는 프로젝트에서 데이터 자산을 작성하기 위해 메타데이터 가져오기를 시작합니다. 메타데이터를 가져오면, 골든 뱅크에는 "ID" 라는 열이 있는 테이블을 나타내는 두 개의 데이터 자산이 있다. 메타데이터 보강 후에 해당 컬럼은 지정된 메타데이터로 명확히 구별됩니다.
- 하나의 열에는 비즈니스 용어 "상용 클라이언트" 와 "회사 식별자", 데이터 클래스 "다이아몬드 레벨 클라이언트" 가 할당됩니다.
- 다른 열에는 비즈니스 용어 "개인 식별자" 와 "개인용 개인" 및 데이터 클래스 "미국 사회 보장 번호" 가 할당됩니다.
데이터 처리는 전체 데이터 품질 점수가 95% 의 골든 뱅크 임계값을 초과하는지 확인하기 위해 데이터 자산에 대한 데이터 품질 분석을 실행합니다.
골든 뱅크의 데이터 엔지니어는 기업뿐만 아니라 외부 데이터와 신용 점수 데이터를 통해 고객 데이터를 결합하여 엔티티를 분석하고 고객의 통합 보기를 작성합니다. 엔지니어는 마스터 데이터에 자산을 설정하고 추가하고, 데이터 자산 속성을 맵핑하고, 데이터 모델을 공개하며, 조사할 데이터를 준비하기 위해 일치 알고리즘을 실행합니다.
통제 팀 리더는 카탈로그인 "모기지 승인 카탈로그" 를 작성하고 데이터 스튜어드 및 데이터 과학자를 카탈로그 협력자로 추가합니다. 데이터는 프로젝트에서 작성한 데이터 자산을 카탈로그에 공개합니다.
4. 데이터 공유 또는 작업
카탈로그는 팀이 데이터를 이해하고 올바른 데이터를 올바른 사용에 사용할 수 있도록 하는 데 도움이 됩니다. 데이터 과학자 및 기타 유형의 사용자는 기업 액세스 및 데이터 보호 정책을 준수하면서 필요한 데이터를 스스로 활용할 수 있습니다. 카탈로그에서 데이터 자원을 프로젝트에 추가하여 데이터를 준비, 분석 및 모델링하기 위해 협업합니다.
당신이 사용할 수 있는 것 | 수행할 수 있는 작업 | 다음 경우에 사용 |
---|---|---|
Catalogs | 조직의 협력자 간에 공유하도록 자산을 구성하십시오. 사용자가 필요한 사항을 찾을 수 있도록 지원하는 AI 기반 시맨틱 검색 및 권장사항을 활용하십시오. |
사용자는 고품질의 데이터를 쉽게 이해하고, 협업하고, 보강하고, 액세스해야 합니다. 비즈니스 사용자 간에 데이터 및 협업의 가시성을 향상시키려고 합니다. 사용자는 실제 형식이나 위치를 이해하지 않고도 데이터를 보고, 액세스하고, 조작하고, 분석할 필요가 없습니다. 사용자가 자산을 평가하고 검토하여 자산을 향상시키기를 원합니다. |
글로벌 검색 | 액세스 권한이 있는 모든 프로젝트, 카탈로그 및 배치 공간에서 자산을 검색하십시오. 액세스 권한이 있는 카테고리에서 통제 아티팩트를 검색하십시오. |
데이터 또는 다른 유형의 자산 또는 통제 아티팩트를 찾아야 합니다. |
Data Refinery | 데이터를 정리하여 올바르지 않거나, 불완전하거나, 부적절하게 형식화되거나 중복되는 데이터를 수정하거나 제거할 수 있습니다. 열을 필터링, 정렬, 결합 또는 제거하여 데이터를 사용자 정의합니다. |
데이터의 품질 또는 유용성을 향상시켜야 합니다. |
예제: 골든 뱅크의 카탈로그
데이터 과학자는 카탈로그에 필요한 데이터 자산을 찾아서 해당 자산을 프로젝트에 복사합니다. 데이터 과학자들은 그들의 프로젝트에서 데이터를 정제하여 모델 훈련에 대비할 수 있다.
데이터 거버넌스 학습서
Tutorial | 설명 | 학습서에 대한 전문 지식 |
---|---|---|
고품질 데이터 곡선 | 데이터를 보강하고 데이터 품질 분석을 실행하여 고품질 데이터 자산을 작성합니다. | Metadata import 및 메타데이터 보강 도구를 실행하십시오. |
데이터 보호 | Cloud Pak for Data as a Service에서 데이터에 대한 액세스를 제어합니다. | 데이터 보호 규칙을 작성하십시오. |
데이터 이용 | 데이터 찾기, 모양 및 분석 | 카탈로그를 탐색하고 Data Refinery 도구를 실행하십시오. |
가상화된 데이터 | 가상화된 데이터를 보강하고 가상 데이터가 보호되는지 확인합니다. | Watson Query 인터페이스, 프로젝트 및 카탈로그를 사용하여 가상화된 데이터를 관리할 수 있습니다. |
360도 뷰 구성 | 고객의 통합된 보기를 작성하기 위해 데이터를 설정, 맵핑 및 모델링합니다. | Match 360 끌어서 놓기 인터페이스를 사용하여 통합 보기를 구성하십시오. |
데이터 거버넌스에 대해 자세히 알아보기
상위 주제: 데이터 패브릭 솔루션 개요