데이터 거버넌스는 자산 메타데이터를 기반으로 데이터 자산을 추적하고 제어하는 프로세스입니다. 카탈로그는 통제된 자산에 대한 제어된 액세스를 제공하는 작업공간입니다.
- 필요한 서비스
- IBM Knowledge Catalog
카탈로그에는 자산 및 협업자가 포함되어 있습니다. 협업자는 카탈로그에 자산을 추가하는 사람과 자산을 사용해야 하는 사람입니다. 카탈로그에서 데이터 자산을 강화하고 제어하도록 데이터 거버넌스를 사용자 정의할 수 있습니다.
거버넌스에 대해 자세히 알아보거나 카탈로그 및 거버넌스를 시작하십시오.
데이터 거버넌스 접근 방식
반복적인 방식으로 데이터 거버넌스를 설정할 수 있습니다. 사전 정의된 아티팩트 및 기본 기능에 의존하는 데이터 통제의 단순 구현으로 시작할 수 있습니다. 그런 다음, 요구사항이 변경됨에 따라 데이터 거버넌스 프레임워크를 사용자 정의하여 데이터 자산을 보다 잘 설명하고 보호할 수 있습니다.
데이터를 통제하는 데 사용할 수 있는 도구를 보려면 도구 및 서비스 맵을 열고 태스크 섹션에서 통제 를 클릭하십시오.
데이터 거버넌스의 가장 단순한 구현
카탈로그를 사용하여 조직 전체에서 자산을 공유합니다. 카탈로그는 기계 학습 모델에서 기능 (입력) 으로 사용되는 열이 있는 데이터 세트를 포함하여 기능 저장소 역할을 할 수 있습니다. IBM Knowledge Catalog 관리자가 자산을 공유하기 위한 카탈로그를 작성하고 데이터 엔지니어, 데이터 과학자 및 비즈니스 분석가를 협업자로 추가합니다. 카탈로그 협업자는 프로젝트에 복사하여 카탈로그 자산에 대해 작업할 수 있으며 프로젝트에서 작성하는 자산을 카탈로그에 공개할 수 있습니다.
카탈로그 협업자는 카탈로그에 자산을 추가하여 다른 사용자와 공유하거나 다음 방법으로 자산을 찾아 사용할 수 있습니다.
- 데이터 엔지니어는 프로젝트에서 정리된 데이터, 가상화된 데이터 및 통합 데이터 자산을 작성한 후 자산을 카탈로그에 공개합니다.
- 데이터 엔지니어는 데이터 소스에서 카탈로그로 테이블 또는 파일을 가져옵니다.
- 데이터 과학자 및 비즈니스 분석가는 카탈로그에서 데이터 자산을 찾은 후 프로젝트에 자산을 추가하여 데이터에 대해 작업합니다.
데이터 자산은 다음과 같은 방식으로 시간 경과에 따라 메타데이터를 누적합니다.
- 데이터 자산이 프로파일링되며, 이는 데이터의 형식을 설명하는 사전 정의된 데이터 클래스를 자동으로 지정합니다.
- 카탈로그 협업자는 자산에 태그, 사전 정의된 비즈니스 용어, 데이터 클래스, 분류, 관계 및 등급을 추가합니다.
- 자산에 대한 모든 조치는 자산 내력에 자동으로 저장됩니다.
카탈로그 작성을 참조하십시오.
데이터 거버넌스를 위한 사용자 정의 옵션
언제든지 데이터 관리 구현에 사용자 정의 옵션을 추가하거나 업데이트할 수 있습니다. 통제 팀은 비즈니스 어휘를 설정하고 어휘를 사용하여 데이터를 가져오고 강화하며 데이터 품질을 분석하고 데이터를 보호하기 위한 규칙을 정의한 후 데이터 이용자가 찾을 수 있는 카탈로그에 데이터 자산을 공개할 수 있습니다. 데이터가 변경되면 테이블 또는 파일에 대한 메타데이터를 다시 가져오고 비즈니스 어휘 및 데이터 품질 분석을 사용하여 데이터 자산을 강화할 수 있습니다. 비즈니스 어휘를 확장할 때 데이터를 보호하기 위해 점점 더 정확한 규칙을 작성할 수 있습니다. 데이터 거버넌스 주기 동안 데이터 과학자 및 기타 데이터 이용자는 카탈로그에서 신뢰할 수 있는 데이터를 찾을 수 있습니다. 다음 그림은 비즈니스 어휘의 변경사항 및 데이터의 변경사항을 반영하기 위해 데이터 자산에 대한 메타데이터를 새로 고치는 지속적인 주기인 데이터 통제 방법을 보여줍니다.
비즈니스 어휘 설정
- 통제 팀은 비즈니스 용어를 사용하여 데이터의 의미를 설명하고 데이터 클래스를 사용하여 데이터의 형식을 설명하는 비즈니스 어휘를 설정할 수 있습니다. 비즈니스 어휘를 사용하면 비즈니스 사용자가 기술적이지 않은 용어를 사용하여 원하는 내용을 보다 쉽게 찾을 수 있습니다.
- 팀은 기존 비즈니스 어휘를 가져오거나 수십-수천 개의 통제 아티팩트를 제공하는 Knowledge Accelerators 를 가져와서 비즈니스 어휘를 빠르게 설정할 수 있습니다.
- IBM Knowledge Catalog 관리자는 통제 아티팩트의 워크플로우, 조직, 특성 및 관계를 사용자 정의할 수 있습니다.
통제 프레임워크 구현 계획을 참조하십시오.
비즈니스 어휘를 사용하여 데이터 자산 가져오기 및 강화
- 데이터 스튜워드는 정기적으로 데이터 소스의 테이블 또는 파일에 대한 변경사항으로 카탈로그를 업데이트하고 적절한 비즈니스 용어 및 데이터 클래스를 자동으로 지정하는 메타데이터 가져오기 및 강화 작업을 실행할 수 있습니다.
- 팀이 통제 아티팩트를 추가할 때 메타데이터 강화 작업은 새 데이터 자산 또는 업데이트된 데이터 자산에 새 아티팩트를 제안합니다.
- 데이터 스튜워드가 메타데이터 강화 중에 비즈니스 용어 지정을 확인하거나 조정할 때 용어 지정을 위한 기계 학습 알고리즘이 데이터에 대해 더 정확해집니다.
- 데이터 스튜워드는 변경사항이 발견되는 경우에만 실행되도록 메타데이터 가져오기 및 인리치먼트를 구성할 수 있습니다.
- 설명이 포함된 자산 및 열 이름을 생성하고, 자산 및 열에 대한 의미 있는 설명을 생성하고, 비즈니스 용어를 할당하는 데 세대별 AI 기반 강화 기능을 사용할 수 있습니다.
카탈로그에서 공유할 데이터 자산 계획을 참조하십시오.
데이터 품질 분석
- 데이터 스튜워드는 메타데이터 강화 중에 기본 설정으로 데이터 품질을 분석할 수 있습니다. 데이터 품질 분석은 각 자산 전체 및 테이블의 열에 적용됩니다.
- 데이터 스튜워드는 사용자 정의 데이터 품질 정의를 작성하여 데이터 품질 규칙에 적용하거나 SQL 기반 데이터 품질 규칙을 적용할 수 있습니다.
카탈로그에서 공유할 데이터 자산 계획을 참조하십시오.
규칙을 사용하여 데이터 보호
- 통제 팀은 조직의 표준과 데이터 보호 및 관리 가이드라인을 문서화하는 정책을 작성하여 데이터 보호 규칙에 대한 계획을 작성할 수 있습니다. 예를 들어, 정책은 특정 규정 및 데이터 보호 규칙이 해당 규정을 준수하는지 확인하는 방법을 설명할 수 있습니다.
- 통제 팀은 개인 정보를 개인용으로 유지하는 방법을 정의하는 데이터 보호 규칙을 작성할 수 있습니다. 데이터 보호 규칙은 사용자가 플랫폼의 통제된 카탈로그에 있는 데이터 자산에 액세스하려고 시도할 때마다 자동으로 적용에 대해 평가됩니다. 데이터 보호 규칙은 데이터에 대한 액세스를 제어하거나 민감한 값을 마스크하거나 데이터 자산에서 행을 필터링하는 방법을 정의할 수 있습니다.
- 팀은 사용자 정의 태그, 사용자 또는 사전 정의된 데이터 클래스, 비즈니스 용어 및 분류를 기반으로 하는 데이터 보호 규칙으로 시작할 수 있습니다. 통제 팀이 통제 아티팩트를 추가할 때 팀은 비즈니스 어휘를 기반으로 데이터 보호 규칙을 정의할 수 있습니다.
- 데이터 엔지니어는 가상화된 데이터에 대한 데이터 보호 규칙을 적용할 수 있습니다.
- 데이터 엔지니어는 마스킹 플로우를 사용하여 데이터 자산의 데이터를 영구적으로 마스킹할 수 있습니다.
규칙으로 데이터 보호 계획을 참조하십시오.
IBM Knowledge Catalog 시작하기
IBM Knowledge Catalog 를 시작하기 위한 태스크는 사용자의 목표에 따라 다릅니다. 수행할 수 있는 조치는 Cloud Pak for Data 서비스 액세스 역할에 의해 정의됩니다. 일부 조치에는 카탈로그 또는 카테고리의 협업자와 같은 작업공간 역할 요구사항도 있습니다.
서비스 액세스 역할을 확인하려면 IBM Cloud 계정 및 서비스 액세스 역할 판별을 참조하십시오. IBM Knowledge Catalog 역할을 이해하려면 사용자 역할 및 권한을 참조하십시오.
다음 표는 공통 목표, 필수 Cloud Pak for Data 서비스 액세스 역할 및 시작하기 위한 정보 링크를 표시합니다.
목표 | 필수 Cloud Pak for Data 서비스 액세스 역할 | 기타 정보 |
---|---|---|
IBM Knowledge Catalog 설정 또는 관리 | 관리자 | 데이터 거버넌스 구현 계획 IBM Knowledge Catalog설정 IBM Knowledge Catalog |
카탈로그에서 자산 또는 기능 찾기 | 임의의 역할 | 카탈로그에서 자산 찾기 플랫폼에서 자산 검색 프로젝트에 카탈로그 자산 추가 |
데이터 큐레이팅 | CloudPak Data Steward 또는 CloudPak Data Engineer |
데이터 큐레이팅 데이터 큐레이팅 계획 |
데이터 품질 관리 | CloudPak Data Steward 또는 CloudPak Data Engineer |
데이터 품질 관리 |
거버넌스 아티팩트 작성 | CloudPak Data Steward 또는 CloudPak Data Engineer |
통제 아티팩트 관리 Knowledge Accelerators 통제 프레임워크 구현 계획 |
데이터 보호 규칙 작성 | CloudPak Data Steward 또는 CloudPak Data Engineer |
데이터 보호 규칙 규칙으로 데이터 보호 계획 |
IBM Knowledge Catalog API 실행 | UI에서 태스크를 수행하는 동일한 역할입니다. | - IBM Knowledge Catalog API |
IBM Knowledge Catalog 에서 보고서 생성 | 보고 관리자 | 보고 설정 |