데이터 큐레이션
데이터 큐레이션은 프로젝트나 카탈로그에 데이터 자산을 추가하고, 분류, 데이터 클래스와 비즈니스 용어를 지정하여 강화하고, 데이터 품질을 분석하고 개선하는 프로세스입니다.
데이터 선별을 시작하기 전에 다음을 설정해야 합니다. IBM Knowledge Catalog 거버넌스 프레임워크와 선별된 자산을 공유하기 위한 하나 이상의 카탈로그를 갖추도록 합니다(참조: 데이터 거버넌스 구현 계획).
큐레이션은 한 번에 데이터 자산을 큐레이팅하는 대부분의 수동 프로세스일 수 있습니다. 고급 선별은 여러 데이터 자산에 대해 동시에 자동으로 완료되는 많은 선별 태스크가 있는 자동화된 프로세스입니다.
요구사항 및 제한사항
데이터 큐레이션의 경우 다음 요구사항 및 제한사항이 존재합니다.
데이터 큐레이션 도구
다음 도구로 작업합니다.
필수 서비스
데이터 큐레이션이 필요합니다 IBM Knowledge Catalog. 메타데이터 강화의 맥락에서 고급 분석(고급 프로파일링, 심층 키 및 관계 분석)을 하려면 DataStage 서비스도 필요합니다.
데이터 형식
다음 데이터 형식이 지원됩니다.
- 관계형 및 비관계형 데이터 원본의 테이블, Amazon S3 Delta Lake 테이블
- Metadata import: 데이터 소스에 대한 파일 기반 연결의 모든 형식
- 메타데이터 강화: 테이블 형식: CSV, TSV, Avro, Parquet, Microsoft Excel
지원되는 커넥터에 대한 정보는 큐레이션 및 데이터 품질에 대해 지원되는 데이터 소스를 참조하십시오.
데이터 크기
데이터 큐레이션은 모든 크기의 데이터에 대해 작동합니다.
필요 권한
역할에 따라 수행할 수 있는 큐레이션 태스크가 결정됩니다.
- CloudPak Data Steward 역할 또는 최소한 동일한 조치 세트가 있는 사용자 정의 역할이 있어야 합니다. 사전 정의된 역할을 참조하십시오.
- 큐레이션 도구와 연관된 자산에 대해 작업하려면 프로젝트 및 카탈로그에서 특정 역할도 있어야 합니다. 정확한 요구사항은 개별 도구를 참조하십시오.
작업공간
다음 작업공간에서 큐레이션 태스크를 수행할 수 있습니다.
- 프로젝트
- 카탈로그
수행할 큐레이션에 따라, 다른 사용자가 사용하도록 데이터가 준비되기 전에 프로젝트, 카탈로그의 데이터 자산을 작업해야 합니다.
프로젝트는 사용자 조직의 다른 사용자가 데이터를 사용할 수 있도록 카탈로그에 공개하기 전에 보통 데이터를 준비하고 분석하는 협업적인 작업공간입니다. 또한 더 이상 준비하지 않고 공유할 수 있는 경우 카탈로그에 직접 데이터를 추가할 수도 있습니다. 특정 유형의 데이터는 카탈로그에만 추가할 수 있습니다.
큐레이션 태스크
다음 큐레이션 태스크로 귀중한 데이터 자산을 개발할 수 있습니다.
프로젝트나 카탈로그에 데이터 자산 추가:
- 메타데이터 가져오기를 통해 자동으로 하나 또는 여러 데이터 자산별로 수동으로 연결에서 데이터 소스로 자산을 추가합니다. 클라우드 또는 온프레미스에 있는 데이터를 그대로 두고 자산 메타데이터 및 연결 정보를 추가하여 프로젝트 또는 카탈로그 내의 데이터에 액세스하십시오.
- 프로젝트나 카탈로그와 연관된 스토리지에 개별 파일을 업로드하십시오.
- 카탈로그에서 작업할 프로젝트로 자산을 수동으로 추가하십시오.
사용자 데이터 분석 및 강화:
개별 데이터 자산을 프로파일링하여 자산 컨텐츠에 대한 기본 통계를 가져오고 프로젝트 또는 카탈로그 내에서 데이터 클래스를 지정하십시오. 데이터 자산 프로파일링을 참조하십시오.
프로젝트의 메타데이터 인리치먼트를 작성하고 실행합니다. 데이터 자산 강화를 참조하십시오.
- 단일 실행으로 다중 데이터 자산을 프로파일링하여 자동으로 데이터 클래스를 지정하고 데이터 유형과 열 형식을 식별하십시오.
- 단일 실행으로 여러 데이터 세트에 대한 품질 분석을 실행하여 누락된 값 또는 데이터 클래스 위반과 같은 공통 데이터 품질 문제를 스캔합니다.
- 자산에 비즈니스 용어를 자동으로 지정하고 데이터 분류 또는 기계 학습 알고리즘을 기반으로 용어 제안을 생성합니다.
- 프로파일링 통계와 열 간의 이름 유사성을 기반으로 자산과 열 간의 기본 키 및 외래 키, 후보 관계를 제공합니다.
강화 결과를 검토하십시오. 데이터 자산의 품질 점수에 대한 전체 보기는 프로젝트의 메타데이터 강화 자산에서 사용 가능합니다. 품질 점수를 클릭하여 각 데이터 자산 또는 열에 대한 자세한 결과를 볼 수 있습니다. 또는 프로젝트 또는 카탈로그 내에서 자산의 데이터 품질 탭에 있는 정보에 액세스할 수 있습니다.
실제 데이터에 대한 심층 분석 실행: 기본 키 분석, 주요 관계 분석 또는 중복 분석 또는 고급 데이터 프로파일링
데이터 자산의 변경사항을 발견하고 평가하려면 간격으로 가져오기 및 강화 작업을 다시 실행하십시오. 이 작업을 수동으로 수행하거나 가져오기 및 강화 스케줄을 설정할 수 있습니다.
데이터 품질 규칙을 실행하여 데이터 품질을 평가하십시오.
데이터를 세분화하여 프로젝트에서 해당 품질과 유용성을 개선하십시오.
프로젝트에서 카탈로그로 자산을 공개하십시오.
카탈로그 내 데이터 자산을 등급 지정하고 검토하십시오.
태그를 작성하고 카탈로그 내 데이터 자산에 추가하십시오.
분류와 비즈니스 용어를 카탈로그 내 개별 데이터 자산에 추가하십시오.
태스크 | 어디에서 수동으로 수행할 수 있습니까? | 어디에서 자동으로 수행할 수 있습니까? |
---|---|---|
자산 작성 | 프로젝트 카탈로그 |
프로젝트 카탈로그 |
데이터 클래스 지정 | 프로젝트 카탈로그 |
프로젝트 카탈로그 |
분류 지정 | 카탈로그 | — |
비즈니스 용어 지정 | 프로젝트 카탈로그 |
프로젝트 |
데이터 품질 분석 (메타데이터 강화) |
프로젝트 | 프로젝트 |
키, 키 관계 및 중복 데이터 식별 | 프로젝트 | 프로젝트 |
데이터 품질 평가 (규칙) | 프로젝트 | 프로젝트 |
샘플 플로우: 고급 큐레이션
큐레이션 플로우에는 다음 태스크가 있을 수 있습니다.
프로젝트에서 연결에서 프로젝트로 메타데이터의 대량 가져오기를 수행하기 위해 목표 발견 을 사용하여 메타데이터 가져오기를 작성하고 실행하십시오. 일회성 또는 반복 스케줄로 실행되도록 메타데이터 가져오기를 구성할 수도 있습니다.
동일한 프로젝트에서 메타데이터 인리치먼트를 작성하고 실행하여 단일 실행으로 가져온 데이터 자산 세트에 대해 다음 태스크를 완료하십시오.
- 데이터 자산을 프로파일링합니다.
- 데이터 자산에 대한 품질 분석을 실행합니다.
- 가져온 자산에 비즈니스 용어를 자동으로 지정하고 용어 제안을 생성합니다.
- 기본 키와 외래 키를 식별하여 자산과 열 간의 후보 관계를 생성합니다.
메타데이터 강화를 위해 일회성 또는 반복 스케줄을 설정할 수도 있습니다. 인리치먼트 스케줄을 메타데이터 가져오기에 대해 구성된 스케줄과 맞출 수 있습니다.
데이터 자산 및 해당 열에 대한 강화 결과를 검토하십시오.
선택 사항입니다: 메타데이터 보강의 데이터 자산에 대한 추가 분석을 실행합니다.
카탈로그에 강화된 데이터 자산을 공개하십시오.
사용자 인터페이스 대신 API를 사용하여 대부분의 큐레이션 태스크를 수행할 수 있습니다. 각 해당 작업에 대해 IBM Knowledge Catalog API에 대한 링크가 나열되어 있습니다.
자세한 정보
상위 주제: 데이터 준비