카탈로그로 데이터를 큐레이트하기 위한 계획

마지막 업데이트 날짜: 2025년 4월 23일
카탈로그로 데이터를 큐레이트하기 위한 계획

큐레이션 프로세스에는 데이터 자산 작성, 데이터 자산에 통제 아티팩트 및 기타 메타데이터 지정, 카탈로그에 데이터 자산 공개, 기본 데이터 또는 비즈니스 어휘 변경으로 자산 메타데이터 업데이트가 포함됩니다. 데이터 스튜워드가 고품질의 풍부한 데이터 자산을 카탈로그에 추가하면 데이터 이용자가 해당 데이터 자산을 찾아 사용할 수 있습니다.

데이터 자산을 개별적으로 큐레이트할 수 있지만 해당 프로세스는 확장 가능하지 않습니다. 데이터 자산 세트를 발견, 작성, 강화 및 공개할 수 있는 Metadata import 및 메타데이터 강화 도구를 사용하여 많은 큐레이션 태스크를 자동화할 수 있습니다.

가능한 많은 데이터 큐레이션을 자동화하려면 다음 태스크를 완료하여 큐레이션 프로젝트를 설정하고, 카탈로그에 큐레이트된 데이터 자산을 추가하고, 메타데이터를 최신 상태로 유지하도록 데이터 자산을 업데이트하십시오.

태스크 필수 여부 빈도
프로젝트 설정 일회성
데이터 소스에 연결 추가 일회성
메타데이터를 가져와서 데이터 자산 작성 반복
메타데이터 및 기타 정보를 사용하여 데이터 자산 강화 반복
엔티티 데이터를 분석하여 데이터의 360도 보기 작성 아니오 반복
데이터 품질 분석 사용자 정의 아니오 반복
카탈로그에 데이터 자산 공개 반복
데이터 자산의 계보 가져오기 아니오 반복

Curate 데이터 주기에는 테이블에 나열된 단계가 포함되어 있습니다.

메타데이터 가져오기 및 메타데이터 강화 자산을 작성할 때 자동으로 실행되도록 스케줄링하거나 요청 시 실행할 수 있습니다. UI에서 또는 API를 사용하여 작업 스케줄을 설정할 수 있습니다. 예를 들어, 특정 시간 및 날짜에 대한 메타데이터 가져오기를 스케줄할 수 있습니다. 그런 다음 메타데이터 가져오기가 완료된 후 동일한 자산이 실행되도록 메타데이터 인리치먼트를 스케줄링할 수 있습니다. 메타데이터 강화가 완료되면 결과를 검토하고 필요한 조정을 수행한 후 데이터 자원에 대한 업데이트를 카탈로그에 공개하십시오.

큐레이션을 위한 프로젝트 설정

프로젝트는 사용자가 공유 목표를 달성하기 위해 데이터에 대해 작업하는 협업 작업 영역입니다.

일관성을 향상시키기 위해 다음과 같은 프로젝트 규칙을 작성할 수 있습니다.

  • 프로젝트 이름: 예를 들어, 목적, 날짜 범위 또는 팀별로 일관된 방식으로 프로젝트를 식별합니다.
  • 프로젝트 요구사항: 프로젝트 Read me 파일에서 외부 시스템의 요구사항 및 태스크에 설명하고 링크하십시오.
  • 연결 이름: 일관된 방식으로 연결을 식별합니다 (예: 데이터 소스, 테이블 이름 또는 용도별로).

데이터 큐레이션 프로젝트에는 일반적으로 데이터 스튜워드에 의해 명시적으로 추가되거나 프로세스의 결과로 작성되는 다음 유형의 항목이 포함됩니다.

  • 큐레이션할 데이터를 포함하는 데이터 소스에 대한 연결 자산
  • 메타데이터 가져오기로 작성된 연결된 데이터 자산
  • Metadata import 자산
  • 메타데이터 강화 자산
  • 데이터 품질 정의 및 규칙 자산
  • 데이터 품질 규칙을 실행하여 작성된 DataStage 플로우 자산
  • 데이터 품질 규칙 출력 테이블을 포함하는 데이터 자산
  • 메타데이터 인리치먼트로 작성된 도수 분포 테이블을 포함하는 데이터 자산
  • 자산을 실행하여 작성되는 작업

프로젝트 작성에 대해 자세히 알아보기

데이터 소스에 연결 추가

데이터 스튜워드가 연결된 데이터 자산을 작성하기 위해 메타데이터를 가져오기 전에 관련 데이터 소스에 대한 연결 자산이 필요합니다. 데이터 소스에는 Db2 같은 데이터베이스 또는 IBM Cloud Object Storage 같은 파일 시스템이 포함될 수 있습니다.

일반적으로 조직은 모든 사용자가 찾아 사용할 수 있도록 Platform assets catalog 에 연결을 추가합니다. 예를 들어, 데이터 엔지니어가 Platform assets catalog에서 연결 자산을 작성하면 모든 사용자가 해당 연결을 프로젝트에 쉽게 추가할 수 있습니다. 또는 프로젝트 내에서 연결을 작성할 수 있습니다.

연결을 작성할 때 연결 신임 정보를 처리하는 방법을 결정해야 합니다. 기본적으로 연결 신임 정보는 공유로 표시되므로 모든 사용자가 동일한 신임 정보를 사용하여 데이터에 액세스할 수 있습니다. 각 사용자가 개인 신임 정보를 입력하도록 하려면 연결을 작성할 때 공유 신임 정보를 사용 안함으로 설정하십시오. 그러나 연결에 개인 신임 정보가 필요한 경우 데이터 스튜워드에 큐레이션에 필요한 모든 연결에 대한 신임 정보가 있는지 확인해야 합니다.

Cloud Pak for Data 는 많은 연결을 지원하지만 모든 연결이 메타데이터 가져오기, 메타데이터 강화 및 데이터 품질 분석을 위해 지원되는 것은 아닙니다.

연결 추가에 대해 자세히 보기

데이터 자산을 작성하기 위해 메타데이터 가져오기

Metadata import 는 지정된 연결에서 데이터 소스에 액세스할 수 있는 모든 테이블 또는 파일을 발견합니다. 테이블 또는 파일의 전체 또는 선택사항에 대해 연결된 데이터 자산을 작성하도록 선택할 수 있습니다. 또한 메타데이터 가져오기 프로세스는 메타데이터 인리치먼트에 대한 입력으로 지정하거나 재실행할 수 있는 메타데이터 가져오기 자산을 작성합니다.

일반적으로 조직은 단일 데이터 소스에 대해 여러 메타데이터 가져오기 자산을 작성합니다. 각 메타데이터 가져오기에는 구조, 스키마 또는 데이터 행에 대한 변경 빈도가 유사한 테이블 또는 파일이 포함되어 있습니다. 그런 다음 각 메타데이터 가져오기를 다른 스케줄로 실행할 수 있습니다. 예를 들어, 다음 특성을 사용하여 메타데이터 가져오기를 작성할 수 있습니다.

  • 매주 실행하도록 스케줄하는 빈번한 업데이트가 있는 테이블에 대한 메타데이터 가져오기입니다.
  • 매월 실행하도록 예약한 업데이트가 자주 발생하지 않는 테이블에 대한 메타데이터 가져오기입니다.
  • 필요할 때 수동으로 실행하는 드문 업데이트가 있는 테이블에 대한 메타데이터 가져오기입니다.

메타데이터 가져오기를 다시 실행하여 데이터 소스에서 다음 유형의 변경사항을 발견하십시오.

  • 추가 또는 제거된 자산
  • 변경된 테이블 스키마
  • 자산 메타데이터에 대한 업데이트 (예: 이름 변경 또는 업데이트된 설명)

메타데이터 가져오기를 다시 실행한 후 메타데이터 강화를 다시 실행하십시오.

메타데이터 가져오기에 대해 자세히 보기

메타데이터 및 기타 정보를 사용하여 데이터 자산 강화

메타데이터 강화는 연결된 데이터 자산에 정보를 추가합니다. 메타데이터 가져오기를 데이터 범위로 설정하여 메타데이터 가져오기로 작성한 모든 테이블 또는 파일에서 메타데이터 강화를 쉽게 실행할 수 있습니다. 메타데이터 강화 프로세스는 재실행할 수 있는 메타데이터 강화 작업도 작성합니다.

일반적으로 조직은 각 메타데이터 가져오기에 대해 메타데이터 강화를 작성합니다. 그런 다음 메타데이터 가져오기 및 메타데이터 강화의 스케줄을 쉽게 동기화할 수 있습니다. 그러나 연결된 단일 데이터 자산 (예: 가상화된 테이블) 에 대한 메타데이터 인리치먼트를 작성할 수 있습니다.

데이터 자산에서 메타데이터 인리치먼트를 실행할 때 선택된 인리치먼트 옵션에 따라 정보가 추가됩니다.

  • 프로파일링 전용: 데이터 클래스 및 통계를 추가하고 기본 키를 제안합니다.
  • 메타데이터 확장: 표시 이름과 설명을 생성합니다.
  • 품질 분석 및 프로파일링: 품질 점수, 데이터 클래스 및 통계를 추가합니다.
  • 학기 할당: 선택한 방법에 따라 학기 및 분류를 할당합니다. 데이터 클래스와의 관계에 기반한 학기 할당은 프로파일링이 필요합니다. 세대별 AI 기반 학기 할당의 경우 메타데이터도 확장해야 합니다. 어떤 경우든 머신 러닝 알고리즘과 이름 매칭을 통해 용어를 할당할 수 있습니다.
  • 관계 생성: 기본 키와 외래 키를 식별하고 자산 간의 관계를 제안합니다.
  • 데이터 품질 모니터링: 데이터 품질이 정의된 데이터 품질 서비스 수준 계약을 준수하는지 확인하고 위반 사항을 보고합니다. 수정 워크플로가 트리거될 수 있습니다.

데이터의 샘플링 크기를 설정하여 정확성과 속도의 균형을 맞출 수 있습니다. 데이터의 샘플링 크기가 클수록 데이터 클래스 및 비즈니스 용어 지정과 데이터 품질 분석이 더 정확하지만 메타데이터 강화 작업은 더 오래 지속됩니다.

데이터 클래스 및 비즈니스 용어를 자동으로 지정하도록 지정할 수 있지만 결과를 검토해야 합니다. 데이터 클래스 및 비즈니스 용어의 정확한 지정이 중요합니다. 그렇지 않으면 민감한 정보가 데이터 보호 규칙에 의해 마스크되거나 보호되지 않을 수 있습니다. 메타데이터 강화를 실행하고 데이터 클래스 및 비즈니스 용어 지정을 조정할수록 자동 지정 알고리즘이 더 정확해집니다.

이러한 상황에서는 적절한 목표를 가지고 메타데이터 보강을 다시 실행하세요:

  • 메타데이터 가져오기를 다시 실행한 후. 예상하는 데이터의 변경사항 수에 따라 가져오기의 전체 데이터 범위에서 메타데이터 강화를 다시 실행하거나 새 테이블 또는 열을 선택하기 위해 새 데이터 또는 변경된 데이터에서만 메타데이터 강화를 다시 실행하십시오. 열의 데이터 값을 변경하면 데이터 품질 점수 또는 데이터 클래스 및 비즈니스 용어 지정에 영향을 줄 수 있습니다.
  • 사용 가능한 데이터 클래스 및 비즈니스 용어를 변경한 후. 데이터 클래스 및 비즈니스 용어의 변경사항은 열에 대한 지정에 영향을 줄 수 있습니다.

메타데이터 강화 작업은 데이터 크기에 따라 상당한 시간이 소요될 수 있습니다. 또한 계정에 청구되는 컴퓨팅 리소스를 이용합니다.

메타데이터 강화에 대해 자세히 보기

엔티티 데이터를 분석하여 데이터의 360도 보기 작성

사용자 및 시스템에 고객 데이터에 대한 전체적이고 신뢰할 수 있는 통합 보기가 있는지 확인하려면 IBM Match 360 을 사용하여 서로 다른 소스의 데이터를 일치 및 통합하고 마스터 데이터라고 하는 데이터의 360도 보기를 설정하십시오.

마스터 데이터의 데이터 모델을 정의한 후 엔터프라이즈에서 데이터 자산을 로드하고 이를 모델에 맵핑하십시오. 그런 다음 조직의 고유 요구사항을 충족하도록 시스템 구성을 시작하십시오. 일치 알고리즘을 구성하고 이를 실행하여 마스터 데이터 엔티티를 작성하십시오. 제공된 통계 및 그래프를 검토하여 일치 결과를 평가하십시오. 결과에 따라 알고리즘을 추가로 조정하고 쌍 검토를 완료하거나 일치하는 가중치 및 임계값을 변경하여 일치하는 결과를 개선할 수 있습니다.

일치 알고리즘을 완료하면 비즈니스 사용자가 마스터 데이터를 검색하고 탐색하여 주요 인사이트를 얻을 수 있습니다. 데이터 스튜워드는 데이터를 편집, 유지보수 및 수정한 후 연결된 데이터로 내보내거나 다른 곳에서 사용할 수 있도록 CSV 형식으로 내보낼 수 있습니다.

엔티티 데이터 분석에 대해 자세히 알아보기

데이터 품질 분석 사용자 정의

데이터 품질 분석을 사용자 정의하기 위해 데이터 품질 규칙을 작성하고 실행합니다. 각 데이터 품질 규칙은 단일 데이터 소스의 데이터 자산 또는 파일의 단일 데이터 자산에 적용됩니다. 데이터 품질 규칙을 다음과 같이 실행합니다. DataStage 흐름은 다음을 필요로 합니다. DataStage 서비스. 와 함께 DataStage, 지원되는 지역에서 데이터 품질 규칙을 실행할 수 있습니다. DataStage as a Service Anywhere 사용하면 원격 엔진을 사용하여 IBM Cloud 외부에서 데이터 품질 규칙을 실행할 수 있습니다. 원격 엔진 설정에 대한 자세한 내용은 DataStage as a Service Anywhere 설명서를 참조하세요.

데이터 품질 규칙 조건을 정의하는 형식 및 방법은 수신하려는 결과의 유형에 따라 다릅니다.

결과 형식 방법
열이 규칙 조건을 준수하는 정도를 리턴합니다. 데이터 품질 정의 하나 이상의 데이터 품질 규칙에서 참조하는 데이터 품질 정의 자산을 작성합니다. 캔버스에서 블록 요소를 배열하거나 자유 양식 편집기에 표현식을 입력하여 규칙 로직을 지정합니다.
규칙 조건에 실패하는 열을 리턴합니다. SQL문 각 데이터 품질 규칙에 SQL문을 입력합니다.

데이터 품질 정의를 포함하는 데이터 품질 규칙을 작성하는 경우 다음 옵션을 사용할 수 있습니다.

  • 데이터 품질 규칙에서 동일한 데이터 품질 정의를 여러 번 재사용하십시오.
  • 데이터 품질 규칙에 여러 데이터 품질 정의를 포함합니다.
  • 데이터 품질 정의를 카탈로그에 공개하고 여러 프로젝트에서 재사용합니다.
  • 데이터를 직접 바인드하는 단순 규칙을 작성하고 선택적으로 바인딩에 대한 결합을 작성하십시오.
  • DataStage 플로우에서 데이터가 사전 처리되고 출력이 DataStage 출력 링크로 라우팅될 수 있는 복잡한 규칙을 작성하십시오.
  • 출력 테이블에 있는 여러 테이블의 데이터를 사용하려면 바인딩에 대한 결합을 작성하십시오.
  • 규칙 변수에 바인드하는 리터럴 값 및 열을 관리하기 위해 프로젝트에서 매개변수 세트를 작성합니다. 또한 매개변수 세트를 카탈로그에 공개하고 여러 프로젝트에서 재사용할 수 있습니다.
  • 평가할 최대 레코드 수 및 샘플링 방법을 설정하십시오.

규칙 결과의 자세한 레코드를 유지보수하기 위해 데이터 품질 규칙 출력을 외부 데이터베이스로 전송하도록 선택할 수 있습니다. 예를 들어, 보고서를 실행하거나 품질 개선을 위해 데이터 관리 팀에 정보를 보낼 수 있습니다.

데이터 품질 분석에 대해 자세히 보기

카탈로그에 데이터 자산 공개

메타데이터 강화 자산 내에서 또는 프로젝트의 자산 탭에서 한 번의 조작으로 여러 강화된 데이터 자산을 카탈로그에 공개할 수 있습니다.

자산 탭과 메타데이터 강화 자산 사이의 주요 차이점은 중복 자산 처리에 있습니다. 다음 표에서는 사용자의 선택사항과 해당 영향을 비교합니다.

공개 메소드 대량 공개? 중복 처리 선택사항 비즈니스 용어 지정
자산 예, 함께 공개할 여러 자산을 선택할 수 있습니다. 원래 자산 업데이트
원래 자산 겹쳐쓰기
중복 허용 (카탈로그 설정에 이 옵션이 포함된 경우)
원래 자산 보존 및 중복 거부
원래 비즈니스 용어 지정을 제거할 수 있습니다.
메타데이터 강화 자산 예, 함께 공개할 여러 자산을 선택할 수 있습니다. 원래 자산 업데이트 새 자산의 비즈니스 용어가 원래 자산에 추가됩니다. 원래 비즈니스 용어 지정이 제거되지 않습니다.

카탈로그에 공개하는 방법에 대해 자세히 알아보기

카탈로그의 데이터 자산에 대한 계보 가져오기

계보란 데이터의 출처, 데이터의 변화, 데이터의 시간 경과에 따른 이동 경로에 대한 정보입니다. 가져와서 보강하고 카탈로그에 게시한 데이터 자산의 계보 정보를 가져올 수 있습니다. 데이터 계보가 활성화되어 있어야 합니다. 계보를 가져오려면 계보 메타데이터 가져오기 옵션을 사용하여 메타데이터 가져오기를 생성합니다. 계보 서비스는 대상 데이터 소스를 스캔하고 데이터 흐름을 분석합니다. 이 계보 메타데이터는 데이터 에셋 및 사용 가능한 경우 변환 스크립트와 함께 가져옵니다.

일반적으로 조직은 메타데이터 가져오기 및 보강을 실행하고 업데이트된 데이터 자산을 게시한 후 메타데이터 가져오기를 다시 실행하여 계보 정보를 캡처합니다.

계보 가져오기에 대해 자세히 알아보기

이전 계획 태스크

다음 계획 태스크

상위 주제: 데이터 통제 구현 계획