0 / 0
영어 버전 문서로 돌아가기

메타데이터 인리치먼트 디자인

마지막 업데이트 날짜: 2025년 3월 14일
메타데이터 인리치먼트 디자인

자산 메타데이터를 보강할 때는 보강할 데이터 자산, 추가할 메타데이터 유형, 보강 작업을 예약할지 여부를 결정해야 합니다.

일반적으로 메타데이터 강화는 더 큰 데이터 큐레이션 계획의 일부입니다. 예를 들어, 데이터 자산에 대한 메타데이터를 가져온 후 가져온 데이터 자산에 비즈니스 메타데이터를 추가하고, 자산 간의 관계를 식별하고, 이러한 자산의 데이터 품질 분석을 실행할 수 있습니다. 마지막으로 완료된 데이터 자원을 카탈로그에 공개하여 조직과 공유할 수 있습니다. 메타데이터 인리치먼트를 디자인하기 전에 전체 큐레이션 계획에 대한 선택사항의 의미를 이해해야 합니다. 큐레이션 계획을 참조하십시오.

프로젝트 설정

작업할 프로젝트를 선택하거나 생성합니다. 민감한 것으로 표시된 프로젝트는 카탈로그에 게시하거나 데이터를 다운로드할 수 없다는 점을 기억하세요. 따라서 강화된 자산을 공유하거나 스프레드시트에서 검토하기 위해 결과를 다운로드하려는 경우에는 적합하지 않습니다.

프로젝트 관리자는 선택한 프로젝트의 모든 메타데이터 강화 기능에 적용되는 기본 강화 설정을 정의합니다. 메타데이터 인리치먼트를 작성하거나 편집할 때 이러한 설정 중 일부를 겹쳐쓸 수 있습니다.

인리치먼트의 범위

일반적으로 메타데이터를 강화할 때 첫 번째 단계는 강화할 데이터를 선택하는 것입니다. 관계형 및 구조화된 데이터 자산을 강화할 수 있습니다.

메타데이터 강화는 프로젝트에서 사용 가능한 자산에서 실행됩니다. 따라서 인리치먼트 결과의 강화된 자산 목록은 다음 경우에 포함된 메타데이터 가져오기 자산의 구성된 범위에 해당하지 않을 수 있습니다.

  • 인리치먼트가 시작되었을 때 Metadata import 가 아직 완료되지 않았습니다.
  • Metadata import 가 자산 세트에 대해 실패했거나 완전히 실패했습니다.

초기 데이터 범위

데이터 자산 목록은 지원되는 형식의 모든 자산을 표시합니다. 관계형 및 구조화된 데이터 자산을 강화할 수 있습니다. 개별 자산을 선택할 수 있지만 메타데이터 가져오기 자산을 선택하여 해당 메타데이터 가져오기에서 전체 데이터 자산 세트를 강화할 수도 있습니다. 그러나 메타데이터 강화에 이미 포함된 데이터 자산 또는 메타데이터 가져오기는 선택할 수 없습니다. 개별 데이터 자산의 경우 자산 이름 위로 마우스를 이동하여 자산이 포함된 메타데이터 인리치먼트를 확인할 수 있습니다.

메타데이터 가져오기 자산은 다음과 같은 경우 선택 범위에서 자동으로 제외됩니다.

  • 여기에는 가져오기 대상으로 카탈로그가 있습니다.

  • 실제 데이터에 대한 액세스를 지원하지 않는 연결에서 실행되었습니다.

    메타데이터 가져오기를 참조하십시오.

    주의: 각 데이터 자산 또는 메타데이터 가져오기는 프로젝트당 하나의 메타데이터 강화에만 포함될 수 있습니다. 다른 인리치먼트 옵션을 사용하여 데이터 자산을 여러 번 강화하려면 별도의 프로젝트에서 이를 수행해야 합니다.

선택한 데이터 자산에 대한 연결이 공유 신임 정보 대신 개인용을 사용하도록 구성된 경우 계속하기 전에 해당 연결을 잠금 해제해야 합니다.

또한 비어 있는 메타데이터 강화 자산을 작성하고 나중에 범위를 설정할 수 있습니다.

인리치먼트의 재실행 범위

인리치먼트를 다시 실행하는 경우, 스케줄되었거나 수동으로 실행되는지 여부에 관계없이 데이터 범위는 초기에 선택된 데이터 범위의 모든 자산 또는 자산의 서브세트일 수 있습니다. 기본 옵션은 이전 실행에서 보강되지 않은 신규 및 수정된 자산 및 자산입니다. 이 옵션을 사용하면 다음과 같이 강화를 위해 자산이 선택됩니다.

  • 인리치먼트의 마지막 실행 후에 추가된 자산
  • 인리치먼트의 마지막 실행 후에 열이 추가되거나 제거된 자산
  • 마지막 인리치먼트 실행 후 자산 또는 열 설명이 변경된 자산
  • 이전 인리치먼트가 실패했거나 취소된 자산

강화는 자산이 신규 또는 수정되었는지 여부에 관계없이 항상 전체 데이터 자산에서 실행됩니다.

작업 실행 로그에는 델타 메타데이터 강화 작업이 실행될 때 제한된 데이터 범위로 구성된 메타데이터 강화의 재실행이 표시됩니다.

인리치먼트 목표

다음과 같은 인리치먼트 목표에서 선택할 수 있습니다.

프로파일 데이터

에셋 콘텐츠에 대한 기본 통계를 생성하고 데이터 클래스를 할당하고 제안합니다.

이 유형의 프로파일링은 빠르지만 도수 분포 및 고유성과 같은 특정 메트릭에 대한 근사치를 작성합니다. 근사값을 사용하지 않고 더 정확한 결과를 얻으려면 선택한 데이터 자산에 대해 고급 프로파일링을 실행하십시오. 고급 데이터 프로파일링을 참조하십시오. 통계에 대한 자세한 정보는 자세한 프로파일링 결과를 참조하십시오.

데이터 클래스는 열에 있는 데이터의 컨텐츠 (예: 구/군/시, 계정 번호 또는 신용 카드 번호) 를 설명합니다. 데이터 클래스를 사용하여 데이터 보호 규칙으로 데이터를 마스크하거나 정책으로 데이터 자산에 대한 액세스를 제한할 수 있습니다. 또한 용어 연계에 해당하는 데이터 클래스가 있는 경우 용어 지정에 기여할 수 있습니다.

데이터 클래스의 신뢰도는 데이터 클래스와 일치하는 널이 아닌 값의 백분율입니다. 지정하거나 제안할 데이터 클래스의 신뢰도 점수는 최소한 설정된 임계값과 같아야 합니다. 데이터 클래스 지정 설정을 참조하십시오. 임계값이 데이터 클래스에 직접 설정된 경우, 이 임계값은 데이터 클래스가 지정될 때 우선합니다. 제안에 대해서는 고려되지 않습니다. 신뢰도 점수 외에도 데이터 클래스의 우선순위가 고려됩니다.

여러 데이터 클래스가 열 레벨에서 발견되고 지정되는 보다 일반적인 ID입니다. 값 레벨에서 보다 구체적인 데이터 클래스를 식별할 수 없는 경우 이러한 데이터 클래스가 지정됩니다. 일반 식별자는 항상 100%의 신뢰도를 가지며 코드, 식별자, 표시기, 수량 및 텍스트와 같은 데이터 클래스를 포함합니다.

단일 열 기본 키는 프로파일링 통계를 기반으로 제안됩니다. 기본 키 및 외부 키 제한조건이 이미 데이터에 정의되어 있고 이 정보가 메타데이터 가져오기에 포함되어 있는 경우 이러한 키가 자동으로 지정됩니다.

인리치먼트 결과에서 실제 데이터가 검사되는 다중 열 기본 키 분석을 실행할 수 있습니다. 자세한 정보는 기본 키 식별을 참조하십시오.

메타데이터 펼치기

데이터 자산과 열에 대한 의미론적 이름과 설명을 생성합니다. 수집된 메타데이터와 사전 정의된 용어집을 기반으로 퍼지 매칭을 사용하고 보강을 위해 선택한 카테고리의 비즈니스 용어 약어와 이름을 비교하여 소스에 존재하는 이름을 확장합니다. 소스의 자산 또는 열 이름을 비즈니스 용어 약어와 일치시킬 수 있는 경우 해당 비즈니스 용어가 표시 이름으로 사용됩니다. 생성형 AI는 확장된 이름, 주변 열, 데이터 자산의 컨텍스트를 기반으로 설명을 제공하는 데 사용됩니다. 이 옵션을 사용하여 종종 매우 기술적인 원래 이름보다 이용하기 쉬운 대체 이름을 제공하십시오. AI 생성 설명은 특히 데이터 소스에서 열 또는 데이터 자산 설명이 누락된 경우 컨텐츠를 이해하는 데 도움이 될 수 있습니다. 지정 및 제안 임계값은 기본 인리치먼트 설정에서 정의됩니다.

용어 및 분류 지정

열과 전체 자산에 비즈니스 용어를 자동으로 할당하거나 수동 할당을 위해 비즈니스 용어를 제안하세요. 이러한 지정 또는 제안은 서비스 세트에 의해 생성됩니다. 자동 용어 지정을 참조하십시오.

프로젝트에 사용 중인 용어 지정 서비스에 따라, 용어 지정에 프로파일링이 필요할 수 있습니다.

또한 자동으로 할당된 용어와 데이터 클래스를 기반으로 데이터 자산과 열에 분류를 할당합니다. 분류 할당은 기본 심화 설정에서 활성화되어 있어야 합니다. 데이터 클래스를 기반으로 한 분류 할당에도 프로파일링이 필요합니다.

기본 품질 분석 실행

데이터 자산의 열에 대해 미리 정의된 데이터 품질 검사를 실행합니다. 적용되는 검사 세트는 인리치먼트 설정에서 정의됩니다. 기본 품질 분석 설정을 참조하십시오. 각 검사는 자산의 전체 데이터 품질 코어에 기여할 수 있습니다. 이 유형의 데이터 품질 분석은 프로파일링과 결합하여만 수행할 수 있습니다. 따라서 데이터 품질을 분석하도록 선택하면 프로파일 데이터 옵션이 자동으로 선택됩니다.

이러한 검사의 출력을 데이터베이스에 기록할지 여부를 선택할 수 있습니다. 기본 설정이 있는 경우 이에 따라 섹션이 채워집니다. 설정을 겹쳐쓸 수 있습니다. 기본 설정이 없는 경우 출력 및 출력 위치를 구성하십시오. 출력 대상으로 지원되는 데이터 소스에 대한 정보는 지원되는 데이터 소스출력 테이블 열을 참조하십시오. 스키마 및 테이블 이름은 다음 규칙을 따라야 합니다.

  • 이름의 첫 번째 문자는 영문자여야 합니다.
  • 나머지 이름은 영문자, 숫자 또는 밑줄로 구성될 수 있습니다.
  • 이름은 공백을 포함하지 않아야 합니다.

문제가 발견된 예외 또는 행 (예외 레코드) 을 기존 테이블에 기록하도록 선택하는 경우 이러한 테이블의 형식이 필수인지 확인하십시오. 데이터 품질 출력을 참조하십시오.

선택한 연결이 잠긴 경우 개인 신임 정보를 입력하도록 요청됩니다. 이는 연결을 영구적으로 잠금 해제하는 일회성 단계입니다.

관계 설정

프로파일링 통계 및 열 사이의 이름 유사성을 사용하여 기본 및 외부 키를 제공하고 자산과 열 사이의 관계를 제안하거나 지정합니다. 키 관계에 대한 기본 인리치먼트 설정이 적용됩니다. 이 유형의 관계 분석에는 프로파일링이 필요합니다.

SLA 규칙으로 데이터 품질 평가

데이터 품질이 정의된 데이터 품질 서비스 수준 계약을 준수하는지 확인합니다. 데이터 품질 SLA 규칙은 데이터 자산 또는 데이터 자산 내의 열에 대한 데이터 품질 임계값을 정의합니다. 이 강화 옵션을 사용하면 메타데이터 강화 내의 데이터 자산이 데이터 품질 SLA 규칙의 선택 기준에 따라 확인됩니다. 데이터 자산 또는 개별 열이 데이터 품질 SLA 규칙의 선택 기준과 일치하는 경우, 해당 데이터 품질은 해당 SLA 규칙에 정의된 품질 임계값과 비교하여 확인됩니다.

이 옵션으로 보강을 실행한 결과, 데이터 품질 SLA 규칙 조건 위반 여부와 관계없이 보강의 각 데이터 자산에 대해 SLA 준수 보고서가 생성됩니다. SLA 준수 보고서는 강화 결과 또는 프로젝트의 자산 데이터 품질 페이지에서 확인할 수 있는 데이터 자산의 품질 정보의 일부입니다.

데이터 품질 SLA 규칙의 구성에 따라 데이터 자산이 이 규칙을 위반하는 경우 데이터 품질 수정 워크플로우가 시작될 수 있습니다.

이 목표를 다른 목표와 결합하는 경우 다음과 같은 고려 사항이 적용됩니다:

  • 프로파일 데이터 목표도 선택한 경우, 프로파일링이 성공적으로 완료된 경우에만 데이터 품질 SLA 평가가 실행됩니다.
  • 용어 및 분류 할당 목표도 선택한 경우, 용어 할당이 성공적으로 완료된 경우에만 데이터 품질 SLA 평가가 실행됩니다. 학기 할당은 데이터 프로파일링이 필요하므로 프로파일링도 성공적으로 완료되어야 합니다.

일반적으로 데이터 품질 SLA 평가가 다른 보강 목표와 결합되는 경우, 평가는 항상 마지막 보강 단계입니다.

데이터 품질 SLA 평가를 유일한 목표로 삼아 메타데이터 보강을 실행할 수 있습니다. 그러나 그 전에 보강 범위에 있는 데이터 자산 또는 열에 용어가 할당되어 있고 데이터 품질 점수가 있는지 확인하세요. 또한 이 경우 재방송의 데이터 범위는 모든 데이터 자산으로 설정해야 합니다.

카테고리 선택

강화 중에 적용할 수 있는 비즈니스 용어 및 데이터 클래스를 판별하려면 카테고리를 선택하십시오. 프로젝트 관리자는 강화를 작성할 때 선택할 카테고리 세트를 제한했을 수 있습니다. 이 제한사항은 강화를 편집할 때 적용되지 않습니다. 어떤 경우에도 최소한 뷰어 역할이 있는 협업자가 있는 카테고리에서만 선택할 수 있습니다.

유스 케이스와 관련된 통제 아티팩트가 있는 카테고리만 선택하십시오.

이 선택사항은 자동 지정 및 제안에만 적용됩니다. 용어 또는 데이터 클래스를 수동으로 지정할 때 액세스 권한이 있는 모든 카테고리에서 선택할 수 있습니다.

선택할 카테고리 세트에 대한 변경사항 또는 실제 카테고리 선택이 다음 강화 실행에 적용됩니다. 그러나 기존 지정은 변경되지 않습니다.

메타데이터 인리치먼트를 실행한 후 선택된 카테고리 중 하나에 대한 액세스가 취소되고 인리치먼트를 변경하지 않은 경우 모든 재실행은 여전히 데이터 클래스 및 용어 지정에 대해 선택된 모든 카테고리를 고려합니다.

샘플링

예를 들어, 성능이나 선별을 목적으로 데이터 자산의 데이터 샘플에 대해 프로파일링이나 키 분석과 같은 특정 유형의 분석을 실행할 수 있습니다.

다음 샘플링 유형 중에서 선택할 수 있습니다.

기본

기본 샘플링은 프로세스 속도를 높이기 위해 가능한 가장 작은 샘플 크기로 작동합니다. 테이블당 1,000개의 행이 분석되고 분류는 열당 가장 자주 사용되는 100개의 값을 기반으로 수행됩니다.

중간

중간 크기의 샘플링은 너무 많은 시간을 소비하지 않고도 상당히 정확한 결과를 제공하기 위해 중간 크기의 샘플 크기로 작동합니다. 테이블당 10 ,000개의 행이 분석되고 컬럼당 가장 자주 사용되는 100개의 값을 기반으로 분류가 수행됩니다.

포괄적

포괄적인 샘플링은 더 정확한 결과를 제공하기 위해 큰 샘플 크기로 작동합니다. 즉, 테이블당 100 ,000개 행이 분석되고 분류는 컬럼당 모든 값을 고려합니다. 그러나 이 방법은 시간 및 자원 집약적입니다.

사용자 정의

샘플링 방법, 샘플 크기 및 분류 기준을 직접 정의하십시오.

  • 순차 표본추출과 무작위 표본추출 중에서 선택합니다. 순차 샘플링을 사용하면 데이터 세트의 첫 번째 행이 순차적으로 선택됩니다. 무작위 샘플링을 사용하면 포함될 행이 무작위로 선택됩니다. 두 방법 모두에서 선택할 최대 행 수는 정의된 샘플 크기에 의해 결정됩니다.

    무작위 샘플링은 이 유형의 샘플링을 지원하는 데이터 소스의 데이터 자산에 대해서만 사용 가능합니다. 자세한 내용은 무작위 샘플링 개념을 참조하세요.

  • 샘플의 최대 크기를 정의하십시오. 고정된 행 수를 설정하거나 분석할 데이터 세트의 행 백분율을 지정할 수 있습니다. 샘플 크기를 백분율 값으로 정의하는 경우 선택적으로 샘플이 포함할 수 있는 최소 및 최대 행 수를 설정할 수 있습니다. 분석할 데이터 세트의 크기를 모르는 경우 이 값을 설정할 수 있습니다. 샘플에 대해 선택된 행의 수 또는 백분율은 지정된 값의 근사치만 가능합니다.

  • 컬럼의 모든 값을 기반으로 데이터 클래스를 지정할지 또는 고려할 값의 수를 지정할 수 있는 컬럼에서 가장 자주 사용되는 값을 기반으로 데이터 클래스를 지정할지 여부를 선택하십시오.

기본, 중간 또는 종합 샘플링이 순차적이며 테이블의 맨 위에서 시작합니다. 샘플링을 억제하려면 무작위 샘플링으로 구성되고 샘플 크기가 100%인 사용자 정의 샘플링을 사용하십시오.

스케줄링 옵션

데이터 범위에 메타데이터 가져오기 자산이 포함된 경우 스케줄 페이지에서 각 메타데이터 가져오기 작업의 구성된 모든 일정에 대한 정보를 제공합니다. 이 정보는 가져오기 스케줄을 사용하여 강화 스케줄을 조정하는 데 도움이 됩니다.

실행 정의

메타데이터 보강이 실행되는 시기를 정의합니다. 이 옵션 중 하나, 하나 또는 둘 다를 선택할 수 있습니다:

작업 작성 후 실행

새로 생성한 메타데이터 보강을 저장할 때 메타데이터 보강을 실행하려면 이 옵션을 선택합니다. 그렇지 않으면 메타데이터 보강 자산은 저장되지만 작업 실행은 시작되지 않습니다.

스케줄 실행

일정에 따라 보강을 실행하려면 이 옵션을 선택합니다. 단일 및 반복 실행을 스케줄할 수 있습니다. 일정의 시작 날짜와 시간을 정의합니다. 단일 실행을 스케줄하는 경우 작업은 지정된 날짜 및 시간에 정확히 한 번 실행됩니다.

반복 실행을 예약하려면 작업 반복과 강화 작업을 실행할 빈도를 선택합니다. 분 단위, 시간 단위 또는 매일을 선택하면 특정 요일을 일정에서 제외할 수 있습니다. 선택 사항으로 작업 일정의 종료 날짜와 시간을 설정할 수 있습니다. 반복 실행의 경우 작업 반복 섹션의 설정에 따라 계산된 타임스탬프에 작업이 처음 실행됩니다.

실행 정의에 관계없이 언제든지 메타데이터 보강 작업의 실행을 수동으로 트리거할 수 있습니다.

프로젝트에 대해 작업 실행 기간이 구성된 경우 메타데이터 강화 작업의 실행은 구성된 시간 프레임으로 제한됩니다. 작업 실행은 요청에 따라, 즉 메타데이터 보강 자산 생성 후 또는 정의된 일정에 따라 시작되지만 시작 날짜와 시간이 실행 창을 벗어나는 경우 즉시 일시 중지되고 다음 작업 실행 창이 열리면 다시 시작됩니다. 장기간 실행되는 메타데이터 보강 작업은 여러 번 일시 중지되었다가 다시 시작될 수 있습니다.

자세한 내용은 보강 작업의 일정 관리를 참조하세요.

자세한 정보

다음 단계

상위 주제: 메타데이터 강화 관리