0 / 0
영어 버전 문서로 돌아가기

메타데이터 강화 기본 설정

마지막 업데이트 날짜: 2025년 2월 21일
메타데이터 강화 기본 설정

유용한 메타데이터 강화 결과를 얻으려면 프로젝트의 모든 메타데이터 강화에 대한 기본 설정을 구성하십시오. 기본 설정은 또한 강화 옵션의 일관된 사용을 보장하는 데 도움이 됩니다.

임계값 설정 또는 선택된 용어 지정 메소드의 변경사항은 새 메타데이터 보강 및 설정이 변경된 후 실행되는 보강 작업에 적용됩니다. 범주 세트에 대한 변경사항은 새 보강에만 적용됩니다.

필수 권한
메타데이터 강화 기본 설정을 구성하려면 프로젝트에서 관리자 역할이 있어야 합니다. 모든 프로젝트 협업자가 설정을 볼 수 있습니다.

다음 방법 중 하나로 기본 설정에 액세스할 수 있습니다.

  • 기존 메타데이터 강화 자산 내에서 기본 설정을 클릭하십시오.
  • 프로젝트의 관리 페이지에서 도구 > 메타데이터 강화로 이동하십시오.

필요에 따라 설정을 편집하십시오. 변경사항이 자동 저장됩니다. 일부 설정의 경우 언제든지 시스템 정의 기본값을 복원할 수 있습니다.

다음 기능에 대한 기본 설정을 구성하십시오.

사용자 인터페이스 대신 API를 사용하여 인리치먼트 설정을 작성, 업데이트 또는 검색할 수도 있습니다. API에 대한 링크는 자세히 보기 섹션에 나열되어 있습니다.

프로파일링 및 용어 지정

프로파일링 및 비즈니스 용어 지정에 대한 임계값을 설정하고, 용어 지정에 대한 메소드를 선택하고, 카테고리를 사전 선택하십시오. 언제든지 변경한 임계값 설정에 대한 기본값을 복원할 수 있습니다.

널 입력 가능

열 또는 플랫 파일의 데이터 필드에 값이 없는 경우에는 널 입력 가능합니다.

널 임계값
열 또는 플랫 파일 필드가 널값을 허용하는지 여부를 판별합니다. 열 또는 플랫 파일에 값이 없는 필드가 있는 경우, 찾은 빈 필드의 백분율이 설정 임계값과 비교됩니다. 널 가능성 임계값 이상이면 필드에서 널값을 허용합니다. 데이터 필드에 널값이 없거나 빈도 백분율이 임계값 미만이면 데이터 필드에 값이 있어야 합니다. 기본 설정은 5%입니다.

카디널리티

컬럼의 카디낼리티는 고유하거나 상수이거나 제한되지 않을 수 있습니다. 고유 구별 값의 백분율 및 발견된 가장 자주 사용되는 상수 값의 백분율이 설정된 임계값과 비교됩니다. 카디낼리티 유형은 각각의 백분율이 임계값 백분율 이상인 경우 고유하거나 상수입니다. 그렇지 않은 경우 무제한입니다.

고유성 임계값
데이터 필드에 고유 값이 포함되는지 여부를 판별합니다. 열 또는 플랫 파일은 설정한 임계값 이상의 구별 값이 있는 경우 고유한 것으로 간주됩니다. 기본값은 95%입니다.
상수 임계값
열 또는 플랫 파일에 상수 값이 포함되는지 여부를 판별합니다. 사용자가 설정하는 상수 임계값 이상의 빈도 백분율을 갖는 단일 구별 값을 갖는 경우 필드는 상수인 것으로 판별됩니다. 기본값은 99%입니다.

데이터 클래스 지정

메타데이터 강화에 포함된 데이터 클래스는 프로파일링 중에만 열에 자동으로 지정됩니다. 용어 지정은 데이터 클래스 지정에 영향을 주지 않습니다. 임계값은 지정하거나 제안할 데이터 클래스의 최소 신뢰 레벨을 판별합니다. 지정 임계값은 제안 임계값보다 높아야 합니다.

자동으로 할당된 데이터 클래스에 대해 관련 분류를 자동으로 할당할 수도 있습니다.

데이터 클래스에 대한 분류 할당 옵션을 활성화 또는 비활성화하여 이 동작을 제어할 수 있습니다. 분류 할당를 참조하세요.

지정 임계값

데이터 클래스가 열에 자동으로 지정되는 기준과 일치해야 하는 값의 최소 백분율을 판별합니다. 기본 설정은 75%입니다. 이 설정은 데이터 클래스에 직접 정의된 임계값에 의해 대체될 수 있습니다.

다음 사전 정의된 데이터 클래스에는 기본 임계값 세트가 있습니다.

  • 구/군/시 (50%)
  • 개인 이름 (50%)
  • 이름 (50%)
  • 중간 이름 (50%)
  • 성 (50%)
  • 조직 이름 (60%)

데이터 클래스에 데이터 일치 추가를 참조하십시오.

제안 임계값

데이터 클래스가 열에 대해 제안되는 기준과 일치해야 하는 값의 최소 백분율을 판별합니다. 기본 설정은 25%입니다.

기본 키

기본 키는 하나 이상의 컬럼으로 구성될 수 있으며 테이블의 각 레코드를 고유하게 식별합니다. 각 테이블에는 하나의 기본 키만 있을 수 있습니다.

제안 임계값
기본 키로 제안할 컬럼 또는 컬럼 조합에 대한 최소 신뢰도를 정의합니다. 기본 설정은 80%입니다.

표시 이름

기본 제공 용어집과 보강을 위해 선택한 카테고리의 기존 비즈니스 용어 약어를 기반으로 퍼지 매칭을 사용하여 데이터 자산과 해당 자산에 포함된 열의 의미론적 이름을 소스 이름보다 더 설명적인 대체 이름으로 생성합니다. 이러한 대체 이름은 자동으로 지정되거나 제안될 수 있습니다. 임계값은 표시 이름으로 할당하거나 제안할 의미론적 이름의 최소 신뢰 수준을 결정합니다. 지정 임계값은 제안 임계값보다 높아야 합니다.

지정 임계값
표시 이름이 데이터 자산 또는 열에 자동으로 할당되기 위해 초과해야 하는 신뢰도를 결정합니다. 기본 설정은 90%입니다.
제안 임계값
데이터 자산 또는 열에 대해 표시 이름을 제안하기 위해 초과해야 하는 신뢰도를 결정합니다. 기본 설정은 75%입니다.

AI가 생성한 설명

생성 AI는 전체 데이터 자산 및 데이터 자산이 포함하는 컬럼에 대한 설명을 생성할 수 있습니다. ' granite.8b ' 모델은 에셋과 열의 컨텍스트를 고려하여 의미 있는 설명을 제공합니다. 이러한 설명은 자동으로 지정되거나 제안될 수 있습니다. 임계값은 지정하거나 제안할 설명의 최소 신뢰수준을 결정합니다. 지정 임계값은 제안 임계값보다 높아야 합니다.

지정 임계값
생성된 설명이 데이터 자산 또는 열에 자동으로 할당되기 위해 초과해야 하는 신뢰도를 결정합니다. 기본 설정은 100%입니다.
제안 임계값
데이터 자산 또는 열에 대해 생성된 설명이 제안되기 위해 초과해야 하는 신뢰도를 결정합니다. 기본 설정은 75%입니다.

용어 지정

메타데이터 강화에 포함된 비즈니스 용어(카테고리 선택을 통해)는 자동으로 열에 지정되거나 열에 대해 제안될 수 있습니다. 임계값은 지정하거나 제안할 조건에 대한 최소 신뢰 레벨을 판별합니다. 지정 임계값은 제안 임계값보다 높아야 합니다. 용어 지정은 데이터 클래스 지정에 영향을 주지 않습니다. 데이터 클래스와 연관된 용어가 ML 모델 또는 이름 일치를 통해 열에 지정되는 경우 관련 데이터 클래스도 자동으로 지정되지 않습니다.

자동으로 할당된 용어에 대해 관련 분류를 자동으로 지정할 수도 있습니다.

용어에 대한 분류 할당 옵션을 활성화 또는 비활성화하여 이 동작을 제어할 수 있습니다. 분류 할당를 참조하세요.

지정 임계값

조건이 데이터 자산 또는 열에 자동으로 지정되기 위해 초과해야 하는 일치 값의 백분율을 판별합니다. 기본 설정은 90%입니다.

제안 임계값

데이터 자산 또는 열에 대해 제안할 용어에 대해 초과해야 하는 일치하는 값의 백분율을 판별합니다. 기본 설정은 75%입니다.

: AI 기반 용어 할당이 용어 할당 방법 중 하나로 선택된 경우, 이 임계값을 65%-70% 범위로 낮추는 것을 고려해 보십시오. 그렇지 않으면 이 방법으로 반환된 학기는 일반적으로 신뢰도 점수가 다른 방법의 점수보다 낮기 때문에 학기 할당에 고려되지 않을 수 있습니다.

프로젝트에서 지정 및 제안을 생성하는 데 사용되는 용어 지정 방법을 판별하십시오. 지정 및 제안은 메소드 중 하나가 리턴하는 가장 높은 신뢰도 점수를 기반으로 작성됩니다. 다음 방법 중 하나 이상을 선택하십시오.

  • 기계 학습: 기계 학습 모델은 용어를 지정하는 데 사용됩니다. 각 프로젝트에 대해 이 모델이 프로젝트의 자산으로 훈련되는지 또는 선택한 카탈로그의 자산으로 훈련되는지 여부를 정의할 수 있습니다.

  • 데이터 클래스 기반 할당: 열의 데이터 클래스 지정에 따라 조건이 지정됩니다. 데이터 클래스와 용어 간의 적절한 연결은 여기서 품질 결과에 대한 전제조건입니다.

  • 이름 일치: 용어는 용어와 자산 또는 열의 이름 사이의 유사성을 기반으로 지정됩니다.

  • 인공지능 기반 용어 할당 : 도메인별 비즈니스 용어는 ' slate.30m.semantic-automation.c2c ' 모델을 사용하여 할당 및 제안됩니다. 모델은 자산 및 열의 이름 및 설명을 고려하고 시맨틱적으로 해당 메타데이터와 용어를 일치시킵니다. 따라서 용어가 정확히 일치하지 않는 경우에도 용어를 지정할 수 있습니다.

    Tip: 이 방법의 신뢰도 점수는 일반적으로 다른 방법의 신뢰도 점수보다 낮습니다. 따라서, 제안 임계값을 65%-70% 범위로 낮추면, 용어 할당에 고려되는 용어 할당 방법의 결과로 생성된 AI 기반 용어가 반환됩니다.

기본적으로, 선택된 용어 지정 방법에 의해 리턴되는 신뢰도 점수는 전체 신뢰도 점수에 영향을 미치는 이전 용어 거부를 기반으로 조정됩니다.

용어 거부가 신뢰도 점수에 영향을 주지 않도록 하려면 이 옵션을 사용 안함으로 설정할 수 있습니다.

선택하는 용어 지정 방법에 관계없이 옵션을 사용 또는 사용 안함으로 설정할 수 있습니다. 사용자가 설정하는 훈련 범위는 용어 지정을 위한 모델 및 신뢰도 점수를 조정하기 위한 모델에 적용됩니다.

용어 지정을 테스트하고 평가하는 데 개별 메소드를 사용하십시오 (예: 사용자 정의 데이터 클래스 세트가 많은 경우). 이러한 방법으로 프로젝트에 대한 적절한 임계값 설정을 찾을 수도 있습니다.

자세한 정보는 자동 용어 지정을 참조하십시오.

분류 지정

관련 데이터 클래스 또는 용어가 데이터 자산 또는 열에 자동으로 할당될 때 분류도 할당할지 여부를 결정합니다. 데이터 클래스 및 용어에 대해 개별적으로 구성할 수 있습니다.

2024년 8월 23일 이전에 생성된 프로젝트의 경우 자동 분류 지정은 기본적으로 비활성화되어 있습니다.

카테고리(G)

사용자가 새 메타데이터 인리치먼트를 작성할 때 선택할 수 있는 카테고리 세트를 프로젝트의 용도에 맞는 카테고리로 제한할 수 있습니다. 이 선택사항은 메타데이터 인리치먼트에서 실제로 사용되는 카테고리를 판별하지 않습니다. 프로젝트와 관련된 카테고리를 미리 선택하십시오. 선택된 카테고리는 프로파일링 및 자동 용어 지정에 사용할 수 있는 비즈니스 용어 및 데이터 클래스를 판별합니다. 이 선택사항은 데이터 클래스 또는 용어를 수동으로 지정할 때 사용자의 옵션을 제한하지 않습니다. 수동 지정의 경우 사용자는 액세스 권한이 있는 모든 카테고리에서 데이터 클래스 또는 비즈니스 용어를 선택할 수 있습니다.

중요: 선택할 카테고리는 관리자가 액세스할 수 있는 카테고리로 제한됩니다. 이로 인해 다른 관리자에 대해 다른 카테고리 세트가 생성될 수 있습니다.

이 세트에 대한 모든 변경사항은 새 메타데이터 인리치먼트 및 기존 메타데이터 인리치먼트를 편집할 때 반영됩니다.

고급 프로파일링 설정

이러한 설정은 사용자가 외부 출력 옵션을 사용으로 설정하고 각 개별 실행에 대해 겹쳐쓸 수 있는 경우 고급 데이터 프로파일링에 적용됩니다.

모든 구별 값 또는 가장 자주 사용되는 구별 값의 최대 수가 각 컬럼에 대해 캡처되는지 여부를 판별하십시오. 기본 설정은 1,000개의 가장 자주 사용되는 구별 값을 캡처하는 것입니다.

캡처한 값을 저장할 기본 출력 위치를 설정합니다:

  1. 연결을 선택하십시오.
  2. 선택한 연결에 따라 스키마와 테이블을 선택하거나 카탈로그, 스키마 및 테이블을 선택합니다. 기존 카탈로그, 스키마 및 테이블에서 선택할 수 있습니다. 기존 스키마에서 새 테이블을 만들 수도 있습니다.

출력 대상으로 지원되는 데이터 소스에 대한 정보는 지원되는 데이터 소스출력 테이블 열을 참조하십시오. 스키마 및 테이블 이름은 다음 규칙을 따라야 합니다.

  • 이름의 첫 번째 문자는 영문자여야 합니다.
  • 나머지 이름은 영문자, 숫자 또는 밑줄로 구성될 수 있습니다.
  • 이름은 공백을 포함하지 않아야 합니다.

기본 품질 분석

데이터 품질 임계값을 설정하고 사용자가 메타데이터 강화의 일부로 품질 분석을 실행할 때 적용할 데이터 품질 검사를 선택하십시오.

데이터 품질 임계값
자산에 대한 최소 필수 데이터 품질 점수가 충분하거나 좋은 품질인지 판별합니다. 지정된 임계값 미만의 데이터 품질 점수는 인리치먼트 결과에서 빨간색 점으로 표시됩니다. 지정된 임계값과 같거나 초과하는 데이터 품질 점수는 녹색으로 표시됩니다.
데이터 품질 검사
메타데이터 인리치먼트의 일부로 품질 분석을 실행할 때 적용할 사전 정의된 데이터 품질 검사를 선택하십시오. 하나 이상의 검사를 선택하십시오. 기본 데이터 품질 분석 실행 옵션으로 구성된 메타데이터 인리치먼트의 각 실행은 선택된 검사에 연결된 데이터 품질 차원 점수에 기여합니다. 자세한 정보는 사전 정의된 데이터 품질 검사를 참조하십시오.

데이터 품질 출력

데이터 품질 예외를 저장하기 위한 기본 출력 위치를 설정하고 데이터 품질 검사당 최대 예외 레코드 수를 판별하십시오. 메타데이터 강화 자산에서 데이터베이스 테이블에 데이터 품질 예외를 기록할 수 있어야 합니다.

예외 출력 레코드의 최대 수

각 데이터 품질 검사에 대해 최대한 출력 테이블에 기록되는 열당 문제 수를 판별하십시오. 기본 설정은 100입니다.

출력 위치

데이터 품질 예외를 저장하기 위한 기본 출력 테이블을 설정합니다:

  1. 연결을 선택하십시오.
  2. 선택한 연결에 따라 스키마와 테이블을 선택하거나 예외를 저장할 카탈로그, 스키마 및 테이블을 선택합니다.
  3. 선택 사항으로 문제가 발견된 전체 행을 저장할 테이블을 선택합니다(예외 레코드). 예외 테이블이 생성된 스키마에서 기존 테이블을 선택하거나 해당 스키마에 새 테이블을 만들 수 있습니다.

기존 스키마 및 테이블에서 선택하거나 기존 스키마에서 새 테이블을 작성할 수 있습니다. 출력 대상으로 지원되는 데이터 소스에 대한 정보는 지원되는 데이터 소스출력 테이블 열을 참조하십시오. 스키마 및 테이블 이름은 다음 규칙을 따라야 합니다.

  • 이름의 첫 번째 문자는 영문자여야 합니다.
  • 나머지 이름은 영문자, 숫자 또는 밑줄로 구성될 수 있습니다.
  • 이름은 공백을 포함하지 않아야 합니다.

출력에 대한 새 테이블을 작성하려면 사용 가능한 테이블에서 선택하는 대신 이름을 입력하십시오. 테이블 이름은 특수 문자를 포함하지 않아야 합니다.

품질 문제만 저장하기 위해 다음 열 정의를 사용하여 새 테이블이 작성됩니다.

asset_id VARCHAR(40),
issue_type VARCHAR(64),
column1 VARCHAR(128),
value1 VARCHAR(64),
column2 VARCHAR(128),
value2 VARCHAR(64)

품질 문제 및 예외 레코드를 저장하기 위해 다음 열 정의를 사용하여 품질 문제에 대한 새 테이블이 작성됩니다.

asset_id VARCHAR(40),
issue_type VARCHAR(64),
column VARCHAR(128),
row_id VARCHAR(64)

예외 레코드를 저장하기 위한 새 테이블이 다음 열 정의를 사용하여 작성됩니다.

asset_id VARCHAR(40),
row_id  VARCHAR(64),
row_data CLOB

두 출력 유형 중 하나에 대해 기존 테이블을 선택하는 경우, 선택된 테이블에는 의도한 출력에 적합한 구조가 있어야 합니다.

연결이 잠긴 경우 개인 신임 정보를 입력하도록 요청됩니다. 이는 연결을 영구적으로 잠금 해제하는 일회성 단계입니다.

키 관계

키 관계는 1차 및 외부 키로 구성되며 관계형 데이터베이스에서 두 데이터 자산 간의 관계를 정의합니다.

제안 임계값

제안할 기본 키와 외부 키 사이의 관계에 대한 최소 필수 신뢰도를 정의합니다. 기본 설정은 80%입니다.

이 임계값은 기본 키 관계 분석을 실행할 때 적용됩니다. 심층 키 관계 분석 또는 겹침 분석에는 적용되지 않습니다. 각 개별 실행에 대해 이러한 유형의 분석에 대한 제안 임계값을 설정할 수 있습니다. 관계 식별을 참조하십시오.

관계를 자동으로 할당하려면 자동 할당 옵션을 선택하고 할당 임계값을 설정합니다.

지정 임계값

자동으로 할당될 기본 키와 외래 키 간의 관계에 필요한 최소 신뢰도를 정의합니다. 기본 설정은 90%입니다.

키 관계가 자동으로 할당되면 상위 자산의 해당 기본 키도 자동으로 할당됩니다. 그러나 데이터 자산에는 기본 키가 두 개 이상 할당될 수 없습니다. 따라서 자산에 대해 기본 키가 서로 다른 여러 키 관계가 감지된 경우 하나의 관계만 할당할 수 있습니다. 신뢰도 점수가 가장 높은 관계 후보가 할당됩니다. 이 신뢰도 점수는 기본 키 분석의 신뢰도 점수를 기반으로 계산됩니다. 모든 관계 후보의 신뢰도 점수가 동일한 경우 해당 후보 중 어느 것도 할당되지 않습니다.

이러한 설정은 기본 주요 관계 분석을 실행할 때 적용됩니다. 심층 핵심 관계 분석이나 중복 분석에는 적용되지 않습니다. 이러한 유형의 분석에서는 관계 자동 할당을 활성화하고 각 개별 실행에 대한 할당 임계값을 설정할 수 있습니다. 관계 식별을 참조하십시오.

자세한 정보

상위 주제: 데이터 자산 강화