자동 용어 지정은 메타데이터 강화의 일부로 비즈니스 용어를 데이터 자산 및 자산 열에 자동으로 맵핑하는 프로세스입니다.
자동으로 지정된 비즈니스 용어 이외에, 프로젝트 또는 카탈로그에서 데이터 자산 특성을 편집하거나 인리치먼트 결과에 대해 작업할 때 용어를 수동으로 지정할 수도 있습니다.
자동 용어 지정이 메타데이터 인리치먼트의 일부로 구성된 경우 이러한 지정은 여러 메소드에 의해 생성됩니다. 이 메소드는 지정할 용어에 대한 제안도 생성합니다.
신뢰수준에 따라 용어가 지정됩니다. 처음에는 이러한 연관이 도메인 전문가 및 스튜어드가 수동으로 검토하고 지정할 수 있는 후보로 표시됩니다. 지정되거나 제안된 용어에 대한 신뢰도는 백분율 값으로 표시됩니다. 이 값은 전체 신뢰도를 나타냅니다. 전체 신뢰도 계산 방법을 참조하십시오. 용어가 제안되거나 자동으로 지정될 때의 신뢰수준은 프로젝트의 강화 설정에 의해 결정됩니다. 초과되는 기본 신뢰도는 용어 제안의 경우 75%, 후보 항 자동 지정의 경우 90%입니다. 기본 인리치먼트 설정을 참조하십시오. 프로젝트 관리자는 이러한 설정을 사용자 정의할 수 있습니다.
공개된 비즈니스 용어만 지정할 수 있습니다. 지정된 용어는 데이터 클래스 지정에 영향을 주지 않습니다.
용어 지정 품질
고품질의 용어 지정을 수행하려면 다음 팁을 고려하십시오.
메타데이터 인리치먼트에서 사용할 카테고리에 관련 통제 아티팩트만 포함되어 있는지 확인하십시오. 비즈니스 어휘를 설정할 때 이를 이미 고려할 수 있습니다.
조건 지정 임계값으로 실험하십시오. 임계값을 변경하면 지정된 용어의 수에 큰 영향을 미칠 수 있습니다. 거짓 긍정 (false positive) 수가 낮고 누락된 참 긍정 (true positive) 수가 너무 많지 않은 임계값을 찾으십시오.
일부 거짓 긍정 (false positive) 을 분석하여 패턴 또는 이러한 용어가 제안되거나 지정된 올바른 이유를 찾으십시오. 대부분의 거짓 긍정 (false positive) 이 특정 알고리즘에 기인할 수 있는 경우 인리치먼트 설정에서 해당 알고리즘을 사용 안함으로 설정하고 용어 지정을 다시 실행하십시오. 이것이 거짓 긍정 (false positive) 의 수를 줄이는지 여부를 확인하십시오.
신중하게 검토된 용어 지정만 공개하는 카탈로그에서 ML 모델을 훈련해야 합니다. 모델 훈련에 하나의 카탈로그를 전용으로 사용하는 것이 좋습니다.
열 데이터 또는 메타데이터를 기반으로 하는 용어 지정의 경우 용어와 데이터 클래스 간의 관계를 작성하십시오. 사용하는 데이터 클래스가 거짓 긍정 (false positive) 을 생성하지 않는지 확인하십시오.
용어 지정 방법
사용 가능한 용어 지정 방법의 전체 또는 서브세트를 사용할 수 있습니다.
이름 일치
이름 일치 메소드의 결과는 용어 이름 또는 약어와 데이터 자산 또는 열의 이름 사이의 유사성을 기반으로 합니다. 예를 들어, CREDNUM 열은 두 이름 간의 유사성으로 인해 Credit Card Number라는 용어와 연관될 수 있습니다. 이름 일치는 데이터 자산 및 열 이름만 용어 이름 및 약어와 일치합니다. 설명은 고려되지 않습니다. ML 기반 용어 지정은 이름 및 설명을 처리합니다.
데이터 클래스 지정 기반
클래스 기반 지정 메소드는 데이터 분류를 기반으로 지정을 생성합니다. 데이터 클래스가 열 분석의 결과로 또는 수동으로 자산 열에 대해 선택된 경우 및 이 데이터 클래스가 하나 이상의 비즈니스 용어에 링크된 경우, 이러한 용어는 각각의 임계값을 초과하는 경우에 제안되거나 지정됩니다. 조건 신뢰수준은 조건이 링크된 데이터 클래스의 신뢰도와 동일합니다. 예를 들어, 이메일 주소로 분류된 COL1 열은 데이터 클래스 및 용어가 링크된 경우 이메일 주소라는 용어에 지정될 수 있습니다. 열 이름과 용어 사이에 유사성이 없기 때문에 이름 일치 메소드는 이 연관을 작성할 수 없습니다.
클래스 기반 지정 메소드를 사용하려면 적절한 연계가 고품질 결과를 위한 중요한 전제조건이므로 용어 지정을 실행하기 전에 데이터 클래스 대 용어 연계를 검토하는 것이 중요합니다.
머신 러닝
용어 지정을 생성하기 위한 기계 학습 (ML) 방법은 기본 제공되는 감독되는 기계 학습 모델을 사용합니다. 이러한 모델은 용어 지정에 대한 모델과 용어 제거에 대한 모델로 구성됩니다.
ML 모델은 공개된 용어 및 프로젝트 또는 카탈로그의 훈련 데이터에 있는 용어 지정을 기반으로 훈련됩니다. 기계 학습 모델에 대한 훈련 데이터를 참조하십시오. 사용 가능한 용어 지정이 없는 경우, 용어 지정 모델에 대한 훈련은 용어 및 데이터 자산 또는 열의 이름 및 설명에 있는 단어의 언어적 유사성에 초점을 맞춥니다. 해당 유사성에 따라 용어를 지정할 수 있습니다. 검토된 지정의 수가 증가함에 따라, 유사한 특성을 갖는 컬럼에 대한 용어 지정이 사용 가능하게 되기 때문에 언어적 유사성과 무관하게 용어를 지정할 수 있습니다.
시맨틱 용어 지정
이 방법은 도메인별 비즈니스 용어를 할당하고 제안하기 위해 미세 조정된 IBM Slate 기반 모델을 사용합니다. 모델은 자산 및 열의 이름 및 설명을 고려하며 시맨틱적으로 해당 메타데이터와 용어가 일치합니다. 따라서 용어가 정확히 일치하지 않는 경우에도 용어를 지정할 수 있습니다.
거부된 용어
메타데이터 강화 결과에서 용어 지정을 검토할 때 데이터 자산에 대해 정확하지 않다고 생각하는 용어를 찾을 수 있습니다. 이러한 용어를 제거하여 부정적인 피드백을 제공할 수 있습니다. 이러한 용어는 거부된 것으로 간주됩니다. 훈련 범위가 프로젝트인 경우 자동 용어 지정을 다시 실행할 때 거부된 용어를 기반으로 용어 지정의 신뢰도 점수를 조정할 수 있습니다. 선택된 각 용어 지정 방법에 의해 리턴되는 개별 신뢰도 값은 용어의 전체 신뢰도 점수를 계산하기 위해 이 음수 신뢰도 값으로 조정됩니다. 전체 신뢰도 점수 계산 방법을 참조하십시오.
기계 학습 모델에 대한 훈련 데이터
각 프로젝트에 대해 자동 용어 지정에 사용되는 내장 ML 모델이 프로젝트의 자산 또는 선택한 카탈로그의 자산으로 훈련되는지 여부를 기본 인리치먼트 설정에서 정의할 수 있습니다. 거부를 기반으로 신뢰도 점수를 조정하는 것은 훈련 범위가 프로젝트인 경우에만 사용 가능합니다.
기본 설정은 프로젝트 내에서 모델을 훈련하는 것입니다. 이 경우, 모델은 프로젝트에서 검토됨으로 표시된 열에서 공개된 비즈니스 용어 및 사용 가능한 용어 지정 또는 거부로 훈련됩니다.
카탈로그를 훈련 범위로 선택하면 용어 지정에 대한 모델이 선택된 카탈로그에서 사용 가능한 공개된 비즈니스 용어 및 용어 지정으로 훈련됩니다. 용어 거부에 대한 모델은 카탈로그의 자산으로 훈련될 수 없습니다.
모델은 언제 훈련됩니까?
메타데이터 강화 작업이 시작되고 다음 조건 중 하나가 true인 경우 내장 ML 모델에 대한 모델 훈련이 트리거됩니다.
아직 사용 가능한 모델이 없습니다.
새 비즈니스 용어가 작성되었거나 모델이 마지막으로 훈련된 이후 기존 용어가 업데이트되었습니다. 이 용어는 자산 또는 열에 지정할 필요가 없습니다.
훈련 범위 프로젝트: 모델이 마지막으로 훈련된 이후에 21개이상의 열이 검토됨으로 표시되었습니다.
훈련 범위 카탈로그: 모델이 마지막으로 훈련된 이후 용어가 지정되거나 제거되었으므로 선택된 카탈로그의 최소 21개열에 대한 지정이 변경되었습니다.
마지막 교육이 성공적으로 완료되지 않았거나 적절한 기간 내에 완료되지 않았습니다.
신뢰-점수 조정을 위해 모델을 처음 사용할 때 항 거부에 대한 정보를 사용할 수 없는 경우 이 모델에 대한 초기 훈련이 나중에 발생합니다. 즉, 거부된 항에 대한 정보가 후속 모델 훈련 주기에서 사용 가능할 때 초기에 훈련됩니다.
전체 신뢰도가 어떻게 계산되는지
용어를 데이터 자산과 연관시키는 메소드는 신뢰도를 계산합니다. 신뢰도는 구성 가능한 최소값과 1사이의 숫자 값입니다. 최소값은 기본 인리치먼트 설정에서 구성할 수 있는 조건 지정에 대한 제안 임계값 에 의해 정의됩니다.
지정되거나 제안된 용어에 대한 신뢰도는 백분율 값으로 표시됩니다. 이 값은 전체 신뢰도를 나타냅니다. 전체 신뢰도는 선택된 항 지정 방법에서 리턴되는 신뢰도 값의 최대값이며 ML 모델에서 항 제거에 대해 리턴되는 음수 신뢰도 값으로 조정될 수 있습니다.
선택한 조건 지정 방법으로 리턴되는 신뢰도 값이 이전에 거부된 비즈니스 조건을 기반으로 조정되는지 여부를 선택할 수 있습니다.
예:
모든 메소드가 사용 가능하다고 가정하면 ADDRESS열 및 용어 홈 주소에 대한 신뢰도 값은 다음과 같습니다.
Name matching: 0.5
Class-based assignment: 0.4
ML-based assignment: 0.3
Semantic assignment: 0.5
ML model for rejections: -0.4
각 메소드의 실제 신뢰도 값은 거부된 용어에 대해 리턴된 신뢰도 값을 빼서 계산됩니다.
Name matching: 0.5 - 0.4 = 0.1
Class-based assignment: 0.4 - 0.4 = 0
ML-based assignment: 0.3 - 0.4 = -0.1
Semantic assignment: 0.5 - 0.4 = 0.1
전체 신뢰도는 메소드에 대해 계산된 최고값이므로 0.1 입니다.
조건에 대해 동일한 신뢰도 값이 여러 방법에 대해 계산되는 경우 하나만 자동으로 지정됩니다. 이러한 용어가 선택되는 순서는 다음과 같습니다.
- 데이터 클래스 기반 지정 메소드에서 찾은 용어
- 시맨틱 용어 지정 메소드에서 찾은 용어
- ML 방법으로 찾은 용어
- 이름 일치 메소드에서 찾은 용어
새 분석 결과가 기존 용어 지정을 업데이트하는 방법
강화를 재실행할 때 새 분석 결과는 다음과 같이 용어 지정을 업데이트합니다.
조건 지정 유형 | 데이터 자산 또는 열이 검토됨 | 데이터 자산 또는 열이 검토되지 않음 |
---|---|---|
수동으로 지정된 용어 | 용어는 변경되지 않습니다. | 용어는 변경되지 않습니다. |
거부된 용어 | 용어는 변경되지 않습니다. | 용어는 변경되지 않습니다. |
제안된 용어 | 용어가 삭제되고 새 제안 용어로 대체됩니다. | 용어가 삭제되고 새 제안 용어로 대체됩니다. |
자동으로 지정된 용어 | 기존 용어는 변경되지 않습니다. 새로 발견된 용어는 제안된 용어로 추가됩니다. | 기존 용어 지정이 업데이트되었습니다. |
자세한 정보
상위 주제: 메타데이터 강화 결과