데이터 클래스에 데이터 일치 추가
데이터 클래스에 데이터 일치를 추가하여 데이터 클래스를 자동으로 지정하는 방법을 지정할 수 있습니다. 데이터 분석 중 데이터 자산에 데이터 클래스를 자동으로 지정하는 방법을 지정하려면 일치 방법을 선택하십시오.
기본적으로 일치하는 데이터는 "자동 일치 없음"으로 설정되며, 이는 데이터 클래스를 열에 수동으로만 지정할 수 있음을 의미합니다. 데이터 클래스가 자동으로 지정되도록 하려면 데이터 일치를 정의해야 합니다.
데이터 클래스에 데이터 일치 메소드를 추가하려면 다음을 수행하십시오.
데이터 클래스를 열고 데이터 클래스 개요에서 데이터 일치를 사용할 수 있는지 확인하십시오.
일치 방법 필드 옆에 있는 편집을 클릭하여 일치 기준을 지정하는 방법을 선택하십시오. 대부분의 방법에는 데이터 및 컬럼 일치 기준이 포함됩니다. 배치된 서비스에 따라 다음과 같은 일치하는 메소드를 사용할 수 있습니다.
자동 일치 없음
유효값 목록과 일치 - 유효값의 사전은 데이터베이스 열의 각 값이 데이터 클래스에 속하는지 여부를 판별하는 데 사용됩니다.
참조 데이터와 일치 -참조 데이터 세트의 코드는 데이터베이스 열의 각 값이 데이터 클래스에 속하는지 여부를 판별하는 데 사용됩니다.
정규식에서 기준에 일치 - 정규 표현식은 데이터베이스 열의 각 값이 데이터 클래스에 속하는지 여부를 판별하는 데 사용됩니다.
기타 일치 기준 -일치는 열 이름에 적용될 정규식, 열의 지정된 데이터 유형 또는 둘 다에만 기반합니다. 열의 값을 평가하기 위한 추가 기준이 없습니다. 기타 일치 기준은 기본 일치 메소드가 적용되기 전에 적용됩니다. 열의 이름이나 데이터 유형 또는 둘 다 다른 일치 기준으로 지정된 것과 일치하는 경우에만 열 값이 기본 일치 기준에 대해 평가됩니다.
선택한 일치 메소드에 필요한 일치하는 데이터 및 기타 일치 기준을 정의하고 임계값을 선택하려면 정보를 입력하십시오.
선택사항: 일치하는 우선순위를 설정하십시오. -2147483648 및 2147483647범위의 값을 선택하여 데이터 클래스의 우선순위 를 판별하십시오.
데이터 클래스를 공개합니다.
일치 데이터 사용 및 사용 않음에 대한 참고사항:
- 상위 데이터 클래스에 데이터 일치가 사용 안함으로 설정되어 있는 경우 데이터 클래스가 사용 안함으로 설정됩니다.
- 데이터 클래스에 대한 데이터 일치를 사용 안함으로 설정하면 종속 데이터 클래스에 대한 일치도 사용 안함으로 설정됩니다.
상위 데이터 클래스
상위 데이터 클래스는 데이터 클래스를 상위/하위 관계로 구성하는 데 사용됩니다. 이는 또한 자동 일치 데이터 메소드가 사용되는 경우 일종의 "사전 필터" 역할을 합니다. 상위 데이터 클래스에 일치하는 데이터 메소드가 있는 경우, 상위 데이터 클래스의 데이터 일치 메소드가 긍정적인 일치를 리턴하는 경우에만 하위 데이터 클래스의 데이터 일치 메소드가 평가됩니다. 즉, 상위 데이터 클래스를 정의하는 경우 데이터 분류 프로세스에서 데이터 클래스가 분석된 데이터 필드에 지정되어야 하는지 여부를 결정하는 데 사용하는 기준에 영향을 줍니다.
임계값
이 필드는 데이터 클래스가 열에 실제로 지정되도록 열에 데이터 클래스 후보가 가져야 하는 최소 신뢰도를 표시합니다. 예를 들어, 클래스의 임계값을 90%로 지정합니다. 분석 중에 하나의 열은 95%의 신뢰도로 데이터 클래스와 일치하고 다른 열은 89%의 신뢰도로 일치합니다. 임계값이 90%이므로 데이터 클래스는 첫 번째 열에만 지정됩니다.
모든 데이터가 데이터 클래스와 일치하지 않는 경우에도 데이터 클래스 지정이 발생하도록 하려면 임계값을 낮추십시오. 데이터 품질이 완벽하지 않고 일치하는 메소드 정의가 모든 가능한 값의 전체 도메인의 100%를 포함하지 않는 경우에도 이를 수행할 수 있습니다. 도시 이름을 발견하기 위한 분류자가 좋은 예입니다. 가장 작은 위치를 포함하여 전 세계의 모든 도시 이름을 포함하는 정확한 값 목록을 정의하는 것은 실용적이지 않습니다. 보다 실용적인 접근 방식은 가장 큰 100개 도시 목록을 입력하고 열의 모든 값이 이러한 100개 가장 큰 도시 중 하나가 될 것으로 예상하지 않는다는 사실을 반영하도록 임계값을 줄이는 것이지만, 100개의 가장 큰 도시 목록에서 충분한 값(<100%)이 발견되더라도 분류는 양수여야 합니다.
임계값 설정은 선택사항입니다. 메타데이터 강화의 경우 데이터 클래스에 직접 임계값을 설정하지 않으면 프로젝트 레벨에서 정의된 임계값이 사용됩니다. 데이터 클래스에 설정된 임계값은 항상 프로젝트 설정보다 우선합니다. 데이터 클래스 지정 설정을 참조하십시오.
다음 사전 정의된 데이터 클래스에는 데이터 클래스 정의에 설정된 기본 임계값이 있습니다.
데이터 클래스 | 임계값 |
---|---|
구/군/시 | 50% |
개인 이름 | 50% |
이름 | 50% |
중간 이름 | 50% |
성 | 50% |
조직 이름 | 60% |
우선순위
데이터 클래스의 우선순위는 후보 데이터 클래스가 추론된 데이터 클래스가 되어야 하는 순서를 결정합니다. 신뢰도 임계값 이상의 데이터 클래스만 지정됩니다. 데이터가 다중 데이터 클래스와 일치할 때 우선순위가 가장 높고 신뢰도 임계값을 초과하는 신뢰도가 지정됩니다.
일부 사전 정의된 데이터 클래스에는 우선순위 세트가 있습니다. 그렇지 않으면, 범위가 value인 사전 정의된 데이터 클래스의 경우 기본 우선순위는 10입니다. 범위가 column과 일치하는 데이터 클래스의 경우, 기본 우선순위는 0입니다. 사용자 정의 데이터 클래스가 사전 정의된 데이터 클래스보다 우선하려면 높은 우선순위로 정의되어야 합니다.
데이터 클래스 | 우선순위 |
---|---|
주소 행 1 | 12 |
주소 라인 2 | 12 |
주소 3 | 12 |
부울 | 그림 16 |
캐나다 주 코드 | 14 |
캐나다 주 이름 | 12 |
구/군/시 | 7 |
코드 | -10 |
국가 코드 | 13 |
국가 이름 | 12 |
이름 | 1,000만 |
성별 | 그림 16 |
ID | -10 |
표시기 | -10 |
성 | 7 |
중간 이름 | 1,000만 |
조직 | 7 |
개인 이름 | 7 |
수량 | -10 |
텍스트 | -10 |
미국 카운티 | 8 |
미국 주 코드 | 14 |
미국 주 이름 | 12 |
유효값의 목록과 일치
데이터를 유효값 목록과 일치시키는 경우 데이터베이스 열의 값 레벨에서 데이터를 분류하는 유효값의 목록을 작성합니다. 값을 하나씩 수동으로 제공해야 하므로 이 방법은 작은 값 세트에 권장됩니다. 더 긴 목록의 경우 데이터를 참조하기 위해 일치 메소드를 사용할 수 있습니다.
유효값 목록과 일치합니다. 섹션에서 유효값 목록을 지정하십시오.
텍스트 일치 기준:
- 대소문자 구분
- 선택하는 경우 지정된 유효값과 대소문자가 동일한 값만 데이터 클래스와 일치하는 것으로 분류됩니다. 선택하지 않으면 대소문자가 무시됩니다.
- 정확한 간격
- 선택하는 경우 정확한 일치 항목만 양성으로 분류됩니다. 선택하지 않으면 유효값을 테스트된 값과 비교하기 전에 여러 공백 문자가
단일 공백으로 축소됩니다. 예를 들어, 유효값이
이고 테스트된 값이New York
이면 유효값에 여러 공백 문자가 있는 경우(예:New York
)에도 테스트된 값은 일치하는 것으로 분류됩니다. 그러나 테스트된 값이 공백이 없는New York
인 경우 테스트된 값은 일치하지 않는 것으로 분류됩니다.NewYork
- 전체 단어
- 선택하는 경우 정확한 일치 항목만 양성으로 분류됩니다. 선택하지 않으면 하위 문자열로 발견된 값도 데이터 클래스와 일치하는 것으로 분류됩니다. 예를 들어, 유효값이
이고 테스트된 값이Paris
이면 테스트된 값이 일치하는 것으로 분류됩니다.Parisienne moonlight
그런 다음 이 데이터 클래스를 지정하는 데 필요한 일치하는 데이터 값의 백분율을 지정하십시오.
참조 데이터에 일치
참조 데이터 세트에 데이터를 일치시킬 때 데이터베이스 열의 값 레벨에서 데이터를 분류하기 위해 참조 데이터 세트를 선택합니다. 최소한 참조 데이터 세트는 다음 열로 구성됩니다.
- 코드
- 값
이 일치 메소드는 참조 데이터 세트의 코드 열을 사용하여 데이터 클래스를 판별합니다.
국가 코드 샘플이 있는 CSV 파일 예:
code,value "AND","Andorra" "ARE","United Arab Emirates" "AFG","Afghanistan" "ATG","Antigua And Barbuda" "AIA","Anguilla" "ALB","Albania" "ARM","Armenia" ...
이 예제의 코드 (예:
, AND
, ARE
) 를 사용하여 데이터 클래스를 판별할 수 있습니다.AFG
정규식의 기준과 일치
정규식을 사용하여 데이터베이스 열의 각 값이 데이터 클래스에 속하는지 판별합니다.
정규식의 기준에 일치시키면 데이터베이스 열의 값 레벨에서 데이터를 분류하는 정규식을 작성합니다. 정규식은 JavaScript 형식을 사용해야 합니다.
정규식은 데이터베이스, 테이블 또는 열과 같은 명확한 구조의 데이터 자산에 적용됩니다.
정규식에 대한 다음 예제를 복사하여 열 이름 기준에 붙여넣을 수 있습니다. 그런 다음 정규식을 테스트할 열 이름을 지정하십시오. 데이터 값의 데이터 유형 및 길이를 선택할 수도 있습니다.
예제 - 전화번호(북아메리카)
이 정규식은 다음과 일치합니다.
- 3334445555
- 333.444.5555
- 333-444-5555
- 333 444 5555
- (333) 444 5555
- 및 이들의 모든 조합
\(?[0-9]{3}\)?[-. ]?[0-9]{3}[-. ]?[0-9]{4}
예제 - 생년월일(DOB)
이 정규식은 생년월일(DOB)과 일치합니다.
<tns:DataClass id="DOB" name="%DOB.name" description="%DOB.description" provider="IBM" example="12-30-2015"> <tns:JavaClassifier className="com.ibm.infosphere.classification.impl.DOBClassifier" />: <tns:ColumnNameFilter> <tns:ColumnNameRegularExpression><![CDATA[dob$|birth(day)?|geburtsdatum|na(issance|cimiento|scita)|urodzenia|(生ま(れた日)?|誕生日)|出生(年月)?]]></tns:ColumnNameRegularExpression> </tns:ColumnNameFilter> </tns:DataClass>
기타 일치 기준
일치는 이름, 컬럼의 데이터 유형 또는 둘 다에 대한 기준을 기반으로 합니다. 열의 값을 평가하기 위한 추가 기준이 없습니다. 이 기준은 초기에 선택된 일치 메소드의 맨 위에 적용됩니다.
일치하는 열 이름을 정의하고 테스트할 샘플 열 이름을 제공하기 위해 정규식을 지정할 수 있습니다. 열 데이터 유형에는 모든 유형(부울, 날짜 또는 숫자)이 있을 수 있습니다. 데이터 값의 최소 및 최대 길이를 정의할 수도 있습니다.
앵커링 예제
다음 예제는 앵커링입니다. 앵커링은 대부분의 소프트웨어 프로그램에서 검색 기능이 작동하는 방식으로 작동합니다. 텍스트 자체 또는 다른 텍스트 내에 중첩된 텍스트를 검색합니다. 정규식의 문자열을 앵커링하려면 다음 구문을 사용하십시오.
문자열^
$
"^" 및 "$"는 문자열에 있는 문자를 앵커합니다. "^"는 문자열의 시작을 나타내고 "$"는 각각 처음과 끝에 있는 끝을 나타냅니다. "^" 문자는 패턴의 첫 번째 문자인 경우에만 이 특수한 의미를 갖습니다. "$" 는 패턴의 마지막 문자인 경우에만 이 의미를 갖습니다.
예를 들어, 특성 값에 특정 문자열이 있는지 확인하려면 앵커링해야 합니다. 고객에게 주문이 하나만 있는 경우 주문 양식의 레이블이 "주문"이고 고객에게 여러 주문이 있는 경우 "주문"이고 이 고객에게 주문이 하나만 있는지 확인하려고 합니다. 레이블의 텍스트 특성에서 값을 정규식으로 변경하십시오.
^Order$
이 경우 "Order" 만 일치하는 값입니다. "주문" 이 일치하지 않습니다.
자세한 정보
상위 주제: 데이터 클래스