IBM Match 360 매칭 알고리즘을 사용하여 데이터 레코드를 마스터 데이터 엔티티로 변환합니다. 데이터 엔지니어는 데이터에서 각 엔티티 유형에 대해 서로 다른 일치 알고리즘을 정의할 수 있습니다. 그러면 일치 알고리즘이 데이터를 분석하여 레코드를 평가 및 비교한 후 일치하는 레코드를 엔티티로 수집할 수 있습니다.
데이터에 일치하는 두 가지 공통 이유가 있습니다.
- 레코드 중복 제거 및 엔티티 해결의 경우 일치하는 프로세스는 데이터를 분석하여 중복 레코드가 데이터에 존재하는지 여부를 판별합니다. 의심되는 중복 레코드는 데이터의 단일, 신뢰성, 360도 보기를 설정하기 위해 마스터 데이터 엔티티로 병합됩니다.
- 다른 유형의 엔티티 연관을 작성하기 위해 일치하는 프로세스는 데이터를 분석하여 가정과 같이 여러 유형의 그룹을 나타내는 엔티티로 레코드를 수집합니다.
IBM Match 360 을 사용하여 사용자 정의된 데이터 모델에 대한 일치 알고리즘을 설정하는 방법을 보려면 다음 비디오를 보십시오.
이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.
이 주제의 내용:
일치하여 둘 이상의 엔티티 유형 작성
IBM Match 360 일치 알고리즘은 연관된 데이터의 엔티티 유형에 의해 구동됩니다. 데이터 모델에서 각 레코드 유형에 대해 둘 이상의 엔티티 유형을 정의할 수 있습니다. 각 엔티티 유형에 대해 해당하는 일치 알고리즘을 구성하고 조정하여 IBM Match 360이 조직의 요구사항을 충족하는 엔티티를 작성하는지 확인하십시오.
단일 레코드는 둘 이상의 개별 엔티티의 파트일 수 있습니다. 데이터 모델에 둘 이상의 엔티티 유형이 포함된 경우 동일한 데이터 세트에서 서로 다른 유형의 일치를 실행할 수 있습니다. 예를 들어, 엔터프라이즈에서 개인 레코드를 포함하는 데이터 세트를 고려하십시오. 개인 레코드 유형에 개인 엔티티 유형 및 가정 엔티티 유형에 대한 정의가 포함되는 경우, 엔티티 분석 및 중복 제거에 대한 개인 일치 알고리즘을 실행하고 가정 일치 알고리즘을 실행하여 동일한 가정에 속하는 개인 레코드로 구성된 엔티티를 작성할 수 있습니다.
일치 프로세스
일치하는 엔진은 레코드를 엔티티로 일치시키기 위해 정의된 프로세스를 진행합니다. 일치하는 프로세스에는 다음 세 가지 주요 단계가 포함됩니다.
표준화. 이 단계 동안 알고리즘은 일치하는 엔진이 데이터를 처리할 수 있도록 데이터 형식을 표준화합니다.
버킷팅. 이 알고리즘은 정보의 유사한 부분을 비교할 수 있도록 데이터를 다양한 카테고리 또는 "버킷"으로 정렬합니다.
비교. 알고리즘은 데이터를 비교하여 최종 비교 스코어를 결정합니다. 그런 다음, 알고리즘은 비교 스코어를 사용하여 레코드가 일치하는지 여부를 판별합니다.
이러한 각 단계는 일치 알고리즘에 의해 정의되고 구성됩니다.
복원력 규칙
IBM Match 360 API를 사용하여 매칭 알고리즘이 기록 데이터 변경에 대응하는 방식을 제한하는 복원력 규칙을 구성할 수 있습니다.
복원력 규칙이 마련되어 있지 않으면 마스터 데이터 레코드가 추가, 업데이트 또는 삭제될 때 발생할 수 있는 여러 가지 엔티티 연결 변경 사항이 있습니다:
새 레코드가 추가되면 추가할 수 있습니다:
- 기존 법인에 가입하세요.
- 두 개 이상의 기존 엔티티가 글루 레코드 역할을 하여 서로 결합하도록 합니다.
- 새 싱글톤 엔티티를 형성합니다.
레코드가 업데이트되면 업데이트할 수 있습니다:
- 더 이상 현재 엔티티에 속하지 않고 새로운 싱글톤 엔티티가 됩니다.
- 더 이상 현재 법인에 속하지 않고 다른 기존 법인에 가입합니다.
- 현재 엔티티가 여러 엔티티로 분할되도록 합니다.
- 글루 레코드 역할을 하여 다른 엔티티가 기존 엔티티에 참여하도록 합니다.
- 엔티티 구성이 변경되지 않습니다.
레코드가 삭제되면 삭제될 수 있습니다:
- 해당 싱글톤 엔티티도 삭제됩니다.
- 현재 엔티티가 분할되도록 합니다.
데이터 엔지니어는 복원력 규칙을 정의함으로써 IBM Match 360 매칭 엔진이 이러한 각 시나리오에 대응하는 방식을 구성할 수 있습니다. 매칭 엔진은 사용자가 구성한 복원력 규칙에 맞게 연결 동작을 제어합니다. 복원력 규칙을 구성하면 엔티티 병합 및 분할을 제한할 수 있으므로 보다 안정적인 엔티티 구성을 할 수 있습니다.
' resiliency_rules
' API를 사용하여 복원력 규칙을 정의합니다. 주어진 규칙이 ' FALSE
'로 설정되어 있으면 해당 엔티티 연결 시나리오가 일반적인 엔티티 연결 변경을 완료하지 못합니다.
현재 복원력 규칙 집합을 가져오려면 다음 API 명령을 실행하세요:
GET /mdm/v1/resiliency_rules
복원력 규칙을 업데이트하려면 업데이트된 페이로드를 사용하여 다음 API 명령을 실행하세요:
PUT /mdm/v1/resiliency_rules
{
"link_resiliency_rules": {
"records": {
"person": {
"add": {
"join_existing_entity": "true/false",
"merge_entities": "true/false"
},
"update": {
"record_becoming_singleton": "true/false",
"join_existing_entity": "true/false",
"original_entity_split": "true/false",
"merge_entities": "true/false"
},
"delete": {
"singleton_entity_deletion": "true",
"original_entity_split": "true/false"
}
}
},
"entities": {
}
}
}
일치 알고리즘의 컴포넌트
세 가지 기본 유형의 컴포넌트가 IBM Match 360 일치 알고리즘을 정의합니다.
표준화자
이름에서 알 수 있듯이 표준화자는 데이터가 표준화되는 방법을 정의합니다. 표준화를 사용하면 일치하는 알고리즘을 사용하여 서로 다른 속성의 값을 일치하는 엔진이 처리할 수 있는 표준화된 표시로 변환할 수 있습니다.
일치하는 알고리즘은 여러 개의 표준화를 사용합니다. 각 표준화자는 레코드 데이터에서 발견되는 특정 속성 유형을 처리하는 데 적합합니다.
표준화자는 JSON 오브젝트에 의해 정의됩니다. 각 표준화자의 JSON 오브젝트 정의에는 다음과 같은 세 가지 요소가 있습니다.
label
- 이 표준화자를 식별하는 레이블.inputs
-inputs
목록에는 JSON 오브젝트인 하나의 요소가 있습니다. 이 JSON 오브젝트에는 두 개의 요소(fields
및attributes
)가 있습니다.fields
- 표준화에 사용할 필드 목록.attributes
- 표준화에 사용할 속성 목록.
standardizer_recipe
- 각 오브젝트가 연관된 표준화자의 표준화 프로세스 중에 실행될 하나의 단계를 나타내는 JSON 오브젝트의 목록.standardizer_recipe
목록의 각 오브젝트는 네 개의 기본 요소로 구성됩니다.label
- 표준화자 레시피에서 이 단계를 식별하는 레이블.method
- 사용된 내부 메소드. 이 요소는 참조용이며 편집할 수 없습니다.inputs
-inputs
목록의 단일 요소가 한 레벨 높게 정의되었습니다.fields
- 이 단계에 사용할 필드의 목록. 이는 일반적으로 한 레벨 위의inputs
목록 내에 정의된 모든 필드의 서브세트입니다. 모든 단계가 모든inputs
필드를 처리해야 하는 것은 아닙니다.set_resource
- 이 단계에 사용되는set
유형 사용자 정의 가능 자원의 이름.map_resource
- 이 단계에 사용되는map
유형 사용자 정의 가능 자원의 이름.
단계의 동작에 따라 해당 JSON 오브젝트에 필요한 추가 구성 요소가 있을 수 있습니다.
사전 구성된 표준화 프로그램
다음 표준화 프로그램은 IBM Match 360에서 사용할 준비가 되었습니다. 사전 구성된 표준화 프로그램도 사용자 정의할 수 있습니다.
개인 이름 표준화 프로그램
이 표준화 프로그램은 사용자 이름 속성 값을 표준화하는 데 사용됩니다. 여기에는 다음과 같은 레시피가 순서대로 포함되어 있습니다.
Upper case
-대문자와 동등한 값을 사용하도록 입력 필드 값을 변환합니다.Map character
-UNICODE 입력 문자를 동등한 영문자로 변환합니다. 선택적으로 IBM Match 360 자원에서 맵을 정의하십시오.Tokenizer
-정의된 구분 기호 목록을 기반으로 입력 필드 값을 여러 토큰으로 토큰화합니다.Parse token
- IBM Match 360 자원의 사전 정의된 값에 따라 입력 필드 값을 다른 토큰으로 구문 분석합니다. 예를 들어, 이 레시피를 사용하여 접미부, 접두부 및 생성 값을 적절한 필드로 구문 분석할 수 있습니다.Length
-지정된 길이 범위를 벗어난 토큰을 버립니다. 최소값 및 최대값은 IBM Match 360 자원에서 정의됩니다.Stop token
-구성된 대로 익명 입력 값을 제거합니다.Pick token
-버킷 및 비교에 사용할 표준화된 데이터로 토큰의 서브세트 (또는 모두) 를 선택합니다.
사용자 이름 표준화 프로그램은 기본적으로 다음 맵 자원을 사용합니다.
map_character_general
-UNICODE 입력 문자를 동등한 영문자로 변환합니다.person_map_name_alignments
-접미부, 접두부 및 생성 값을 적절한 필드로 구문 분석합니다.
사용자 이름 표준화 프로그램은 기본적으로 다음 세트 자원을 사용합니다.
person_set_name_aname
-익명 사용자 이름 값을 제거합니다.
조직 이름 표준화 프로그램
이 표준화 프로그램은 조직 이름 속성 값을 표준화하는 데 사용됩니다. 여기에는 다음과 같은 레시피가 순서대로 포함되어 있습니다.
Upper case
-대문자와 동등한 값을 사용하도록 입력 필드 값을 변환합니다.Map character
-UNICODE 입력 문자를 동등한 영문자로 변환합니다. 선택적으로 IBM Match 360 자원에서 맵을 정의하십시오.Stop character
-이름 값에서 원하지 않는 입력 문자를 제거합니다.Map token
-제공된 입력에 대한 별칭 또는 대체 이름을 생성하고 별도의 새 내부 필드에 정보를 저장합니다.Tokenizer
-정의된 구분 기호 목록을 기반으로 입력 필드 값을 여러 토큰으로 토큰화합니다.Stop token
-구성된 대로 익명 입력 값을 제거합니다.Acronym
-지정된 조직 이름의 약어를 생성하고 별도의 새 내부 필드에 정보를 저장합니다. 이 약어 값은 축약 이름을 처리하기 위해 비교 중에 사용됩니다.Pick token
-버킷 및 비교에 사용할 표준화된 데이터로 토큰의 서브세트 (또는 모두) 를 선택합니다.
조직 이름 표준화 프로그램은 기본적으로 다음과 같은 맵 자원을 사용합니다.
map_character_general
-UNICODE 입력 문자를 동등한 영문자로 변환합니다.org_map_name_cnick_name
-제공된 입력에 대한 별칭 또는 대체 이름을 생성합니다.
조직 이름 표준화 프로그램은 기본적으로 다음 세트 자원을 사용합니다.
org_set_name_aname
-익명 조직 이름 값을 제거합니다.
날짜 표준화 프로그램
이 표준화 프로그램은 날짜 속성 값을 표준화하는 데 사용됩니다. 다양한 여러 날짜 형식을 지원하며 다음 레시피가 순서대로 포함되어 있습니다.
Map character
-슬래시 문자 (/
) 를 대시 문자 (-
) 로 변환합니다.Date function
-다른 형식의 날짜 입력을 표준화된 형식으로 변환합니다.Stop token
-구성된 대로 익명 날짜 값을 제거합니다.Parse token
-특정 정규식에 따라 입력 필드 값을 다른 토큰으로 구문 분석합니다. 예를 들어, 이 레시피를 사용하여 전체 날짜 입력을 일, 월 및 년 토큰으로 구문 분석할 수 있습니다.Pick token
-버킷 및 비교에 사용할 표준화된 데이터로 토큰의 서브세트 (또는 모두) 를 선택합니다.
날짜 표준화 프로그램은 기본적으로 다음 맵 자원을 사용합니다.
map_character_date_separators
-슬래시 (/
) 또는 기타 구분 기호 문자를 대시 문자 (-
) 로 변환합니다.map_date_tokens_year_month_day
-정규식을 기반으로 입력 날짜 값을 내부 필드 (즉,birth_year
,birth_month
및birth_day
) 로 구문 분석합니다.
날짜 표준화 프로그램은 기본적으로 다음 세트 자원을 사용합니다.
set_date_date
-익명 날짜 값을 제거합니다.
성별 표준화 프로그램
이 표준화 프로그램은 성별 속성 값을 표준화하는 데 사용됩니다. 여기에는 다음과 같은 레시피가 순서대로 포함되어 있습니다.
Map character
-UNICODE 입력 문자를 동등한 영문자로 변환합니다. 선택적으로 IBM Match 360 자원에서 맵을 정의하십시오.Upper case
-대문자와 동등한 값을 사용하도록 입력 필드 값을 변환합니다.Stop token
-구성된 대로 익명 입력 성별 값을 제거합니다.Map token
- IBM Match 360 자원에서 구성된 대로 입력 토큰 값을 동등한 값으로 변환합니다.Parse token
-처리된 필드 값을 적절한 내부 필드로 구문 분석합니다.Pick token
-버킷 및 비교에 사용할 표준화된 데이터로 토큰의 서브세트 (또는 모두) 를 선택합니다.
성별 표준화 프로그램은 기본적으로 다음과 같은 맵 자원을 사용합니다.
map_character_general
-UNICODE 입력 문자를 동등한 영문자로 변환합니다.map_gender_gender
-다른 입력 성별 값을 표준 값으로 맵핑합니다.map_gender_tokens_gender
-정규식을 기반으로 입력 토큰 값을 내부gender
필드로 구문 분석합니다.
성별 표준화 프로그램은 기본적으로 다음 세트 자원을 사용합니다.
set_gender_anon_gender
-익명 입력 성별 값을 제거합니다.
주소 표준화 프로그램
이 표준화 프로그램은 주소 속성 값을 표준화하는 데 사용됩니다. 주소는 로케일에 따라 여러 가지 다른 형식을 가질 수 있습니다. 이러한 유연성을 위해서는 주소를 표준화된 양식으로 변환하기 위한 복잡한 처리가 필요합니다. 주소 표준화 프로그램에는 다음과 같은 레시피가 순서대로 포함되어 있습니다.
Upper case
-대문자와 동등한 값을 사용하도록 입력 필드 값을 변환합니다.Map character
-UNICODE 입력 문자를 동등한 영문자로 변환합니다. 선택적으로 IBM Match 360 자원에서 맵을 정의하십시오.Map token
- IBM Match 360 자원에서 구성된 대로 입력 토큰 값을 동등한 값으로 변환합니다. 예를 들어, "United States of America", "United States" 및 "US" 는 모두 "USA" 에 맵핑될 수 있습니다. 이 맵핑은 국가 및 시/도 필드 값에 공통입니다. 또한 자원에 구성된 구분 문자가 공백 문자에 맵핑됩니다.Tokenizer
-정의된 구분 기호 목록을 기반으로 입력 필드 값을 여러 토큰으로 토큰화합니다.Stop token
-구성된 대로 우편번호와 같은 익명 입력 값을 제거합니다.Keep token
-지정된 필드에 대해 정의된 값 목록만 허용합니다. 예를 들어, 표준화 중에 허용되는 우편번호 목록을 정의할 수 있습니다. 허용 목록에 없는 입력 값은 제거됩니다.Parse token
-자원에 구성된 대로 특정 정규식 및 사전 정의된 값에 따라 입력 필드 값을 적절한 내부 필드로 구문 분석합니다. 이 레시피를 사용하면 정규식을 사용하여 지정된 토큰을 특정 길이로 자를 수 있습니다. 특정 패턴만 허용하도록 정규식 양식으로 다른 영숫자 패턴 세트를 정의할 수도 있습니다.Join fields
-둘 이상의 필드를 함께 결합하여 내부 필드에 지정된 새 결합 값을 작성합니다. 예를 들어,latitude
및longitude
필드 값을 함께 결합하여lat_long
라는 새 내부 필드를 형성할 수 있습니다.Pick token
-버킷 및 비교에 사용할 표준화된 데이터로 토큰의 서브세트 (또는 모두) 를 선택합니다.
주소 표준화 프로그램은 기본적으로 다음 맵 자원을 사용합니다.
map_character_general
-UNICODE 입력 문자를 동등한 영문자로 변환합니다.map_address_country
-입력 국가 값을 동등한 값으로 변환합니다.map_address_province_state
-입력 시/도 및 시/도 값을 동등한 값으로 변환합니다.map_address_delimiter_removal
-자원에 구성된 구분 기호 문자를 공백 문자로 맵핑합니다.map_address_addr_tok
-입력 주소 토큰 값을 동등한 값으로 변환합니다.map_address_tokens_unit_type_and_number
-정규식을 기반으로 하는 입력 필드residence_number
를 내부 필드 (즉,unit_type
및unit_number
) 로 구문 분석합니다.map_address_tokens_street_number_name_direction_type
-정규식을 기반으로 입력 필드address_line1
를 내부 필드 (즉,street_number
,street_name
,direction
및street_type
) 로 구문 분석합니다.map_address_tokens_sub_division
-정규식을 기반으로 입력 필드address_line2
를 내부 필드sub_division
로 구문 분석합니다.map_address_tokens_pobox_type_and_number
-정규식을 기반으로 하는 입력 필드address_line3
를 내부 필드 (즉,pobox_type
및pobox
) 로 구문 분석합니다.map_address_tokens_city
-정규식을 기반으로city
필드의 입력 값을 구문 분석합니다.map_address_tokens_province
-정규식을 기반으로province_state
필드의 입력 값을 내부 필드province
로 구문 분석합니다.map_address_tokens_postal_code
-정규식을 기반으로zip_postal_code
필드의 입력 값을 내부 필드postal_code
로 구문 분석합니다.map_address_tokens_country
-정규식을 기반으로country
필드의 입력 값을 구문 분석합니다.map_address_tokens_latitude
-정규식을 기반으로latitude_degrees
필드의 입력 값을 내부 필드latitude
로 구문 분석합니다.map_address_tokens_longtitude
-정규식을 기반으로longitude_degrees
필드의 입력 값을 내부 필드longitude
로 구문 분석합니다.
주소 표준화 프로그램은 기본적으로 다음 세트 자원을 사용합니다.
set_address_postal_code
-zip_postal_code
의 익명 입력 값을 제거합니다.
전화 표준화 프로그램
이 표준화 프로그램은 전화 속성 값을 표준화하는 데 사용됩니다. 여기에는 다음과 같은 레시피가 순서대로 포함되어 있습니다.
Stop character
-전화 값에서 원하지 않는 입력 문자를 제거합니다.Stop token
-구성된 대로 익명 전화 값을 제거합니다.Phone
-서로 다른 로케일에서 서로 다른 형식의 입력 전화번호를 공통 형식으로 구문 분석합니다. 이 레시피는 전화번호에서 지역 코드 및 국가 코드를 제거하도록 구성할 수 있습니다. 또한 표준화된 전화번호에서 특정 숫자를 유지할 수도 있습니다.Parse token
-자원에 구성된 대로 특정 정규식에 따라 처리된 필드 값을 적절한 내부 필드로 구문 분석합니다.Pick token
-버킷 및 비교에 사용할 표준화된 데이터로 토큰의 서브세트 (또는 모두) 를 선택합니다.
전화 표준화 프로그램은 기본적으로 다음 맵 자원을 사용합니다.
map_phone_tokens_phone
-정규식을 기반으로 전화 값을 내부 필드로 구문 분석합니다.
전화 표준화 프로그램은 기본적으로 다음 세트 자원을 사용합니다.
set_character_phone
-영숫자가 아닌 모든 문자를 대체합니다. 정규식을 지정할 수 있습니다.set_phone_anon_phone
-익명 전화 값을 제거합니다.
식별 표준화 프로그램
이 표준화 프로그램은 ID 속성 값을 표준화하는 데 사용됩니다. 여기에는 다음과 같은 레시피가 순서대로 포함되어 있습니다.
Map character
-UNICODE 입력 문자를 동등한 영문자로 변환합니다. 선택적으로 IBM Match 360 자원에서 맵을 정의하십시오.Upper case
-대문자와 동등한 값을 사용하도록 입력 필드 값을 변환합니다.Stop character
-ID값에서 원하지 않는 입력 문자를 제거합니다.Stop token
-구성된 대로 익명 입력 값을 제거합니다.Map token
- IBM Match 360 자원에서 구성된 대로 입력 토큰 값을 동등한 값으로 변환합니다.Parse token
-자원에 구성된 대로 특정 정규식에 따라 처리된 필드 값을 적절한 내부 필드로 구문 분석합니다.Pick token
-버킷 및 비교에 사용할 표준화된 데이터로 토큰의 서브세트 (또는 모두) 를 선택합니다.
식별 표준화 프로그램은 기본적으로 다음 맵 자원을 사용합니다.
map_character_general
-UNICODE 입력 문자를 동등한 영문자로 변환합니다.map_identifier_equi_identifier
-입력 토큰 값을 동등한 값으로 변환합니다.map_identifier_tokens_identification_number
-자원에 구성된 대로 특정 정규식에 따라 처리된 필드 값을 적절한 내부 필드로 구문 분석합니다.
식별 표준화 프로그램은 기본적으로 다음 세트 자원을 사용합니다.
set_character_identification_number
-ID값에서 영숫자가 아닌 입력 문자를 제거합니다. 정규식을 지정할 수 있습니다.set_identifier_anonymous
-익명 ID값을 제거합니다.
이메일 표준화 프로그램
이 표준화 프로그램은 이메일 속성 값을 표준화하는 데 사용됩니다. 여기에는 다음과 같은 레시피가 순서대로 포함되어 있습니다.
Map character
-UNICODE 입력 문자를 동등한 영문자로 변환합니다. 선택적으로 IBM Match 360 자원에서 맵을 정의하십시오.Upper case
-대문자와 동등한 값을 사용하도록 입력 필드 값을 변환합니다.Stop token
-구성된 대로 익명 입력 값을 제거합니다.Map token
- IBM Match 360 자원에서 구성된 대로 입력 토큰 값을 동등한 값으로 변환합니다.Parse token
-자원에 구성된 대로 특정 정규식에 따라 처리된 필드 값을 적절한 내부 필드로 구문 분석합니다.Pick token
-버킷 및 비교에 사용할 표준화된 데이터로 토큰의 서브세트 (또는 모두) 를 선택합니다.
이메일 표준화 프로그램은 기본적으로 다음 맵 자원을 사용합니다.
map_character_general
-UNICODE 입력 문자를 동등한 영문자로 변환합니다.map_non_phone_equi_non_phone
-입력 토큰 값을 동등한 값으로 변환합니다.map_non_phone_tokens_non_phone
-정규식을 기반으로 입력 필드email_id
를 내부 필드email_local_part
및email_domain
로 구문 분석합니다.
이메일 표준화 프로그램은 기본적으로 다음 세트 자원을 사용합니다.
set_non_phone_anon_non_phone
-익명 이메일 값을 제거합니다.
엔티티 유형 (버킷)
단일 일치 알고리즘 내에서 각 레코드 유형은 다중 엔티티 유형 정의(entity_type
JSON 오브젝트)를 가질 수 있습니다. 예를 들어, 개인 레코드 유형에 대해 정의된 알고리즘에서 개인 엔티티, 가정 엔티티, 위치 엔티티 등과 같은 둘 이상의 엔티티 유형 정의를 작성해야 할 수 있습니다.
각 엔티티 유형은 레코드를 서로 다른 방법으로 일치시키고 링크하는 데 사용할 수 있습니다. 엔티티 유형은 일치하는 프로세스 동안 레코드를 포함하고 비교하는 방법을 정의합니다.
일치 알고리즘의 각 엔티티 유형 정의 (entity_type
) 에는 여러 JSON 요소가 있습니다.
clerical_review_threshold
- 규칙 검토 임계값보다 낮은 비교 스코어가 있는 레코드는 일치하지 않는 것으로 간주됩니다.auto_link_threshold
- 자동 링크 임계값보다 높은 비교 스코어가 있는 레코드는 자동으로 일치하는 충분한 일치 항목으로 간주됩니다.bucket_generators
- 이 섹션에는 엔티티 유형에 대해 구성된 버킷 생성기의 정의가 포함되어 있습니다. 버킷 생성기에는 버킷과 버킷 그룹의 두 가지 유형이 있습니다.버킷은 하나의 속성에 대한 버킷팅을 포함합니다. 각
bucket
정의는 다음 네 개의 요소를 포함합니다.label
- 버킷 생성기를 식별하는 레이블.maximum_bucket_size
- 큰 버킷의 크기를 정의하는 값. 이 값보다 큰 버킷 크기의 버킷 해시는 일치하는 동안 후보 선택에 대해 고려되지 않습니다.inputs
- 버킷의 경우inputs
목록에는 JSON 오브젝트인 하나의 요소만 있습니다. 이 JSON 오브젝트에는 두 개의 요소(fields
및attributes
)가 있습니다.fields
- 버킷팅에 사용할 필드 목록.attributes
- 버킷팅에 사용할 속성 목록.
bucket_recipe
- 버킷 레시피 목록은 버킷팅 프로세스 중에 버킷 생성기가 완료되는 단계를 정의합니다. 각bucket_recipe
목록에는 여러 하위 요소가 있습니다.label
- 버킷 레시피 요소를 식별하는 레이블.method
- 사용된 내부 메소드. 이 요소는 참조용이며 편집할 수 없습니다.inputs
-inputs
목록의 단일 요소가 한 레벨 높게 정의되었습니다.fields
- 이 버킷에 사용할 필드의 목록. 이는 일반적으로 한 레벨 위의inputs
목록 내에 정의된 모든 필드의 서브세트입니다.min_tokens
- 레시피가 버킷 해시를 생성할 때 사용할 최소 토큰 수.max_tokens
- 레시피가 버킷 해시를 생성할 때 함께 사용할 최대 토큰 수.count
- 버킷 생성기에서 생성되는 단일 레코드에 대한 버킷 해시 수의 한계. 레코드가 많은 버킷 해시를 생성하는 경우 이 요소가 설정한 해시 수만 선택됩니다.bucket_group
- 버킷 해시를 생성하는 버킷 그룹의 순서 번호. 매개체 단계 또는 레시피에 순서 번호가 지정되지 않습니다.order
- 여러 개의 토큰이 결합되어 버킷 해시를 형성할 때 토큰이 사전 정의 순서로 정렬되는지 여부를 지정합니다.maximum_bucket_size
- 큰 버킷의 크기를 정의하는 값. 이 요소는 버킷 생성기 레벨에서 정의된 요소와 동일하며 버킷 레시피 레벨에 있는 요소를 사용하면 큰 개별 버킷을 보다 정교하게 제어할 수 있습니다.
버킷 그룹은 둘 이상의 속성에 대한 버킷팅을 포함합니다. 각
bucket_group
정의에는 다섯 개의 요소가 포함됩니다.label
- 버킷 생성기를 식별하는 레이블.maximum_bucket_size
- 큰 버킷의 크기를 정의하는 값. 이 값보다 큰 버킷 크기의 버킷 해시는 일치하는 동안 후보 선택에 대해 고려되지 않습니다.inputs
- 버킷 그룹의 경우,inputs
목록에 둘 이상의 JSON 오브젝트 요소가 있습니다. JSON 오브젝트에는 다음과 같은 두 개의 요소가 있습니다.fields
및attributes
:fields
- 버킷팅에 사용할 필드 목록.attributes
- 버킷팅에 사용할 속성 목록.
bucket_recipe
- 버킷 레시피 목록은 버킷팅 프로세스 중에 버킷 생성기가 완료되는 단계를 정의합니다. 각bucket_recipe
목록에는 여러 하위 요소가 있습니다.label
- 버킷 레시피 요소를 식별하는 레이블.method
- 사용된 내부 메소드. 이 요소는 참조용이며 편집할 수 없습니다.inputs
-inputs
목록의 단일 요소가 한 레벨 높게 정의되었습니다.fields
- 이 버킷에 사용할 필드의 목록. 이는 일반적으로inputs
목록에서 한 레벨 높게 정의된 모든 필드의 서브세트입니다.min_tokens
- 레시피가 버킷 해시를 생성할 때 사용할 최소 토큰 수.max_tokens
- 레시피가 버킷 해시를 생성할 때 함께 사용할 최대 토큰 수.count
- 버킷 생성기에서 생성되는 단일 레코드에 대한 버킷 해시 수의 한계. 레코드가 많은 버킷 해시를 생성하는 경우 이 요소가 설정한 해시 수만 선택됩니다.bucket_group
- 버킷 해시를 생성하는 버킷 그룹의 순서 번호. 매개체 단계 또는 레시피에 순서 번호가 지정되지 않습니다.order
- 여러 개의 토큰이 결합되어 버킷 해시를 형성할 때 토큰이 사전 정의 순서로 정렬되는지 여부를 지정합니다.maximum_bucket_size
- 큰 버킷의 크기를 정의하는 값. 이 요소는 버킷 생성기 레벨에서 정의된 요소와 동일합니다. 버킷 레시피 레벨에서 이를 정의할 수 있다면 큰 개별 버킷을 보다 정교하게 제어할 수 있습니다.set_resource
- 버킷 레시피에 사용되는set
유형 자원의 이름.map_resource
- 버킷 레시피에 사용되는map
유형 자원의 이름.output_fields
- 이 레시피가 입력 필드에서 버킷팅 기능을 완료한 후 새 필드를 생성하는 경우, 이 요소에는 생성된 필드의 이름 목록이 포함됩니다.
bucket_group_recipe
- 버킷 그룹 레시피 섹션은 일반적으로 둘 이상의 속성으로 구성된 버킷을 정의하는 데 사용됩니다.bucket_group_recipe
목록의 모든 요소는 단일 버킷 그룹에 대한 구성을 정의하는 JSON 오브젝트입니다.bucket_group_recipe
내의inputs
목록에는 둘 이상의 요소가 있습니다. 이는 한 레벨 높은inputs
배열에 정의된 둘 이상의 속성을 참조함을 의미합니다.fields
요소는 목록의 목록입니다. 필드의 모든 내부 목록은 각attributes
목록과 연관됩니다.min_tokens
및max_tokens
목록에는 둘 이상의 요소가 있으며 각 요소는 각attributes
목록에 해당합니다.
참고:일부 버킷 레시피 정의에는 이름이
search_only
인 특성이 있습니다. 기본적으로 해당 값은false
입니다.true
로 설정된 경우 이 특성은 버킷 또는 버킷 그룹이 확률적 검색 시나리오에만 사용되고 엔티티 분석 (일치) 시나리오에는 사용되지 않음을 표시합니다.
compare_methods
- 엔티티 유형에 대해 구성된 비교 메소드의 정의. 각compare_methods
JSON 오브젝트는 다양한compare
메소드의 정의로 구성됩니다. 일치 알고리즘은 각compare
메소드 정의의 스코어를 더하여 최종 비교 스코어를 가져옵니다. 각compare
메소드의 JSON 오브젝트는 다음 세 요소를 포함합니다.label
-compare
메소드를 식별하는 레이블.methods
- 비교 그룹을 구성하는 비교기의 목록. 이 배열의 모든 요소는 하나의 비교 속성을 의미하는 하나의 비교기를 나타냅니다. 일치 알고리즘은 이 비교 그룹의 최종 스코어로methods
목록의 모든 비교기에서 스코어의 최대값을 고려합니다. 각 비교기 정의에는 다음 두 요소가 포함됩니다.inputs
- 비교기의 경우,inputs
목록에는 하나의 요소(JSON 오브젝트)만 있습니다. 이 JSON 오브젝트에는 두 개의 요소(fields
및attributes
)가 있습니다.fields
- 비교에 사용할 필드 목록.attributes
- 비교에 사용할 속성 목록.
compare_recipe
- 이 목록은 비교 단계를 정의하는 데 주로 사용됩니다. 일반적으로 이 배열에는 하나의 JSON 요소만 있으며 비교를 수행하는 단 하나의 단계만 표시됩니다. 이 단계에는 5개의 요소가 있습니다.label
- 비교 단계를 식별하는 레이블.method
- 사용된 내부 메소드. 이 요소는 참조용이며 편집할 수 없습니다.inputs
-inputs
목록의 단일 요소가 한 레벨 높게 정의되었습니다.fields
-inputs
에 정의된 모든 필드 중에서 이 비교에 사용할 필드는 한 레벨 높은 레벨을 나열합니다.comparison_resource
- 이 비교 단계에 사용되는 사용자 정의 가능 비교 자원의 이름.
weights
- 비교기에 의해 수행되는 각 비교는 0-10 사이의 숫자 스코어를 생성합니다. 이 숫자를 거리 또는 비유사성 측도라고 합니다. 거리 0은 비교되는 값이 정확히 동일함을 나타냅니다. 거리 10은 서로 완전히 다르다는 것을 나타냅니다. 11개의 개별 값들(0 - 10)에 대응하여, 각각의 비교기에 대해 11개의 가중치들이 정의됩니다. 거리를 계산한 후 비교 방법은 가중치 목록에서 해당 가중치 값을 판별하여 총 비교 스코어가 생성됩니다. 데이터 엔지니어는 데이터 품질, 분포 또는 기타 요소를 기반으로 필요에 따라 가중치를 사용자 정의할 수 있습니다.
record_filter
-레코드 필터링 요소를 사용하면 일치 엔진이 엔티티 유형에 따라 일치시킬 레코드를 선택할 수 있습니다. 각 레코드 필터 정의에는 하나의 요소가 포함됩니다.criteria
-특정 조건에 따라 일치하는 고려사항에서 레코드를 포함하거나 제외합니다. 이 요소에는 키-값 쌍이 있는 하나의 JSON 오브젝트가 포함되어 있습니다.criteria
JSON 오브젝트의 키는 속성 이름입니다. 다음 중 하나일 수 있습니다.record_source
시스템 속성입니다.- 단순 속성 유형 (문자열) 의 사용자 정의 사용자 정의 속성입니다.
criteria
JSON 오브젝트의 값은 하나의 요소를 포함하는 다른 JSON 오브젝트이며 다음 중 하나일 수 있습니다.allowed
-문자열 값의 배열입니다. 이러한 값을 포함하는 레코드는 일치 중에 고려됩니다.disallowed
-문자열 값의 배열입니다. 이러한 값을 포함하는 레코드는 일치 중에 고려되지 않습니다.
source_level_thresholds
-소스 레벨 임계값을 사용하면 소스 대 소스 기반으로 자동 링크 및 직접 검토 임계값을 정의할 수 있습니다. 소스 레벨 임계값은 기본 전역 임계값을 겹쳐씁니다. 각 소스 레벨 임계값 구성에는 선택적 소스 특정 기본 임계값이 있는 소스 콜렉션 또는 각 소스에 대해 서로 다른 임계값을 정의할 수 있는 소스 대 소스 임계값 쌍 콜렉션이 포함되어 있습니다. 자세한 정보는 고급 일치 알고리즘 튜닝 주제에서 소스별 일치 임계값 구성 을 참조하십시오.
버켓팅 자원
버킷 정의는 기본적으로 다음과 같은 맵 자원을 사용합니다.
person_map_name_nickname
-지정된 사용자 이름 입력에 대한 별명 또는 대체 이름을 생성합니다.org_map_name_cnick_name
-지정된 조직 이름 입력에 대한 별칭 또는 대체 이름을 생성합니다.
버킷 정의는 기본적으로 다음과 같은 Set 자원을 사용합니다.
person_set_name_bkt_anon
-익명 사용자 이름 값을 제거합니다.org_set_name_acname
-익명 조직 이름 값을 제거합니다.
비교 함수
비교 함수 ( 비교 연산자라고도 함) 는 일치 알고리즘의 주요 구성요소 중 하나입니다. 비교 함수는 일치 프로세스 중에 레코드 데이터를 비교하기 위해 일치 엔진에서 사용됩니다. 기본적으로 레코드 일치에는 서로 다른 레코드의 데이터 간에 서로 다른 유형의 속성을 비교하는 것이 포함됩니다.
개인, 조직 및 위치 도메인에서 일반적으로 사용되는 많은 속성 유형의 경우 IBM Match 360 일치 엔진에는 사전 구성된 비교 방법이 포함됩니다.
IBM Match 360에서 비교 함수는 기능 벡터로 알려진 비교에 대한 접근 방식을 사용합니다. IBM Match 360 에는 서로 다른 비교 기능에 사용되는 서로 다른 사용자 정의할 수 있는 기능 정의가 있습니다. 각 비교 결과는 두 개의 제공된 속성 값이 얼마나 다른지를 표시하는 거리 측정 (벡터) 이 됩니다.
일치 알고리즘에서 각 이산 거리 값에는 해당 값을 고려하는 정도를 판별하는 가중치가 제공됩니다. 가중치는 거리와 결합하여 비교 점수를 생성합니다. 일치 알고리즘은 모든 비교 점수를 함께 추가하여 전체 레코드 대 레코드 비교에 대한 최종 비교 점수에 도달합니다.
기능 정보
기능은 비교 기능의 상세 레벨 세부사항을 나타냅니다. 다른 유형의 속성은 다른 유형의 유사성 검사를 사용합니다. 이는 해당 기능도 다르다는 것을 의미합니다.
기능 정의는 각 비교 기능에 사용되는 내부 기능의 유형을 지정합니다. 내부 함수의 예로는 정확한 일치, 편집 거리, 별칭, 발음 동등 항목 또는 초기 일치가 있습니다.
비교 자원
각 비교 메소드에는 내부 비교 조작의 세부사항을 포함하는 자원이 포함되어 있습니다.
각 기본 비교 유형에는 자체 자원이 있습니다. 연관된 자원에 대한 세부사항은 각 비교 유형을 참조하십시오.
일치하는 유형이 generic
인 사용자 정의 속성 유형에 대한 비교의 경우 일반 비교 메소드에는 다음 자원이 포함됩니다.
compare_spec_generic
-생성된 알고리즘에서 이 자원의 이름 형식은recordType_entityType_compare_spec_generic
입니다.
사용자 이름 비교
개인 이름 속성 내의 다른 필드는 다르게 처리됩니다. 접두부, 접미부 및 생성 값과 같은 필드의 경우 정확도 또는 일치하지 않음을 확인합니다. 이름, 성 및 중간 이름과 같은 기타 필드는 주로 다음 기능을 사용합니다.
- 정확하게 일치
- 별명 일치
- 거리 편집
- 이니셜 일치
- 음성 일치
- 토큰의 잘못된 배치
- 추가 토큰
- 누락 값
개인 이름 비교 방법에는 다음 자원이 포함됩니다.
person_compare_spec_name
-생성된 알고리즘에서 이 자원의 이름 형식은recordType_entityType_ compare_spec_name
입니다. 예:person_person_entity_compare_spec_name
.
조직 이름 비교
조직 이름의 경우, 일반적으로 전체 비즈니스 이름을 포함하는 하나의 필드가 있습니다. 해당 필드는 주로 다음 기능을 사용하여 비교됩니다.
- 정확하게 일치
- 별명 일치
- 거리 편집
- 이니셜 일치
- 음성 일치
- 토큰의 잘못된 배치
- 추가 토큰
- 누락 값
조직 이름의 경우 약어 및 별명도 정확한지 비교합니다.
조직 이름 비교 메소드에는 다음 자원이 포함됩니다.
org_compare_spec_name
-생성된 알고리즘에서 이 자원의 이름 형식은recordType_entityType_ compare_spec_name
입니다.
날짜 비교
날짜의 경우 일반적으로 비교할 세 개의 필드 (일, 월, 연도) 이 있습니다.
year
필드는 다음 기능을 사용하여 비교됩니다.
- 정확함
- 거리 편집
- 일치하지 않음
- 누락
day
및 month
필드는 다음 기능을 사용하여 비교됩니다.
- 정확함
- 일치하지 않음
- 누락
날짜 비교기는 날짜 형식의 로케일 차이로 인해 day
및 month
필드가 전치되었는지도 확인합니다.
날짜 비교 방법에는 다음 자원이 포함됩니다.
compare_spec_date
-생성된 알고리즘에서 이 자원의 이름 형식은recordType_entityType_ compare_spec_date
입니다.
성별 비교
성별 속성은 다음 기능을 사용하여 비교됩니다.
- 정확함
- 일치하지 않음
성별 비교 방법에는 다음 자원이 포함됩니다.
compare_spec_gender
-생성된 알고리즘에서 이 자원의 이름 형식은recordType_entityType_ compare_spec_gender
입니다.
주소 비교
주소 속성 내의 다른 필드는 다르게 처리됩니다.
국가, 구/군/시, 시/도 및 세분화와 같은 필드는 다음 기능을 사용하여 비교됩니다.
- 정확함
- 동등성
- 거리 편집
- 일치하지 않음
- 누락
우편번호 필드는 다음 기능을 사용하여 비교됩니다.
- 정확함
- 거리 편집
- 일치하지 않음
- 누락
거리 번호, 거리 이름, 거리 유형, 단위 번호 및 방향과 같은 필드는 다음 기능을 사용하여 비교됩니다.
- 정확함
- 동등성
- 이니셜 일치
- 거리 편집
- 일치하지 않음
- 토큰의 잘못된 배치
- 누락
주소 비교 방법에는 다음 자원이 포함됩니다.
compare_spec_address
-생성된 알고리즘에서 이 자원의 이름 형식은recordType_entityType_ compare_spec_address
입니다.
전화 비교
전화번호 속성은 다음 기능을 사용하여 비교됩니다.
- 정확하게 일치
- 거리 편집
- 일치하지 않음
전화 비교 방법에는 다음 자원이 포함됩니다.
compare_spec_phone
-생성된 알고리즘에서 이 자원의 이름 형식은recordType_entityType_ compare_spec_phone
입니다.
ID 비교
식별 번호 속성은 다음 기능을 사용하여 비교됩니다.
- 정확하게 일치
- 거리 편집
- 일치하지 않음
ID 비교 메소드에는 다음 자원이 포함됩니다.
compare_spec_identifier
-생성된 알고리즘에서 이 자원의 이름 형식은recordType_entityType_ compare_spec_identifier
입니다.
이메일 비교
이메일 속성은 고유 ID (@ 기호 앞) 및 이메일 도메인 (@ 기호 뒤) 의 두 파트로 구성됩니다. 다음 기능을 사용하여 ID및 도메인 파트를 별도로 비교합니다.
- 정확하게 일치
- 거리 편집
- 일치하지 않음
두 비교의 결과를 가중치 방식으로 결합하여 전체 비교 점수를 생성합니다.
이메일 비교 방법에는 다음 자원이 포함됩니다.
compare_spec_email
-생성된 알고리즘에서 이 자원의 이름 형식은recordType_entityType_ compare_spec_email
입니다.
거리 편집
IBM Match 360 일치 엔진은 비교 및 다양한 속성의 일치 중에 거리 편집을 내부 함수 중 하나로 계산합니다. 거리 편집은 두 개의 문자열이 서로 어떻게 분리되어 있는지를 측정하는 것입니다. 이는 한 문자열을 다른 문자열로 변환하는 데 필요한 변경 수를 계산하여 계산됩니다.
다른 세트의 문자열 조작을 사용하여 거리 편집을 정의하는 방법에는 여러 가지가 있습니다. 기본적으로 IBM Match 360은 일반적으로 문헌에서 사용할 수 있는 표준 거리 편집 함수를 사용합니다. 또는 특수 IBM Match 360 거리 편집 기능을 사용하도록 선택할 수 있습니다.
표준 거리 편집 함수는 일치하는 엔진의 성능을 향상시킵니다. 이러한 이유로, 전화 속성 유형을 제외한 모든 속성에 대한 기본 비교 구성입니다.
특수 거리 편집 기능은 초정밀 사용 유스 케이스를 위해 빌드됩니다. 이 옵션은 오타 또는 유사하게 보이는 문자(예: 8 및 B, 0 및 O, 5 및 S 또는 1 및 I)를 고려합니다. 유사하게 보이는 문자들에 기초하여 비교된 두 값들에서 불일치가 존재하는 경우, 할당된 비유사성 측 정은 표준 거리 편집 기능에 의해 할당되는 것보다 더 작습니다. 그 결과, 이러한 유형의 불일치는 특수화된 기능에 의해 강하게 처벌되지 않습니다.
중요: 특수화된 편집 거리 함수에는 일부 복잡한 계산이 포함됩니다. 결과적으로 이 옵션을 선택하면 일치하는 프로세스 동안 시스템 성능에 영향을 줍니다.
API를 사용하여 편집 거리를 사용자 정의하는 것을 포함하여 일치 알고리즘을 사용자 정의하는 방법에 대한 정보는 일치 알고리즘 사용자 정의 및 강화를 참조하십시오.
자세한 정보
상위 주제: 마스터 데이터 관리