Translation not up to date
IBM Match 360 with Watson , veri kayıtlarını ana veri varlıklarına çözümlemek için eşleşen algoritmaları kullanır. Veri mühendisleri, verilerindeki her varlık tipi için farklı eşleştirme algoritmaları tanımlayabilir. Eşleşen algoritmalar daha sonra kayıtları değerlendirmek ve karşılaştırmak için verileri analiz edebilir ve sonra varlıklarda eşleşen kayıtları toplayabilir.
Verilerinizde eşleştirme çalıştırmanın iki yaygın nedeni vardır:
- Kayıt tekilleştirme ve varlık çözümlemesiiçin, eşleşen süreç verilerinizde yinelenen kayıt olup olmadığını belirlemek üzere verilerinizi analiz eder. Şüpheli yinelenen kayıtlar, verilerinizin tek, güvenilir, 360 derecelik bir görünümünü oluşturmak için ana veri varlıklarıyla birleştirilir.
- Diğer varlık ilişkilendirmeleritiplerini oluşturmak için, eşleşen süreç, ev gibi farklı tiplerdeki gruplamaları temsil eden varlıklarda kayıtları toplamak üzere verilerinizi analiz eder.
Özelleştirilmiş bir veri modeli için eşleşen bir algoritma ayarlamak üzere IBM Match 360 ' ın nasıl kullanılacağını görmek için aşağıdaki videoyu izleyin.
Bu video, bu belgedeki kavramları ve görevleri öğrenmek için görsel bir yöntem sağlar.
Bu konuda:
Birden çok varlık tipi yaratmak için eşleştirme
IBM Match 360 eşleşen algoritmalar, ilişkili verilerin varlık tipine göre yönlendirilir. Veri modelinde her kayıt tipi için birden çok varlık tipi tanımlayabilirsiniz. Her bir varlık tipi için, IBM Match 360 ' ın kuruluşunuzun gereksinimlerini karşılayan varlıklar oluşturduğundan emin olmak üzere ilgili eşleştirme algoritmasını yapılandırın ve ayarlayın.
Tek bir kayıt, birden çok ayrı varlığın parçası olabilir. Veri modeliniz birden fazla varlık tipi içeriyorsa, aynı veri kümesinde farklı tiplerde eşleştirme çalıştırabilirsiniz. Örneğin, kuruluşunuz genelinde kişi kayıtlarını içeren bir veri kümesi düşünün. Kişi kayıt tipi bir Kişi varlık tipi ve bir Ev varlık tipi için tanımlar içeriyorsa, varlık çözünürlüğü ve tekilleştirme için Kişi eşleştirme algoritmasını çalıştırabilir ve aynı eve ait kişi kayıtlarından oluşan varlıklar oluşturmak için Ev Eşleştirme algoritmasını da çalıştırabilirsiniz.
Eşleşen süreç
Eşleşen işlemci, kayıtları varlıklarla eşleştirmek için tanımlı bir süreçten geçer. Eşleşen süreç üç ana adım içerir:
Standartlaştırma. Bu adım sırasında algoritma, eşleşen motor tarafından işlenebilmesi için verilerin biçimini standartlaştırır.
Bucketing (saklama kabı). Algoritma, benzer bilgi parçalarını karşılaştırabilmesi için verileri çeşitli kategorilere ya da "saklama kaplarına" sıralar.
Karşılaştırma. Algoritma, son karşılaştırma puanını belirlemek için verileri karşılaştırır. Daha sonra algoritma, kayıtların eşleşme olup olmadığını belirlemek için karşılaştırma puanını kullanır.
Bu adımların her biri, eşleşen algoritma tarafından tanımlanır ve yapılandırılır.
Eşleşen algoritmanın bileşenleri
Üç ana bileşen tipi IBM Match 360 eşleştirme algoritmasını tanımlar:
Standartlaştırıcılar
Adından da anlaşılacağı gibi, standartlaştırıcılar verilerin nasıl standartlaştırılacağını tanımlar. Standartlaştırma, eşleşen algoritmanın farklı özniteliklerin değerlerini, eşleşen motor tarafından işlenebilecek standartlaştırılmış bir gösterimine dönüştürmesini sağlar.
Eşleşen algoritma birden çok standartlaştırıcı kullanıyor. Her standartlaştırıcı, kayıt verilerinde bulunan belirli öznitelik tiplerini işlemek için uygundur.
Standartlaştırıcılar JSON nesneleri tarafından tanımlanır. Her bir standartlaştırıcının JSON nesne tanımlaması üç öğe içerir:
label
-Bu standartlaştırıcıyı tanımlayan bir etiket.inputs
-inputs
listesinde JSON nesnesi olan bir öğe var. Bu JSON nesnesinin iki öğesi vardır:fields
veattributes
:fields
-Standartlaştırma için kullanılacak alanların listesi.attributes
-Standartlaştırma için kullanılacak özniteliklerin listesi.
standardizer_recipe
-Her nesnenin, ilişkili standartlaştırıcının standartlaştırma işlemi sırasında çalıştırılacak bir adımı temsil ettiği JSON nesnelerinin listesi.standardizer_recipe
listesindeki her nesne dört ana öğeden oluşur:label
-Bu adımı standartlaştırıcı tarifinde tanımlayan bir etiket.method
-Kullanılan iç yöntem. Bu öğe yalnızca başvuru içindir ve düzenlenmemelidir.inputs
-inputs
listesinin tek bir öğesi bir düzey daha yukarıda tanımlandı.fields
-Bu adım için kullanılacak alanların listesi. Bu, genellikleinputs
listesinde bir düzey daha yukarıda tanımlanan tüm alanların bir alt kümesidir. Her adımın tüminputs
alanlarını işlemesi gerekli değildir.set_resource
-Bu adım için kullanılanset
tipi özelleştirilebilir kaynağın adı.map_resource
-Bu adım için kullanılanmap
tipi özelleştirilebilir kaynağın adı.
Bir adımın davranışına bağlı olarak, ilgili JSON nesnesinde gerekli olan daha fazla yapılandırma öğesi olabilir.
Önceden yapılandırılmış standartlaştırıcılar
Aşağıdaki standartlaştırıcılar IBM Match 360' da kullanıma hazırdır. Önceden yapılandırılmış standartlaştırıcılar da özelleştirilebilir.
Kişi Adı standartlaştırıcısı
Bu standartlaştırıcı, Kişi Adı öznitelik değerlerini standartlaştırmak için kullanılır. Sıralı olarak aşağıdaki tarifleri içerir:
Upper case
-Giriş alanı değerlerini büyük harfli eşdeğerlerini kullanacak şekilde dönüştürür.Map character
-UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür. İsteğe bağlı olarak, IBM Match 360 kaynaklarında eşlemi tanımlayın.Tokenizer
-Tanımlı sınırlayıcılar listesine dayalı olarak, giriş alanı değerini birden çok simge olarak gösterir.Parse token
- IBM Match 360 kaynaklarındaki önceden tanımlanmış değerlere bağlı olarak, giriş alanı değerlerini farklı belirteçlere ayrıştırır. Örneğin, sonek, önek ve oluşturma değerlerini uygun alanlara ayrıştırmak için bu tarifi kullanabilirsiniz.Length
-Verilen bir uzunluk aralığının dışındaki belirteçleri atar. Minimum ve maksimum değerler, IBM Match 360 kaynaklarında tanımlanır.Stop token
-Yapılandırıldığı gibi anonim giriş değerlerini kaldırır.Pick token
-Bucketing ve karşılaştırmada kullanılacak standartlaştırılmış veri olarak belirteçlerin bir alt kümesini (ya da tümünü) seçer.
Kişi Adı standartlaştırıcısı varsayılan olarak aşağıdaki Eşleme kaynaklarını kullanır:
map_character_general
-UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür.person_map_name_alignments
-Sonek, önek ve oluşturma değerlerini uygun alanlara ayrıştırır.
Kişi Adı standartlaştırıcısı varsayılan olarak şu Set kaynaklarını kullanır:
person_set_name_aname
-Anonim kişi adı değerlerini kaldırır.
Kuruluş Adı standartlaştırıcısı
Bu standartlaştırıcı, Kuruluş Adı öznitelik değerlerini standartlaştırmak için kullanılır. Sıralı olarak aşağıdaki tarifleri içerir:
Upper case
-Giriş alanı değerlerini büyük harfli eşdeğerlerini kullanacak şekilde dönüştürür.Map character
-UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür. İsteğe bağlı olarak, IBM Match 360 kaynaklarında eşlemi tanımlayın.Stop character
-Ad değerlerinden istenmeyen giriş karakterlerini kaldırır.Map token
-Verili giriş için takma adlar ya da diğer adlar oluşturur ve bilgileri ayrı bir iç alanda saklar.Tokenizer
-Tanımlı sınırlayıcılar listesine dayalı olarak, giriş alanı değerini birden çok simge olarak gösterir.Stop token
-Yapılandırıldığı gibi anonim giriş değerlerini kaldırır.Acronym
-Verili kuruluş adı için bir kısaad oluşturur ve bilgileri ayrı bir iç alanda saklar. Bu kısaad değeri, kısaltılmış adları işlemek için karşılaştırma sırasında kullanılır.Pick token
-Bucketing ve karşılaştırmada kullanılacak standartlaştırılmış veri olarak belirteçlerin bir alt kümesini (ya da tümünü) seçer.
Kuruluş Adı standartlaştırıcısı varsayılan olarak şu Eşleme kaynaklarını kullanır:
map_character_general
-UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür.org_map_name_cnick_name
-Verili giriş için takma adlar ya da diğer adlar oluşturur.
Kuruluş Adı standartlaştırıcısı varsayılan olarak şu Set kaynaklarını kullanır:
org_set_name_aname
-Anonim kuruluş adı değerlerini kaldırır.
Tarih standartlaştırıcısı
Bu standartlaştırıcı, Tarih özniteliği değerlerini standartlaştırmak için kullanılır. Birçok farklı tarih biçimini destekler ve sırasıyla aşağıdaki tarifleri içerir:
Map character
-eğik çizgi karakterlerini (/
) kısa çizgi karakterlerine dönüştürür (-
).Date function
-Farklı biçimlerdeki tarih girişlerini standartlaştırılmış bir biçime dönüştürür.Stop token
-Yapılandırıldığı şekilde anonim tarih değerlerini kaldırır.Parse token
-Belirli düzenli ifadelere bağlı olarak, giriş alanı değerlerini farklı simgelere ayrıştırır. Örneğin, tam tarih girişini gün, ay ve yıl belirteçlerine ayrıştırmak için bu tarifi kullanabilirsiniz.Pick token
-Bucketing ve karşılaştırmada kullanılacak standartlaştırılmış veri olarak belirteçlerin bir alt kümesini (ya da tümünü) seçer.
Tarih standartlaştırıcısı varsayılan olarak şu Eşlem kaynaklarını kullanır:
map_character_date_separators
-eğik çizgi (/
) ya da diğer ayırıcı karakterleri kısa çizgi karakterlerine dönüştürür (-
).map_date_tokens_year_month_day
-Giriş tarihi değerini, düzenli ifadelere dayalı olarak iç alanlara (birth_year
,birth_month
vebirth_day
) ayrıştırır.
Tarih standartlaştırıcısı varsayılan olarak şu Set kaynaklarını kullanır:
set_date_date
-Anonim tarih değerlerini kaldırır.
Cinsiyet standartlaştırıcı
Bu standartlaştırıcı, Cinsiyet özniteliği değerlerini standartlaştırmak için kullanılır. Sıralı olarak aşağıdaki tarifleri içerir:
Map character
-UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür. İsteğe bağlı olarak, IBM Match 360 kaynaklarında eşlemi tanımlayın.Upper case
-Giriş alanı değerlerini büyük harfli eşdeğerlerini kullanacak şekilde dönüştürür.Stop token
-Yapılandırıldığı şekilde, anonim giriş cinsiyet değerlerini kaldırır.Map token
- IBM Match 360 kaynaklarında yapılandırıldığı gibi, giriş simgesi değerlerini eşdeğer değerlere dönüştürür.Parse token
-İşlenen alan değerlerini uygun bir iç alana ayrıştırır.Pick token
-Bucketing ve karşılaştırmada kullanılacak standartlaştırılmış veri olarak belirteçlerin bir alt kümesini (ya da tümünü) seçer.
Cinsiyet standartlaştırıcısı varsayılan olarak aşağıdaki Harita kaynaklarını kullanır:
map_character_general
-UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür.map_gender_gender
-Farklı giriş cinsiyet değerlerini standart değerlerle eşleyin.map_gender_tokens_gender
-Düzenli ifadeye dayalı olarak giriş simgesi değerini içgender
alanına ayrıştırır.
Cinsiyet standartlaştırıcısı varsayılan olarak şu Set kaynaklarını kullanır:
set_gender_anon_gender
-Anonim giriş cinsiyet değerlerini kaldırır.
Adres standartlaştırıcısı
Bu standartlaştırıcı, Adres özniteliği değerlerini standartlaştırmak için kullanılır. Adresler, yerel ayarlara bağlı olarak birkaç farklı biçimde olabilir. Bu esneklik, adreslerin standartlaştırılmış bir biçime dönüştürülmesi için karmaşık işleme gerektirir. Adres standartlaştırıcısı sırasıyla aşağıdaki tarifleri içerir:
Upper case
-Giriş alanı değerlerini büyük harfli eşdeğerlerini kullanacak şekilde dönüştürür.Map character
-UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür. İsteğe bağlı olarak, IBM Match 360 kaynaklarında eşlemi tanımlayın.Map token
- IBM Match 360 kaynaklarında yapılandırıldığı gibi, giriş simgesi değerlerini eşdeğer değerlere dönüştürür. Örneğin, "Amerika Birleşik Devletleri", "Amerika Birleşik Devletleri" ve "ABD" ' nin tümü "ABD" ile eşlenebilir. Bu eşleme, ülke ve il/eyalet alan değerleri için ortaktır. Ayrıca, kaynakta yapılandırılan sınırlayıcı karakterler boşluk karakteriyle eşlenir.Tokenizer
-Tanımlı sınırlayıcılar listesine dayalı olarak, giriş alanı değerini birden çok simge olarak gösterir.Stop token
-Posta kodları gibi anonim giriş değerlerini yapılandırıldığı şekilde kaldırır.Keep token
-Yalnızca belirli bir alan için tanımlanan değer listesine izin verir. Örneğin, standartlaştırma sırasında izin verilen posta kodlarının bir listesini tanımlayabilirsiniz. İzin verilen listede olmayan giriş değerleri kaldırılır.Parse token
-Kaynaklarda yapılandırıldığı şekilde, belirli düzenli ifadelere ve önceden tanımlanmış değerlere bağlı olarak, giriş alanı değerlerini uygun iç alanlara ayrıştırır. Düzenli ifadeler kullanarak belirli bir uzunluğu kesmek için bu tarifi kullanabilirsiniz. Yalnızca belirli kalıplara izin vermek için düzenli ifadeler biçiminde farklı alfasayısal örüntü kümeleri de tanımlayabilirsiniz.Join fields
-Bir iç alana atanmış yeni bir birleşik değer yaratmak için iki ya da daha çok alanı birleştirir. Örneğin,latitude
velongitude
alan değerleri,lat_long
adlı yeni bir iç alan oluşturmak için birleştirilebilir.Pick token
-Bucketing ve karşılaştırmada kullanılacak standartlaştırılmış veri olarak belirteçlerin bir alt kümesini (ya da tümünü) seçer.
Adres standartlaştırıcısı varsayılan olarak aşağıdaki Eşleme kaynaklarını kullanır:
map_character_general
-UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür.map_address_country
-Giriş ülke değerlerini eşdeğer değerlere dönüştürür.map_address_province_state
-Giriş bölgesi ve eyalet değerlerini eşdeğer değerlere dönüştürür.map_address_delimiter_removal
-Kaynakta yapılandırılan sınırlayıcı karakterleri boşluk karakteriyle eşler.map_address_addr_tok
-Giriş adresi simgesi değerlerini eşdeğer değerlere dönüştürür.map_address_tokens_unit_type_and_number
- Parses the input fieldresidence_number
based on regular expression to internal fields, namelyunit_type
andunit_number
.map_address_tokens_street_number_name_direction_type
-Düzenli ifadeye dayalı olarak giriş alanınıaddress_line1
street_number
,street_name
,direction
vestreet_type
gibi iç alanlara ayrıştırır.map_address_tokens_sub_division
-Düzenli ifadeye dayalı olarak giriş alanınıaddress_line2
iç alana ayrıştırırsub_division
.map_address_tokens_pobox_type_and_number
- Parses the input fieldaddress_line3
based on regular expression to internal fields, namelypobox_type
andpobox
.map_address_tokens_city
-Düzenli ifadeye dayalı olarakcity
alanının giriş değerini ayrıştırır.map_address_tokens_province
-İç alana düzenli ifadeye dayalı olarakprovince_state
alanının giriş değerini ayrıştırırprovince
.map_address_tokens_postal_code
-Düzenli ifadeyi iç alana dayalı olarakzip_postal_code
alanın giriş değerini ayrıştırırpostal_code
.map_address_tokens_country
-Düzenli ifadeye dayalı olarakcountry
alanının giriş değerini ayrıştırır.map_address_tokens_latitude
-İç alana düzenli ifadeye dayalı olaraklatitude_degrees
alanının giriş değerini ayrıştırırlatitude
.map_address_tokens_longtitude
-Düzenli ifadeyi iç alana dayalı olaraklongitude_degrees
alanın giriş değerini ayrıştırırlongitude
.
Adres standartlaştırıcısı varsayılan olarak şu Set kaynaklarını kullanır:
set_address_postal_code
-zip_postal_code
için anonim giriş değerlerini kaldırır.
Telefon standartlaştırıcısı
Bu standartlaştırıcı, Telefon özniteliği değerlerini standartlaştırmak için kullanılır. Sıralı olarak aşağıdaki tarifleri içerir:
Stop character
-Telefon değerlerinden istenmeyen giriş karakterlerini kaldırır.Stop token
-Yapılandırıldığı şekilde anonim telefon değerlerini kaldırır.Phone
-Farklı yerel ayarlardan farklı biçimlerde giriş telefon numaralarını ortak bir biçimde ayrıştırır. Bu tarif, alan kodlarını ve ülke kodlarını telefon numaralarından kaldıracak şekilde yapılandırılabilir. Ayrıca, standartlaştırılmış bir telefon numarasında belirli sayıda rakamı koruyabilir.Parse token
-İşlenen alan değerlerini, kaynaklarda yapılandırıldığı şekilde, belirli düzenli ifadelere bağlı olarak uygun bir iç alana ayrıştırır.Pick token
-Bucketing ve karşılaştırmada kullanılacak standartlaştırılmış veri olarak belirteçlerin bir alt kümesini (ya da tümünü) seçer.
Telefon standartlaştırıcısı varsayılan olarak aşağıdaki Harita kaynaklarını kullanır:
map_phone_tokens_phone
-Düzenli ifadelere dayalı olarak telefon değerlerini bir iç alana ayrıştırır.
Telefon standartlaştırıcısı varsayılan olarak aşağıdaki Set kaynaklarını kullanır:
set_character_phone
-Alfasayısal olmayan tüm karakterleri değiştirir. Düzenli ifadeler belirtmenizi sağlar.set_phone_anon_phone
-Anonim telefon değerlerini kaldırır.
Kimlik standartlaştırıcı
Bu standartlaştırıcı, Tanımlama özniteliği değerlerini standartlaştırmak için kullanılır. Sıralı olarak aşağıdaki tarifleri içerir:
Map character
-UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür. İsteğe bağlı olarak, IBM Match 360 kaynaklarında eşlemi tanımlayın.Upper case
-Giriş alanı değerlerini büyük harfli eşdeğerlerini kullanacak şekilde dönüştürür.Stop character
-Tanıtıcı değerlerden istenmeyen giriş karakterlerini kaldırır.Stop token
-Yapılandırıldığı gibi anonim giriş değerlerini kaldırır.Map token
- IBM Match 360 kaynaklarında yapılandırıldığı gibi, giriş simgesi değerlerini eşdeğer değerlere dönüştürür.Parse token
-İşlenen alan değerlerini, kaynaklarda yapılandırıldığı şekilde, belirli düzenli ifadelere bağlı olarak uygun bir iç alana ayrıştırır.Pick token
-Bucketing ve karşılaştırmada kullanılacak standartlaştırılmış veri olarak belirteçlerin bir alt kümesini (ya da tümünü) seçer.
Identification (Tanımlama) standartlaştırıcısı varsayılan olarak aşağıdaki Map kaynaklarını kullanır:
map_character_general
-UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür.map_identifier_equi_identifier
-Giriş simgesi değerlerini eşdeğer değerlere dönüştürür.map_identifier_tokens_identification_number
-İşlenen alan değerlerini, kaynaklarda yapılandırıldığı şekilde, belirli düzenli ifadelere bağlı olarak uygun bir iç alana ayrıştırır.
Identification (Tanımlama) standartlaştırıcısı varsayılan olarak aşağıdaki Set kaynaklarını kullanır:
set_character_identification_number
-Alfasayısal olmayan giriş karakterlerini tanıtıcı değerlerden kaldırır. Düzenli ifadeler belirtmenizi sağlar.set_identifier_anonymous
-Anonim tanıtıcı değerlerini kaldırır.
E-posta standartlaştırıcısı
Bu standartlaştırıcı, E-posta özniteliği değerlerini standartlaştırmak için kullanılır. Sıralı olarak aşağıdaki tarifleri içerir:
Map character
-UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür. İsteğe bağlı olarak, IBM Match 360 kaynaklarında eşlemi tanımlayın.Upper case
-Giriş alanı değerlerini büyük harfli eşdeğerlerini kullanacak şekilde dönüştürür.Stop token
-Yapılandırıldığı gibi anonim giriş değerlerini kaldırır.Map token
- IBM Match 360 kaynaklarında yapılandırıldığı gibi, giriş simgesi değerlerini eşdeğer değerlere dönüştürür.Parse token
-İşlenen alan değerlerini, kaynaklarda yapılandırıldığı şekilde, belirli düzenli ifadelere bağlı olarak uygun bir iç alana ayrıştırır.Pick token
-Bucketing ve karşılaştırmada kullanılacak standartlaştırılmış veri olarak belirteçlerin bir alt kümesini (ya da tümünü) seçer.
E-posta standartlaştırıcısı varsayılan olarak aşağıdaki Harita kaynaklarını kullanır:
map_character_general
-UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür.map_non_phone_equi_non_phone
-Giriş simgesi değerlerini eşdeğer değerlere dönüştürür.map_non_phone_tokens_non_phone
-Düzenli ifadeye dayalı olarak giriş alanınıemail_id
iç alanlaraemail_local_part
veemail_domain
ayrıştırır.
E-posta standartlaştırıcısı varsayılan olarak şu Set kaynaklarını kullanır:
set_non_phone_anon_non_phone
-Anonim e-posta değerlerini kaldırır.
Varlık tipleri (bucketing)
Tek bir eşleşen algoritma içinde, her kayıt tipinin birden çok varlık tipi tanımlaması (entity_type
JSON nesneleri) olabilir. Örneğin, bir kişi kaydı tipi için tanımlanan bir algoritmada, kişi varlığı, ev varlığı, konum varlığı ve diğerleri gibi birden fazla varlık tipi tanımı oluşturmanız gerekebilir.
Her varlık tipi, kayıtları farklı şekillerde eşleştirmek ve bağlamak için kullanılabilir. Varlık tipi, eşleşen süreç sırasında kayıtların nasıl işleneceğini ve karşılaştırılacağını tanımlar.
Eşleşen algoritmada her varlık tipi tanımlaması (entity_type
) birkaç JSON öğesi içerir:
clerical_review_threshold
-Karşılaştırma puanı, maddi gözden geçirme eşiğinden düşük olan kayıtlar, eşleşmeyen kayıtlar olarak kabul edilir.auto_link_threshold
-Karşılaştırma puanı otomatik bağlantı eşiğinden yüksek olan kayıtlar, otomatik olarak eşleştirilecek kadar güçlü eşleşmeler olarak kabul edilir.bucket_generators
-Bu bölüm, bir varlık tipi için yapılandırılmış saklama kabı oluşturucuları tanımlamasını içerir. İki tip kova jeneratörü vardır: saklama kabı ve saklama kabı grupları.Demetler yalnızca bir öznitelik için bucketing 'i içerir. Her
bucket
tanımlaması dört öğe içerir:label
-Saklama kabı oluşturucusunu tanıtan bir etiket.maximum_bucket_size
-Büyük saklama kaplarının büyüklüğünü tanımlayan bir değer. Saklama kabı büyüklüğü bu değerden büyük olan herhangi bir saklama kabı karması, eşleştirme sırasında aday seçimi için dikkate alınmaz.inputs
-Yuvalar için,inputs
listesinde JSON nesnesi olan tek bir öğe vardır. Bu JSON nesnesinin iki öğesi vardır:fields
veattributes
:fields
-Bucketing için kullanılacak alanların listesi.attributes
-Bucketing kullanımı için kullanılacak özniteliklerin listesi.
bucket_recipe
-Saklama kabı tarifi listesi, saklama kabı oluşturma işlemi sırasında tamamlanacak saklama kabı oluşturucusunu tanımlar. Herbucket_recipe
listesinin bir dizi alt öğeleri vardır:label
-Saklama kabı tarifi öğesini tanımlayan bir etiket.method
-Kullanılan iç yöntem. Bu öğe yalnızca başvuru içindir ve düzenlenmemelidir.inputs
-inputs
listesinin tek bir öğesi bir düzey daha yukarıda tanımlandı.fields
-Bu saklama kabı için kullanılacak alanların listesi. Bu, genellikleinputs
listesinde bir düzey daha yukarıda tanımlanan tüm alanların bir alt kümesidir.min_tokens
-Tarife bir saklama kabı karması oluştururken kullanılacak simge sayısı alt sınırı.max_tokens
-Yemek tarifi bir saklama kabı karması oluştururken birlikte kullanılacak simge sayısı üst sınırı.count
-Bir saklama kabı oluşturucusundan oluşturulan tek bir kayda ilişkin saklama kabı hash sayısı sınırı. Bir kayıt çok sayıda saklama kabı hash 'i oluşturursa, yalnızca bu öğe tarafından ayarlanan hash sayısı toplanmış olur.bucket_group
-Saklama kabı hash değeri üreten bir saklama kabı grubunun sıra numarası. Aracı adımlara veya tariflere bir sıra numarası atanmaz.order
-Bir saklama kabı karması oluşturmak için birden çok simge birleştirildiğinde simgelerin sözlük sırasına göre sıralanıp sıralanmayacağını belirtir.maximum_bucket_size
-Büyük saklama kaplarının büyüklüğünü tanımlayan bir değer. Bu element, kova jeneratörü düzeyinde tanımlananla aynıdır; ayrıca kova tarifinde olması, büyük bireysel kovaların üzerinde daha iyi kontrol sağlar.
Saklama kabı grupları , birden çok öznitelik için bucketing işlemini içerir. Her bir
bucket_group
tanımlaması beş öğe içerir:label
-Saklama kabı oluşturucusunu tanıtan bir etiket.maximum_bucket_size
-Büyük saklama kaplarının büyüklüğünü tanımlayan bir değer. Saklama kabı büyüklüğü bu değerden büyük olan herhangi bir saklama kabı karması, eşleştirme sırasında aday seçimi için dikkate alınmaz.inputs
-Saklama kabı grupları içininputs
listesinde birden çok JSON nesnesi öğesi var. JSON nesnelerinin her birinin iki öğesi vardır:fields
veattributes
:fields
-Bucketing için kullanılacak alanların listesi.attributes
-Bucketing kullanımı için kullanılacak özniteliklerin listesi.
bucket_recipe
-Saklama kabı tarifi listesi, saklama kabı oluşturma işlemi sırasında tamamlanacak saklama kabı oluşturucusunu tanımlar. Herbucket_recipe
listesinin bir dizi alt öğeleri vardır:label
-Saklama kabı tarifi öğesini tanımlayan bir etiket.method
-Kullanılan iç yöntem. Bu öğe yalnızca başvuru içindir ve düzenlenmemelidir.inputs
-inputs
listesinin tek bir öğesi bir düzey daha yukarıda tanımlandı.fields
-Bu saklama kabı için kullanılacak alanların listesi. Bu genellikle,inputs
listesinde bir düzey daha yukarıda tanımlanan tüm alanların bir alt kümesidir.min_tokens
-Tarife bir saklama kabı karması oluştururken kullanılacak simge sayısı alt sınırı.max_tokens
-Yemek tarifi bir saklama kabı karması oluştururken birlikte kullanılacak simge sayısı üst sınırı.count
-Bir saklama kabı oluşturucusundan oluşturulan tek bir kayda ilişkin saklama kabı hash sayısı sınırı. Bir kayıt çok sayıda saklama kabı hash değeri oluşturursa, yalnızca bu öğe tarafından ayarlanan hash sayısı toplanmış olur.bucket_group
-Saklama kabı hash değeri üreten bir saklama kabı grubunun sıra numarası. Aracı adımlara veya tariflere bir sıra numarası atanmaz.order
-Bir saklama kabı karması oluşturmak için birden çok simge birleştirildiğinde simgelerin sözlük sırasına göre sıralanıp sıralanmayacağını belirtir.maximum_bucket_size
-Büyük saklama kaplarının büyüklüğünü tanımlayan bir değer. Bu öğe, saklama kabı oluşturucu düzeyinde tanımlananla aynı. Bunu kova tarif seviyesinde tanımlayabilmek size büyük bireysel kovaların üzerinde daha iyi bir denetim sağlar.set_resource
-Saklama kabı tarifi için kullanılanset
tipi bir kaynağın adı.map_resource
-Saklama kabı tarifi için kullanılanmap
tipi bir kaynağın adı.output_fields
-Bu tarif, giriş alanlarında bucketing işlevleri tamamlandıktan sonra yeni alanlar üretirse, bu öğe oluşturulan alanların adlarının bir listesini içerir.
bucket_group_recipe
-Bir saklama kabı grubu tarifi bölümü genellikle birden fazla öznitelikten oluşan saklama kaplarının tanımlanması için kullanılır.bucket_group_recipe
listesinin her öğesi, tek bir saklama kabı grubu için yapıyı tanımlayan bir JSON nesnesidir.bucket_group_recipe
içindekiinputs
listesinde birden çok öğe var; bu, bir düzey daha yüksekinputs
dizisinde tanımlanan birden çok özniteliğe gönderme yaptığı anlamına gelir.fields
öğesi bir liste listesidir. Her iç alan listesi, ilgiliattributes
listesiyle ilişkilendirilir.min_tokens
vemax_tokens
listelerinde, her öğe ilgiliattributes
listesine karşılık gelen birden çok öğe vardır.
Not:Bazı bucketing tarif tanımlarında
search_only
adlı bir özellik vardır. Varsayılan değerfalse
değeridir.true
olarak ayarlanırsa bu özellik, bir saklama kabı ya da saklama kabı grubunun yalnızca olasılıklı arama senaryoları için kullanıldığını ve varlık çözme (eşleştirme) senaryoları için kullanılmadığını gösterir.
compare_methods
-Bir varlık tipi için yapılandırılan karşılaştırma yöntemlerinin tanımlamaları. Hercompare_methods
JSON nesnesi, çeşitlicompare
yöntemlerinin tanımlamalarından oluşur. Eşleşen algoritma, son karşılaştırma puanını almak için hercompare
yöntem tanımından puanları toplar. Hercompare
yönteminin JSON nesnesi üç öğe içerir:label
-compare
yöntemini tanımlayan bir etiket.methods
-Karşılaştırma grubu oluşturan karşılaştırıcıların listesi. Bu dizideki her öğe, bir tip eşleşen öznitelik için bir karşılaştırıcıyı temsil eder. Eşleştirme algoritması,methods
listesindeki tüm karşılaştırıcılardan alınan puanların üst sınırını bu karşılaştırma grubunun son puanı olarak kabul eder. Her karşılaştırıcı tanımlaması iki öğe içerir:inputs
-Karşılaştırıcılar için,inputs
listesinde JSON nesnesi olan tek bir öğe vardır. Bu JSON nesnesinin iki öğesi vardır:fields
veattributes
:fields
-Karşılaştırma için kullanılacak alanların listesi.attributes
-Karşılaştırma için kullanılacak özniteliklerin listesi.
compare_recipe
-Bu liste temel olarak karşılaştırma adımlarını tanımlamak için kullanılır. Genellikle, bu dizide karşılaştırma için yalnızca bir adımı gösteren tek bir JSON öğesi vardır. Bu adımın beş öğesi vardır:label
-Karşılaştırma adımını tanımlayan bir etiket.method
-Kullanılan iç yöntem. Bu öğe yalnızca başvuru içindir ve düzenlenmemelidir.inputs
-inputs
listesinin tek bir öğesi bir düzey daha yukarıda tanımlandı.fields
-Bu karşılaştırmada kullanılacak alanlar,inputs
listesinde bir düzey yukarıda tanımlanan alanların tümünden çıkar.comparison_resource
-Bu karşılaştırma adımı için kullanılan özelleştirilebilir karşılaştırma kaynağının adı.
weights
-Bir karşılaştırıcı tarafından yapılan her bir karşılaştırma, 0 ile 10 arasında bir sayı puanına neden olur. Bu sayıya mesafe veya benzerlik ölçüsü denir. 0 uzaklığı, karşılaştırılmakta olan değerlerin tam olarak aynı olduğunu gösterir. 10 'luk bir mesafe, tamamen farklı olduklarını gösterir. 11 ayrı değere karşılık gelen (0-10), her karşılaştırıcı için 11 ağırlık tanımlanır. Uzaklığı hesapladıktan sonra karşılaştırma yöntemi, ağırlıklar listesinden karşılık gelen ağırlık değerini belirler ve toplam karşılaştırma puanına neden olur. Veri mühendisleri, veri kalitesine, dağıtımına ya da diğer etkenlere göre ağırlıkları gerektiği gibi özelleştirebilirler.
record_filter
-Kayıt süzme öğesi, eşleşen motorun varlık tiplerine dayalı olarak eşleştirme için kayıt seçmesini sağlar. Her kayıt süzgeci tanımlaması bir öğe içerir:criteria
-Belirli koşullara dayalı olarak kayıtları eşleştirme değerlendirmesini içerir ya da içermez. Bu öğe, anahtar-değer çifti olan bir JSON nesnesi içeriyor.criteria
JSON nesnesinin anahtarı bir öznitelik adıdır. Aşağıdakilerden biri olabilir:record_source
sistem özniteliği.- Basit bir öznitelik tipinin (dizgi) kullanıcı tanımlı özel özniteliği.
criteria
JSON nesnesinin değeri, bir öğe içeren başka bir JSON nesnesidir; bu nesne aşağıdakilerden biri olabilir:allowed
-Dizgi değerleri dizisi. Bu değerlerden herhangi birini içeren kayıtlar, eşleştirme sırasında dikkate alınır.disallowed
-Dizgi değerleri dizisi. Bu değerlerden herhangi birini içeren kayıtlar, eşleştirme sırasında dikkate alınmaz.
Bucketing kaynakları
Bucketing tanımlamaları varsayılan olarak aşağıdaki Map kaynaklarını kullanır:
person_map_name_nickname
-Verili bir kişi adı girişi için takma adlar ya da diğer adlar oluşturur.org_map_name_cnick_name
-Verili bir kuruluş adı girişi için takma adlar ya da diğer adlar oluşturur.
Bucketing tanımlamaları varsayılan olarak şu Set kaynaklarını kullanır:
person_set_name_bkt_anon
-Anonim kişi adı değerlerini kaldırır.org_set_name_acname
-Anonim kuruluş adı değerlerini kaldırır.
Karşılaştırma işlevleri
Karşılaştırma işlevleri (bazen karşılaştırıcılarolarak da adlandırılır), eşleşen algoritmanın anahtar bileşenlerinden biridir. Karşılaştırma işlevleri, eşleşen işlemci tarafından eşleşen işlem sırasında kayıt verilerini karşılaştırmak için kullanılır. Temel olarak, kayıt eşleştirme, farklı kayıt verileri arasında farklı öznitelik tiplerinin karşılaştırılmasını içerir.
Kişi, kuruluş ve konum etki alanlarında yaygın olarak kullanılan öznitelik tiplerinin çoğu için, IBM Match 360 eşleşen motoru önceden yapılandırılmış karşılaştırma yöntemlerini içerir.
IBM Match 360' da, karşılaştırma işlevleri özellik vektörleriolarak bilinen karşılaştırmaya bir yaklaşım kullanır. IBM Match 360 içinde farklı karşılaştırma işlevleri için kullanılan farklı özelleştirilebilir özellik tanımları vardır. Her karşılaştırma, verilen iki öznitelik değerinin ne kadar farklı olduğunu gösteren bir uzaklık ölçüsüyle (bir vektör) sonuçlanır.
Eşleştirme algoritmasında, her ayrık uzaklık değerine, bu değerin ne kadar güçlü dikkate alınması gerektiğini belirleyen bir ağırlık verilir. Ağırlık, bir karşılaştırma puanı üretmek için uzaklıkla birleşir. Eşleşen algoritma, genel kayıt-kayıt karşılaştırması için son karşılaştırma puanına ulaşmak üzere tüm karşılaştırma puanlarını bir araya ekler.
Özellikler hakkında
Bir özellik, bir karşılaştırma işlevinin ince düzey ayrıntılarını gösterir. Farklı öznitelik tipleri farklı benzerlik denetimi tipleri kullanır, bu da özelliklerinin de değiştiği anlamına gelir.
Özellik tanımlamaları, her karşılaştırma işlevi için kullanılan iç işlev tiplerini belirler. İç işlev örnekleri arasında tam eşleşme, düzenleme uzaklığı, takma ad, fonetik eşdeğeri ya da ilk eşleşme yer alır.
Karşılaştırma kaynakları
Her karşılaştırma yöntemi, iç karşılaştırma işlemlerinin ayrıntılarını içeren kaynakları içerir.
Varsayılan karşılaştırma tiplerinin her birinin kendi kaynakları vardır. İlişkili kaynakların ayrıntıları için her karşılaştırma tipine bakın.
generic
tipi eşleşen özel öznitelik tiplerine ilişkin karşılaştırmalar için soysal karşılaştırma yöntemi aşağıdaki kaynakları içerir:
compare_spec_generic
-Oluşturulan algoritmada, bu kaynağın ad biçimi şöyledir:recordType_entityType_compare_spec_generic
.
Kişi adı karşılaştırmaları
Bir kişi adı özniteliği içindeki farklı alanlar farklı şekilde işlenir. Önek, sonek ve oluşturma değerleri gibi alanlar için tam ya da eşleşmeyen değerler denetlenir. Ad, soyadı ve ikinci ad gibi diğer alanlar öncelikle aşağıdaki özellikleri kullanır:
- Tam eşleşme
- Takma ad eşleşmesi
- Değişim uzaklığı
- Baş harfler eşleşiyor
- Fonetik eşleştirme
- Belirteçlerin yanlış yerleştirilmesi
- Fazladan belirteçler
- Eksik değerler
Kişi Adı karşılaştırma yöntemi aşağıdaki kaynakları içerir:
person_compare_spec_name
-Oluşturulan algoritmada, bu kaynağın ad biçimi şöyledir:recordType_entityType_ compare_spec_name
. Örneğin:person_person_entity_compare_spec_name
.
Kuruluş adı karşılaştırmaları
Kuruluş adları için, tüm iş adını içeren tipik olarak bir alan vardır. Bu alan öncelikle aşağıdaki özellikler kullanılarak karşılaştırılır:
- Tam eşleşme
- Takma ad eşleşmesi
- Değişim uzaklığı
- Baş harfler eşleşiyor
- Fonetik eşleştirme
- Belirteçlerin yanlış yerleştirilmesi
- Fazladan belirteçler
- Eksik değerler
Kuruluş adları için, kısaadlar ve takma adlar da tam olarak karşılaştırılır.
Kuruluş adı karşılaştırma yöntemi aşağıdaki kaynakları içerir:
org_compare_spec_name
-Oluşturulan algoritmada, bu kaynağın ad biçimi şöyledir:recordType_entityType_ compare_spec_name
.
Tarih karşılaştırmaları
Tarihler için karşılaştırılacak genellikle üç alan vardır: gün, ay ve yıl.
year
alanı aşağıdaki özellikler kullanılarak karşılaştırılır:
- Tam
- Değişim uzaklığı
- Eşleşmeyen
- Eksik
day
ve month
alanları aşağıdaki özellikler kullanılarak karşılaştırılır:
- Tam
- Eşleşmeyen
- Eksik
Tarih karşılaştırıcı, tarih biçimlemedeki yerel ayar farklılıkları nedeniyle day
ve month
alanlarının dönüştürüp dönüştürülemediğini de denetler.
Tarih karşılaştırma yöntemi aşağıdaki kaynakları içerir:
compare_spec_date
-Oluşturulan algoritmada, bu kaynağın ad biçimi şöyledir:recordType_entityType_ compare_spec_date
.
Cinsiyet karşılaştırmaları
Cinsiyet özniteliği aşağıdaki özellikler kullanılarak karşılaştırılır:
- Tam
- Eşleşmeyen
Cinsiyet karşılaştırma yöntemi aşağıdaki kaynakları içerir:
compare_spec_gender
-Oluşturulan algoritmada, bu kaynağın ad biçimi şöyledir:recordType_entityType_ compare_spec_gender
.
Adres karşılaştırmaları
Bir adres özniteliği içindeki farklı alanlar farklı şekilde işlenir.
Ülke, şehir, il/eyalet ve alt bölüm gibi alanlar aşağıdaki özellikler kullanılarak karşılaştırılır:
- Tam
- Eşdeğerlik
- Değişim uzaklığı
- Eşleşmeyen
- Eksik
Posta kodu alanları aşağıdaki özellikler kullanılarak karşılaştırılır:
- Tam
- Değişim uzaklığı
- Eşleşmeyen
- Eksik
Sokak numarası, sokak adı, sokak tipi, birim numarası ve yön gibi alanlar aşağıdaki özellikler kullanılarak karşılaştırılır:
- Tam
- Eşdeğerlik
- Baş harfler eşleşiyor
- Değişim uzaklığı
- Eşleşmeyen
- Belirteçlerin yanlış yerleştirilmesi
- Eksik
Adres karşılaştırma yöntemi aşağıdaki kaynakları içerir:
compare_spec_address
-Oluşturulan algoritmada, bu kaynağın ad biçimi şöyledir:recordType_entityType_ compare_spec_address
.
Telefon karşılaştırmaları
Telefon numarası öznitelikleri aşağıdaki özellikler kullanılarak karşılaştırılır:
- Tam eşleşme
- Değişim uzaklığı
- Eşleşmeyen
Telefon karşılaştırma yöntemi aşağıdaki kaynakları içerir:
compare_spec_phone
-Oluşturulan algoritmada, bu kaynağın ad biçimirecordType_entityType_ compare_spec_phone
olur.
Tanıtıcı karşılaştırmaları
Tanıtıcı numarası öznitelikleri aşağıdaki özellikler kullanılarak karşılaştırılır:
- Tam eşleşme
- Değişim uzaklığı
- Eşleşmeyen
Tanıtıcı karşılaştırma yöntemi aşağıdaki kaynakları içerir:
compare_spec_identifier
-Oluşturulan algoritmada, bu kaynağın ad biçimi şöyledir:recordType_entityType_ compare_spec_identifier
.
E-posta karşılaştırmaları
E-posta öznitelikleri iki bölümden oluşur: benzersiz tanıtıcı (@ simgesinden önce) ve e-posta etki alanı (@ simgesinden sonra). Hem tanıtıcı hem de etki alanı parçaları, aşağıdaki özellikler kullanılarak ayrı ayrı karşılaştırılır:
- Tam eşleşme
- Değişim uzaklığı
- Eşleşmeyen
İki karşılaştırmanın sonucu, genel bir karşılaştırma puanı üretmek için ağırlıklı bir şekilde birleştirilir.
E-posta karşılaştırma yöntemi aşağıdaki kaynakları içerir:
compare_spec_email
-Oluşturulan algoritmada, bu kaynağın ad biçimi şöyledir:recordType_entityType_ compare_spec_email
.
Değişim uzaklığı
IBM Match 360 eşleşen motoru, çeşitli özniteliklerin karşılaştırılması ve eşleştirilmesi sırasında iç işlevlerden biri olarak düzenleme uzaklığını hesaplar. Düzenleme uzaklığı, iki dizenin birbirinden ne kadar farklı olduğunu ölçen bir ölçüdür. Bir dizgiyi diğerine dönüştürmek için gereken değişiklik sayısı sayılarak hesaplanır.
Farklı dizgi işlemleri kümelerini kullanarak düzenleme uzaklığını tanımlamanın farklı yolları vardır. Varsayılan olarak IBM Match 360 , literatürde genel kullanıma açık standart bir düzenleme uzaklığı işlevini kullanır. Alternatif olarak, özel bir IBM Match 360 uzaklık işlevini kullanmayı seçebilirsiniz.
Standart uzaklık düzenleme işlevi , eşleşen motorun daha iyi performans göstermesini sağlar. Bu nedenle, Telefon özniteliği tipi dışındaki tüm öznitelikler için varsayılan karşılaştırma yapılandırmasıdır.
Özel düzenleme uzaklığı işlevi , hiper duyarlıklı kullanım senaryoları için oluşturulmuştur. Bu seçenek, 8 ve B, 0 ve O, 5 ve S ya da 1 ve I gibi yazım hatalarını ya da benzer görünümlü karakterleri dikkate alır. Benzer görünümlü karakterlere dayalı olarak karşılaştırılan iki değerde bir uyumsuzluk olduğunda, atanan benzersizlik ölçüsü, standart bir düzenleme uzaklığı işlevi tarafından atanandan daha azdır. Sonuç olarak, bu tür uyumsuzluklar, özelleştirilmiş işlev tarafından güçlü bir şekilde cezalandırılmaz.
Önemli: Özel uzaklık düzenleme işlevi bazı karmaşık hesaplamalar içerir. Sonuç olarak, bu seçeneğin belirlenmesi, eşleştirme işlemi sırasında sistem başarımını etkiler.
Düzenleme uzaklığını özelleştirmek için API ' yi kullanma da dahil olmak üzere, eşleşen algoritmanızı özelleştirme hakkında bilgi için bkz. Eşleştirme algoritmanızı özelleştirme ve güçlendirme.
Daha fazla bilgi
- Veri Kavramları
- Ana veri varlıkları oluşturmak için verilerinizi eşleştirme
- Eşleştirme algoritmanızı özelleştirme ve güçlendirme
Üst konu: Ana verileri yönetme