0 / 0
Go back to the English version of the documentation
IBM Match 360 ' da eşleşen algoritmalar
Last updated: 24 Ağu 2023
IBM Match 360 ' da eşleşen algoritmalar

IBM Match 360 with Watson , veri kayıtlarını ana veri varlıklarına çözümlemek için eşleşen algoritmaları kullanır. Veri mühendisleri, verilerindeki her varlık tipi için farklı eşleştirme algoritmaları tanımlayabilir. Eşleşen algoritmalar daha sonra kayıtları değerlendirmek ve karşılaştırmak için verileri analiz edebilir ve sonra varlıklarda eşleşen kayıtları toplayabilir.

Verilerinizde eşleştirme çalıştırmanın iki yaygın nedeni vardır:

  • Kayıt tekilleştirme ve varlık çözümlemesiiçin, eşleşen süreç verilerinizde yinelenen kayıt olup olmadığını belirlemek üzere verilerinizi analiz eder. Şüpheli yinelenen kayıtlar, verilerinizin tek, güvenilir, 360 derecelik bir görünümünü oluşturmak için ana veri varlıklarıyla birleştirilir.
  • Diğer varlık ilişkilendirmeleritiplerini oluşturmak için, eşleşen süreç, ev gibi farklı tiplerdeki gruplamaları temsil eden varlıklarda kayıtları toplamak üzere verilerinizi analiz eder.

Özelleştirilmiş bir veri modeli için eşleşen bir algoritma ayarlamak üzere IBM Match 360 ' ın nasıl kullanılacağını görmek için aşağıdaki videoyu izleyin.

Bu video, bu belgedeki kavramları ve görevleri öğrenmek için görsel bir yöntem sağlar.

Bu konuda:

Birden çok varlık tipi yaratmak için eşleştirme

IBM Match 360 eşleşen algoritmalar, ilişkili verilerin varlık tipine göre yönlendirilir. Veri modelinde her kayıt tipi için birden çok varlık tipi tanımlayabilirsiniz. Her bir varlık tipi için, IBM Match 360 ' ın kuruluşunuzun gereksinimlerini karşılayan varlıklar oluşturduğundan emin olmak üzere ilgili eşleştirme algoritmasını yapılandırın ve ayarlayın.

Tek bir kayıt, birden çok ayrı varlığın parçası olabilir. Veri modeliniz birden fazla varlık tipi içeriyorsa, aynı veri kümesinde farklı tiplerde eşleştirme çalıştırabilirsiniz. Örneğin, kuruluşunuz genelinde kişi kayıtlarını içeren bir veri kümesi düşünün. Kişi kayıt tipi bir Kişi varlık tipi ve bir Ev varlık tipi için tanımlar içeriyorsa, varlık çözünürlüğü ve tekilleştirme için Kişi eşleştirme algoritmasını çalıştırabilir ve aynı eve ait kişi kayıtlarından oluşan varlıklar oluşturmak için Ev Eşleştirme algoritmasını da çalıştırabilirsiniz.

Eşleşen süreç

Eşleşen işlemci, kayıtları varlıklarla eşleştirmek için tanımlı bir süreçten geçer. Eşleşen süreç üç ana adım içerir:

  1. Standartlaştırma. Bu adım sırasında algoritma, eşleşen motor tarafından işlenebilmesi için verilerin biçimini standartlaştırır.

  2. Bucketing (saklama kabı). Algoritma, benzer bilgi parçalarını karşılaştırabilmesi için verileri çeşitli kategorilere ya da "saklama kaplarına" sıralar.

  3. Karşılaştırma. Algoritma, son karşılaştırma puanını belirlemek için verileri karşılaştırır. Daha sonra algoritma, kayıtların eşleşme olup olmadığını belirlemek için karşılaştırma puanını kullanır.

Bu adımların her biri, eşleşen algoritma tarafından tanımlanır ve yapılandırılır.

Eşleşen algoritmanın bileşenleri

Üç ana bileşen tipi IBM Match 360 eşleştirme algoritmasını tanımlar:

Standartlaştırıcılar

Adından da anlaşılacağı gibi, standartlaştırıcılar verilerin nasıl standartlaştırılacağını tanımlar. Standartlaştırma, eşleşen algoritmanın farklı özniteliklerin değerlerini, eşleşen motor tarafından işlenebilecek standartlaştırılmış bir gösterimine dönüştürmesini sağlar.

Eşleşen algoritma birden çok standartlaştırıcı kullanıyor. Her standartlaştırıcı, kayıt verilerinde bulunan belirli öznitelik tiplerini işlemek için uygundur.

Standartlaştırıcılar JSON nesneleri tarafından tanımlanır. Her bir standartlaştırıcının JSON nesne tanımlaması üç öğe içerir:

  • label -Bu standartlaştırıcıyı tanımlayan bir etiket.

  • inputs - inputs listesinde JSON nesnesi olan bir öğe var. Bu JSON nesnesinin iki öğesi vardır: fields ve attributes:

    • fields -Standartlaştırma için kullanılacak alanların listesi.
    • attributes -Standartlaştırma için kullanılacak özniteliklerin listesi.
  • standardizer_recipe -Her nesnenin, ilişkili standartlaştırıcının standartlaştırma işlemi sırasında çalıştırılacak bir adımı temsil ettiği JSON nesnelerinin listesi. standardizer_recipe listesindeki her nesne dört ana öğeden oluşur:

    • label -Bu adımı standartlaştırıcı tarifinde tanımlayan bir etiket.
    • method -Kullanılan iç yöntem. Bu öğe yalnızca başvuru içindir ve düzenlenmemelidir.
    • inputs - inputs listesinin tek bir öğesi bir düzey daha yukarıda tanımlandı.
    • fields -Bu adım için kullanılacak alanların listesi. Bu, genellikle inputs listesinde bir düzey daha yukarıda tanımlanan tüm alanların bir alt kümesidir. Her adımın tüm inputs alanlarını işlemesi gerekli değildir.
    • set_resource -Bu adım için kullanılan set tipi özelleştirilebilir kaynağın adı.
    • map_resource -Bu adım için kullanılan map tipi özelleştirilebilir kaynağın adı.

    Bir adımın davranışına bağlı olarak, ilgili JSON nesnesinde gerekli olan daha fazla yapılandırma öğesi olabilir.

Önceden yapılandırılmış standartlaştırıcılar

Aşağıdaki standartlaştırıcılar IBM Match 360' da kullanıma hazırdır. Önceden yapılandırılmış standartlaştırıcılar da özelleştirilebilir.

Kişi Adı standartlaştırıcısı

Bu standartlaştırıcı, Kişi Adı öznitelik değerlerini standartlaştırmak için kullanılır. Sıralı olarak aşağıdaki tarifleri içerir:

  1. Upper case -Giriş alanı değerlerini büyük harfli eşdeğerlerini kullanacak şekilde dönüştürür.
  2. Map character -UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür. İsteğe bağlı olarak, IBM Match 360 kaynaklarında eşlemi tanımlayın.
  3. Tokenizer -Tanımlı sınırlayıcılar listesine dayalı olarak, giriş alanı değerini birden çok simge olarak gösterir.
  4. Parse token - IBM Match 360 kaynaklarındaki önceden tanımlanmış değerlere bağlı olarak, giriş alanı değerlerini farklı belirteçlere ayrıştırır. Örneğin, sonek, önek ve oluşturma değerlerini uygun alanlara ayrıştırmak için bu tarifi kullanabilirsiniz.
  5. Length -Verilen bir uzunluk aralığının dışındaki belirteçleri atar. Minimum ve maksimum değerler, IBM Match 360 kaynaklarında tanımlanır.
  6. Stop token -Yapılandırıldığı gibi anonim giriş değerlerini kaldırır.
  7. Pick token -Bucketing ve karşılaştırmada kullanılacak standartlaştırılmış veri olarak belirteçlerin bir alt kümesini (ya da tümünü) seçer.

Kişi Adı standartlaştırıcısı varsayılan olarak aşağıdaki Eşleme kaynaklarını kullanır:

  • map_character_general -UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür.
  • person_map_name_alignments -Sonek, önek ve oluşturma değerlerini uygun alanlara ayrıştırır.

Kişi Adı standartlaştırıcısı varsayılan olarak şu Set kaynaklarını kullanır:

  • person_set_name_aname -Anonim kişi adı değerlerini kaldırır.
Kuruluş Adı standartlaştırıcısı

Bu standartlaştırıcı, Kuruluş Adı öznitelik değerlerini standartlaştırmak için kullanılır. Sıralı olarak aşağıdaki tarifleri içerir:

  1. Upper case -Giriş alanı değerlerini büyük harfli eşdeğerlerini kullanacak şekilde dönüştürür.
  2. Map character -UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür. İsteğe bağlı olarak, IBM Match 360 kaynaklarında eşlemi tanımlayın.
  3. Stop character -Ad değerlerinden istenmeyen giriş karakterlerini kaldırır.
  4. Map token -Verili giriş için takma adlar ya da diğer adlar oluşturur ve bilgileri ayrı bir iç alanda saklar.
  5. Tokenizer -Tanımlı sınırlayıcılar listesine dayalı olarak, giriş alanı değerini birden çok simge olarak gösterir.
  6. Stop token -Yapılandırıldığı gibi anonim giriş değerlerini kaldırır.
  7. Acronym -Verili kuruluş adı için bir kısaad oluşturur ve bilgileri ayrı bir iç alanda saklar. Bu kısaad değeri, kısaltılmış adları işlemek için karşılaştırma sırasında kullanılır.
  8. Pick token -Bucketing ve karşılaştırmada kullanılacak standartlaştırılmış veri olarak belirteçlerin bir alt kümesini (ya da tümünü) seçer.

Kuruluş Adı standartlaştırıcısı varsayılan olarak şu Eşleme kaynaklarını kullanır:

  • map_character_general -UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür.
  • org_map_name_cnick_name -Verili giriş için takma adlar ya da diğer adlar oluşturur.

Kuruluş Adı standartlaştırıcısı varsayılan olarak şu Set kaynaklarını kullanır:

  • org_set_name_aname -Anonim kuruluş adı değerlerini kaldırır.
Tarih standartlaştırıcısı

Bu standartlaştırıcı, Tarih özniteliği değerlerini standartlaştırmak için kullanılır. Birçok farklı tarih biçimini destekler ve sırasıyla aşağıdaki tarifleri içerir:

  1. Map character -eğik çizgi karakterlerini (/) kısa çizgi karakterlerine dönüştürür (-).
  2. Date function -Farklı biçimlerdeki tarih girişlerini standartlaştırılmış bir biçime dönüştürür.
  3. Stop token -Yapılandırıldığı şekilde anonim tarih değerlerini kaldırır.
  4. Parse token -Belirli düzenli ifadelere bağlı olarak, giriş alanı değerlerini farklı simgelere ayrıştırır. Örneğin, tam tarih girişini gün, ay ve yıl belirteçlerine ayrıştırmak için bu tarifi kullanabilirsiniz.
  5. Pick token -Bucketing ve karşılaştırmada kullanılacak standartlaştırılmış veri olarak belirteçlerin bir alt kümesini (ya da tümünü) seçer.

Tarih standartlaştırıcısı varsayılan olarak şu Eşlem kaynaklarını kullanır:

  • map_character_date_separators-eğik çizgi (/) ya da diğer ayırıcı karakterleri kısa çizgi karakterlerine dönüştürür (-).
  • map_date_tokens_year_month_day -Giriş tarihi değerini, düzenli ifadelere dayalı olarak iç alanlara ( birth_year, birth_month ve birth_day) ayrıştırır.

Tarih standartlaştırıcısı varsayılan olarak şu Set kaynaklarını kullanır:

  • set_date_date -Anonim tarih değerlerini kaldırır.
Cinsiyet standartlaştırıcı

Bu standartlaştırıcı, Cinsiyet özniteliği değerlerini standartlaştırmak için kullanılır. Sıralı olarak aşağıdaki tarifleri içerir:

  1. Map character -UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür. İsteğe bağlı olarak, IBM Match 360 kaynaklarında eşlemi tanımlayın.
  2. Upper case -Giriş alanı değerlerini büyük harfli eşdeğerlerini kullanacak şekilde dönüştürür.
  3. Stop token -Yapılandırıldığı şekilde, anonim giriş cinsiyet değerlerini kaldırır.
  4. Map token - IBM Match 360 kaynaklarında yapılandırıldığı gibi, giriş simgesi değerlerini eşdeğer değerlere dönüştürür.
  5. Parse token -İşlenen alan değerlerini uygun bir iç alana ayrıştırır.
  6. Pick token -Bucketing ve karşılaştırmada kullanılacak standartlaştırılmış veri olarak belirteçlerin bir alt kümesini (ya da tümünü) seçer.

Cinsiyet standartlaştırıcısı varsayılan olarak aşağıdaki Harita kaynaklarını kullanır:

  • map_character_general -UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür.
  • map_gender_gender -Farklı giriş cinsiyet değerlerini standart değerlerle eşleyin.
  • map_gender_tokens_gender -Düzenli ifadeye dayalı olarak giriş simgesi değerini iç gender alanına ayrıştırır.

Cinsiyet standartlaştırıcısı varsayılan olarak şu Set kaynaklarını kullanır:

  • set_gender_anon_gender -Anonim giriş cinsiyet değerlerini kaldırır.
Adres standartlaştırıcısı

Bu standartlaştırıcı, Adres özniteliği değerlerini standartlaştırmak için kullanılır. Adresler, yerel ayarlara bağlı olarak birkaç farklı biçimde olabilir. Bu esneklik, adreslerin standartlaştırılmış bir biçime dönüştürülmesi için karmaşık işleme gerektirir. Adres standartlaştırıcısı sırasıyla aşağıdaki tarifleri içerir:

  1. Upper case -Giriş alanı değerlerini büyük harfli eşdeğerlerini kullanacak şekilde dönüştürür.
  2. Map character -UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür. İsteğe bağlı olarak, IBM Match 360 kaynaklarında eşlemi tanımlayın.
  3. Map token - IBM Match 360 kaynaklarında yapılandırıldığı gibi, giriş simgesi değerlerini eşdeğer değerlere dönüştürür. Örneğin, "Amerika Birleşik Devletleri", "Amerika Birleşik Devletleri" ve "ABD" ' nin tümü "ABD" ile eşlenebilir. Bu eşleme, ülke ve il/eyalet alan değerleri için ortaktır. Ayrıca, kaynakta yapılandırılan sınırlayıcı karakterler boşluk karakteriyle eşlenir.
  4. Tokenizer -Tanımlı sınırlayıcılar listesine dayalı olarak, giriş alanı değerini birden çok simge olarak gösterir.
  5. Stop token -Posta kodları gibi anonim giriş değerlerini yapılandırıldığı şekilde kaldırır.
  6. Keep token -Yalnızca belirli bir alan için tanımlanan değer listesine izin verir. Örneğin, standartlaştırma sırasında izin verilen posta kodlarının bir listesini tanımlayabilirsiniz. İzin verilen listede olmayan giriş değerleri kaldırılır.
  7. Parse token -Kaynaklarda yapılandırıldığı şekilde, belirli düzenli ifadelere ve önceden tanımlanmış değerlere bağlı olarak, giriş alanı değerlerini uygun iç alanlara ayrıştırır. Düzenli ifadeler kullanarak belirli bir uzunluğu kesmek için bu tarifi kullanabilirsiniz. Yalnızca belirli kalıplara izin vermek için düzenli ifadeler biçiminde farklı alfasayısal örüntü kümeleri de tanımlayabilirsiniz.
  8. Join fields -Bir iç alana atanmış yeni bir birleşik değer yaratmak için iki ya da daha çok alanı birleştirir. Örneğin, latitude ve longitude alan değerleri, lat_longadlı yeni bir iç alan oluşturmak için birleştirilebilir.
  9. Pick token -Bucketing ve karşılaştırmada kullanılacak standartlaştırılmış veri olarak belirteçlerin bir alt kümesini (ya da tümünü) seçer.

Adres standartlaştırıcısı varsayılan olarak aşağıdaki Eşleme kaynaklarını kullanır:

  • map_character_general -UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür.
  • map_address_country -Giriş ülke değerlerini eşdeğer değerlere dönüştürür.
  • map_address_province_state -Giriş bölgesi ve eyalet değerlerini eşdeğer değerlere dönüştürür.
  • map_address_delimiter_removal -Kaynakta yapılandırılan sınırlayıcı karakterleri boşluk karakteriyle eşler.
  • map_address_addr_tok -Giriş adresi simgesi değerlerini eşdeğer değerlere dönüştürür.
  • map_address_tokens_unit_type_and_number - Parses the input field residence_number based on regular expression to internal fields, namely unit_type and unit_number.
  • map_address_tokens_street_number_name_direction_type -Düzenli ifadeye dayalı olarak giriş alanını address_line1 street_number, street_name, directionve street_typegibi iç alanlara ayrıştırır.
  • map_address_tokens_sub_division -Düzenli ifadeye dayalı olarak giriş alanını address_line2 iç alana ayrıştırır sub_division.
  • map_address_tokens_pobox_type_and_number - Parses the input field address_line3 based on regular expression to internal fields, namely pobox_type and pobox.
  • map_address_tokens_city -Düzenli ifadeye dayalı olarak city alanının giriş değerini ayrıştırır.
  • map_address_tokens_province -İç alana düzenli ifadeye dayalı olarak province_state alanının giriş değerini ayrıştırır province.
  • map_address_tokens_postal_code -Düzenli ifadeyi iç alana dayalı olarak zip_postal_code alanın giriş değerini ayrıştırır postal_code.
  • map_address_tokens_country -Düzenli ifadeye dayalı olarak country alanının giriş değerini ayrıştırır.
  • map_address_tokens_latitude -İç alana düzenli ifadeye dayalı olarak latitude_degrees alanının giriş değerini ayrıştırır latitude.
  • map_address_tokens_longtitude -Düzenli ifadeyi iç alana dayalı olarak longitude_degrees alanın giriş değerini ayrıştırır longitude.

Adres standartlaştırıcısı varsayılan olarak şu Set kaynaklarını kullanır:

  • set_address_postal_code - zip_postal_codeiçin anonim giriş değerlerini kaldırır.
Telefon standartlaştırıcısı

Bu standartlaştırıcı, Telefon özniteliği değerlerini standartlaştırmak için kullanılır. Sıralı olarak aşağıdaki tarifleri içerir:

  1. Stop character -Telefon değerlerinden istenmeyen giriş karakterlerini kaldırır.
  2. Stop token -Yapılandırıldığı şekilde anonim telefon değerlerini kaldırır.
  3. Phone -Farklı yerel ayarlardan farklı biçimlerde giriş telefon numaralarını ortak bir biçimde ayrıştırır. Bu tarif, alan kodlarını ve ülke kodlarını telefon numaralarından kaldıracak şekilde yapılandırılabilir. Ayrıca, standartlaştırılmış bir telefon numarasında belirli sayıda rakamı koruyabilir.
  4. Parse token -İşlenen alan değerlerini, kaynaklarda yapılandırıldığı şekilde, belirli düzenli ifadelere bağlı olarak uygun bir iç alana ayrıştırır.
  5. Pick token -Bucketing ve karşılaştırmada kullanılacak standartlaştırılmış veri olarak belirteçlerin bir alt kümesini (ya da tümünü) seçer.

Telefon standartlaştırıcısı varsayılan olarak aşağıdaki Harita kaynaklarını kullanır:

  • map_phone_tokens_phone -Düzenli ifadelere dayalı olarak telefon değerlerini bir iç alana ayrıştırır.

Telefon standartlaştırıcısı varsayılan olarak aşağıdaki Set kaynaklarını kullanır:

  • set_character_phone -Alfasayısal olmayan tüm karakterleri değiştirir. Düzenli ifadeler belirtmenizi sağlar.
  • set_phone_anon_phone -Anonim telefon değerlerini kaldırır.
Kimlik standartlaştırıcı

Bu standartlaştırıcı, Tanımlama özniteliği değerlerini standartlaştırmak için kullanılır. Sıralı olarak aşağıdaki tarifleri içerir:

  1. Map character -UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür. İsteğe bağlı olarak, IBM Match 360 kaynaklarında eşlemi tanımlayın.
  2. Upper case -Giriş alanı değerlerini büyük harfli eşdeğerlerini kullanacak şekilde dönüştürür.
  3. Stop character -Tanıtıcı değerlerden istenmeyen giriş karakterlerini kaldırır.
  4. Stop token -Yapılandırıldığı gibi anonim giriş değerlerini kaldırır.
  5. Map token - IBM Match 360 kaynaklarında yapılandırıldığı gibi, giriş simgesi değerlerini eşdeğer değerlere dönüştürür.
  6. Parse token -İşlenen alan değerlerini, kaynaklarda yapılandırıldığı şekilde, belirli düzenli ifadelere bağlı olarak uygun bir iç alana ayrıştırır.
  7. Pick token -Bucketing ve karşılaştırmada kullanılacak standartlaştırılmış veri olarak belirteçlerin bir alt kümesini (ya da tümünü) seçer.

Identification (Tanımlama) standartlaştırıcısı varsayılan olarak aşağıdaki Map kaynaklarını kullanır:

  • map_character_general -UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür.
  • map_identifier_equi_identifier -Giriş simgesi değerlerini eşdeğer değerlere dönüştürür.
  • map_identifier_tokens_identification_number -İşlenen alan değerlerini, kaynaklarda yapılandırıldığı şekilde, belirli düzenli ifadelere bağlı olarak uygun bir iç alana ayrıştırır.

Identification (Tanımlama) standartlaştırıcısı varsayılan olarak aşağıdaki Set kaynaklarını kullanır:

  • set_character_identification_number -Alfasayısal olmayan giriş karakterlerini tanıtıcı değerlerden kaldırır. Düzenli ifadeler belirtmenizi sağlar.
  • set_identifier_anonymous -Anonim tanıtıcı değerlerini kaldırır.
E-posta standartlaştırıcısı

Bu standartlaştırıcı, E-posta özniteliği değerlerini standartlaştırmak için kullanılır. Sıralı olarak aşağıdaki tarifleri içerir:

  1. Map character -UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür. İsteğe bağlı olarak, IBM Match 360 kaynaklarında eşlemi tanımlayın.
  2. Upper case -Giriş alanı değerlerini büyük harfli eşdeğerlerini kullanacak şekilde dönüştürür.
  3. Stop token -Yapılandırıldığı gibi anonim giriş değerlerini kaldırır.
  4. Map token - IBM Match 360 kaynaklarında yapılandırıldığı gibi, giriş simgesi değerlerini eşdeğer değerlere dönüştürür.
  5. Parse token -İşlenen alan değerlerini, kaynaklarda yapılandırıldığı şekilde, belirli düzenli ifadelere bağlı olarak uygun bir iç alana ayrıştırır.
  6. Pick token -Bucketing ve karşılaştırmada kullanılacak standartlaştırılmış veri olarak belirteçlerin bir alt kümesini (ya da tümünü) seçer.

E-posta standartlaştırıcısı varsayılan olarak aşağıdaki Harita kaynaklarını kullanır:

  • map_character_general -UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür.
  • map_non_phone_equi_non_phone -Giriş simgesi değerlerini eşdeğer değerlere dönüştürür.
  • map_non_phone_tokens_non_phone -Düzenli ifadeye dayalı olarak giriş alanını email_id iç alanlara email_local_part ve email_domainayrıştırır.

E-posta standartlaştırıcısı varsayılan olarak şu Set kaynaklarını kullanır:

  • set_non_phone_anon_non_phone -Anonim e-posta değerlerini kaldırır.
Sosyal Medya standartlaştırıcısı

Bu standartlaştırıcı, Sosyal Medya öznitelik değerlerini standartlaştırmak için kullanılır. Sıralı olarak aşağıdaki tarifleri içerir:

  1. Map character -UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür. İsteğe bağlı olarak, IBM Match 360 kaynaklarında eşlemi tanımlayın.
  2. Upper case -Giriş alanı değerlerini büyük harfli eşdeğerlerini kullanacak şekilde dönüştürür.
  3. Stop token -Yapılandırıldığı gibi anonim giriş değerlerini kaldırır.
  4. Map token - IBM Match 360 kaynaklarında yapılandırıldığı gibi, giriş simgesi değerlerini eşdeğer değerlere dönüştürür.
  5. Parse token -İşlenen alan değerlerini, kaynaklarda yapılandırıldığı şekilde, belirli düzenli ifadelere bağlı olarak uygun bir iç alana ayrıştırır.
  6. Pick token -Bucketing ve karşılaştırmada kullanılacak standartlaştırılmış veri olarak belirteçlerin bir alt kümesini (ya da tümünü) seçer.

Sosyal Medya standartlaştırıcısı varsayılan olarak aşağıdaki Harita kaynaklarını kullanır:

  • map_character_general -UNICODE giriş karakterlerini eşdeğer İngilizce alfabetik karakterlere dönüştürür.
  • map_non_phone_equi_non_phone -Giriş simgesi değerlerini eşdeğer değerlere dönüştürür.
  • map_non_phone_tokens_non_phone -Düzenli ifadelere dayalı olarak social_media_handle giriş alanını iç alana social_media_id ayrıştırır.

Sosyal Medya standartlaştırıcısı varsayılan olarak aşağıdaki Set kaynaklarını kullanır:

  • set_non_phone_anon_non_phone -Anonim social_media_id değerlerini kaldırır.

Varlık tipleri (bucketing)

Tek bir eşleşen algoritma içinde, her kayıt tipinin birden çok varlık tipi tanımlaması (entity_type JSON nesneleri) olabilir. Örneğin, bir kişi kaydı tipi için tanımlanan bir algoritmada, kişi varlığı, ev varlığı, konum varlığı ve diğerleri gibi birden fazla varlık tipi tanımı oluşturmanız gerekebilir.

Her varlık tipi, kayıtları farklı şekillerde eşleştirmek ve bağlamak için kullanılabilir. Varlık tipi, eşleşen süreç sırasında kayıtların nasıl işleneceğini ve karşılaştırılacağını tanımlar.

Eşleşen algoritmada her varlık tipi tanımlaması (entity_type) birkaç JSON öğesi içerir:

  • clerical_review_threshold -Karşılaştırma puanı, maddi gözden geçirme eşiğinden düşük olan kayıtlar, eşleşmeyen kayıtlar olarak kabul edilir.

  • auto_link_threshold -Karşılaştırma puanı otomatik bağlantı eşiğinden yüksek olan kayıtlar, otomatik olarak eşleştirilecek kadar güçlü eşleşmeler olarak kabul edilir.

  • bucket_generators -Bu bölüm, bir varlık tipi için yapılandırılmış saklama kabı oluşturucuları tanımlamasını içerir. İki tip kova jeneratörü vardır: saklama kabı ve saklama kabı grupları.

    • Demetler yalnızca bir öznitelik için bucketing 'i içerir. Her bucket tanımlaması dört öğe içerir:

      • label -Saklama kabı oluşturucusunu tanıtan bir etiket.
      • maximum_bucket_size -Büyük saklama kaplarının büyüklüğünü tanımlayan bir değer. Saklama kabı büyüklüğü bu değerden büyük olan herhangi bir saklama kabı karması, eşleştirme sırasında aday seçimi için dikkate alınmaz.
      • inputs -Yuvalar için, inputs listesinde JSON nesnesi olan tek bir öğe vardır. Bu JSON nesnesinin iki öğesi vardır: fields ve attributes:
        • fields -Bucketing için kullanılacak alanların listesi.
        • attributes -Bucketing kullanımı için kullanılacak özniteliklerin listesi.
      • bucket_recipe -Saklama kabı tarifi listesi, saklama kabı oluşturma işlemi sırasında tamamlanacak saklama kabı oluşturucusunu tanımlar. Her bucket_recipe listesinin bir dizi alt öğeleri vardır:
        • label -Saklama kabı tarifi öğesini tanımlayan bir etiket.
        • method -Kullanılan iç yöntem. Bu öğe yalnızca başvuru içindir ve düzenlenmemelidir.
        • inputs - inputs listesinin tek bir öğesi bir düzey daha yukarıda tanımlandı.
        • fields -Bu saklama kabı için kullanılacak alanların listesi. Bu, genellikle inputs listesinde bir düzey daha yukarıda tanımlanan tüm alanların bir alt kümesidir.
        • min_tokens -Tarife bir saklama kabı karması oluştururken kullanılacak simge sayısı alt sınırı.
        • max_tokens -Yemek tarifi bir saklama kabı karması oluştururken birlikte kullanılacak simge sayısı üst sınırı.
        • count -Bir saklama kabı oluşturucusundan oluşturulan tek bir kayda ilişkin saklama kabı hash sayısı sınırı. Bir kayıt çok sayıda saklama kabı hash 'i oluşturursa, yalnızca bu öğe tarafından ayarlanan hash sayısı toplanmış olur.
        • bucket_group -Saklama kabı hash değeri üreten bir saklama kabı grubunun sıra numarası. Aracı adımlara veya tariflere bir sıra numarası atanmaz.
        • order -Bir saklama kabı karması oluşturmak için birden çok simge birleştirildiğinde simgelerin sözlük sırasına göre sıralanıp sıralanmayacağını belirtir.
        • maximum_bucket_size -Büyük saklama kaplarının büyüklüğünü tanımlayan bir değer. Bu element, kova jeneratörü düzeyinde tanımlananla aynıdır; ayrıca kova tarifinde olması, büyük bireysel kovaların üzerinde daha iyi kontrol sağlar.
    • Saklama kabı grupları , birden çok öznitelik için bucketing işlemini içerir. Her bir bucket_group tanımlaması beş öğe içerir:

      • label -Saklama kabı oluşturucusunu tanıtan bir etiket.
      • maximum_bucket_size -Büyük saklama kaplarının büyüklüğünü tanımlayan bir değer. Saklama kabı büyüklüğü bu değerden büyük olan herhangi bir saklama kabı karması, eşleştirme sırasında aday seçimi için dikkate alınmaz.
      • inputs -Saklama kabı grupları için inputs listesinde birden çok JSON nesnesi öğesi var. JSON nesnelerinin her birinin iki öğesi vardır: fields ve attributes:
        • fields -Bucketing için kullanılacak alanların listesi.
        • attributes -Bucketing kullanımı için kullanılacak özniteliklerin listesi.
      • bucket_recipe -Saklama kabı tarifi listesi, saklama kabı oluşturma işlemi sırasında tamamlanacak saklama kabı oluşturucusunu tanımlar. Her bucket_recipe listesinin bir dizi alt öğeleri vardır:
        • label -Saklama kabı tarifi öğesini tanımlayan bir etiket.
        • method -Kullanılan iç yöntem. Bu öğe yalnızca başvuru içindir ve düzenlenmemelidir.
        • inputs - inputs listesinin tek bir öğesi bir düzey daha yukarıda tanımlandı.
        • fields -Bu saklama kabı için kullanılacak alanların listesi. Bu genellikle, inputs listesinde bir düzey daha yukarıda tanımlanan tüm alanların bir alt kümesidir.
        • min_tokens -Tarife bir saklama kabı karması oluştururken kullanılacak simge sayısı alt sınırı.
        • max_tokens -Yemek tarifi bir saklama kabı karması oluştururken birlikte kullanılacak simge sayısı üst sınırı.
        • count -Bir saklama kabı oluşturucusundan oluşturulan tek bir kayda ilişkin saklama kabı hash sayısı sınırı. Bir kayıt çok sayıda saklama kabı hash değeri oluşturursa, yalnızca bu öğe tarafından ayarlanan hash sayısı toplanmış olur.
        • bucket_group -Saklama kabı hash değeri üreten bir saklama kabı grubunun sıra numarası. Aracı adımlara veya tariflere bir sıra numarası atanmaz.
        • order -Bir saklama kabı karması oluşturmak için birden çok simge birleştirildiğinde simgelerin sözlük sırasına göre sıralanıp sıralanmayacağını belirtir.
        • maximum_bucket_size -Büyük saklama kaplarının büyüklüğünü tanımlayan bir değer. Bu öğe, saklama kabı oluşturucu düzeyinde tanımlananla aynı. Bunu kova tarif seviyesinde tanımlayabilmek size büyük bireysel kovaların üzerinde daha iyi bir denetim sağlar.
        • set_resource -Saklama kabı tarifi için kullanılan set tipi bir kaynağın adı.
        • map_resource -Saklama kabı tarifi için kullanılan map tipi bir kaynağın adı.
        • output_fields -Bu tarif, giriş alanlarında bucketing işlevleri tamamlandıktan sonra yeni alanlar üretirse, bu öğe oluşturulan alanların adlarının bir listesini içerir.
      • bucket_group_recipe -Bir saklama kabı grubu tarifi bölümü genellikle birden fazla öznitelikten oluşan saklama kaplarının tanımlanması için kullanılır. bucket_group_recipe listesinin her öğesi, tek bir saklama kabı grubu için yapıyı tanımlayan bir JSON nesnesidir.
        • bucket_group_recipe içindeki inputs listesinde birden çok öğe var; bu, bir düzey daha yüksek inputs dizisinde tanımlanan birden çok özniteliğe gönderme yaptığı anlamına gelir.
        • fields öğesi bir liste listesidir. Her iç alan listesi, ilgili attributes listesiyle ilişkilendirilir.
        • min_tokens ve max_tokens listelerinde, her öğe ilgili attributes listesine karşılık gelen birden çok öğe vardır.
      Not:

      Bazı bucketing tarif tanımlarında search_onlyadlı bir özellik vardır. Varsayılan değer falsedeğeridir. trueolarak ayarlanırsa bu özellik, bir saklama kabı ya da saklama kabı grubunun yalnızca olasılıklı arama senaryoları için kullanıldığını ve varlık çözme (eşleştirme) senaryoları için kullanılmadığını gösterir.

  • compare_methods -Bir varlık tipi için yapılandırılan karşılaştırma yöntemlerinin tanımlamaları. Her compare_methods JSON nesnesi, çeşitli compare yöntemlerinin tanımlamalarından oluşur. Eşleşen algoritma, son karşılaştırma puanını almak için her compare yöntem tanımından puanları toplar. Her compare yönteminin JSON nesnesi üç öğe içerir:

    • label - compare yöntemini tanımlayan bir etiket.
    • methods -Karşılaştırma grubu oluşturan karşılaştırıcıların listesi. Bu dizideki her öğe, bir tip eşleşen öznitelik için bir karşılaştırıcıyı temsil eder. Eşleştirme algoritması, methods listesindeki tüm karşılaştırıcılardan alınan puanların üst sınırını bu karşılaştırma grubunun son puanı olarak kabul eder. Her karşılaştırıcı tanımlaması iki öğe içerir:
      • inputs -Karşılaştırıcılar için, inputs listesinde JSON nesnesi olan tek bir öğe vardır. Bu JSON nesnesinin iki öğesi vardır: fields ve attributes:
        • fields -Karşılaştırma için kullanılacak alanların listesi.
        • attributes -Karşılaştırma için kullanılacak özniteliklerin listesi.
      • compare_recipe -Bu liste temel olarak karşılaştırma adımlarını tanımlamak için kullanılır. Genellikle, bu dizide karşılaştırma için yalnızca bir adımı gösteren tek bir JSON öğesi vardır. Bu adımın beş öğesi vardır:
        • label -Karşılaştırma adımını tanımlayan bir etiket.
        • method -Kullanılan iç yöntem. Bu öğe yalnızca başvuru içindir ve düzenlenmemelidir.
        • inputs - inputs listesinin tek bir öğesi bir düzey daha yukarıda tanımlandı.
        • fields -Bu karşılaştırmada kullanılacak alanlar, inputs listesinde bir düzey yukarıda tanımlanan alanların tümünden çıkar.
        • comparison_resource -Bu karşılaştırma adımı için kullanılan özelleştirilebilir karşılaştırma kaynağının adı.
    • weights -Bir karşılaştırıcı tarafından yapılan her bir karşılaştırma, 0 ile 10 arasında bir sayı puanına neden olur. Bu sayıya mesafe veya benzerlik ölçüsü denir. 0 uzaklığı, karşılaştırılmakta olan değerlerin tam olarak aynı olduğunu gösterir. 10 'luk bir mesafe, tamamen farklı olduklarını gösterir. 11 ayrı değere karşılık gelen (0-10), her karşılaştırıcı için 11 ağırlık tanımlanır. Uzaklığı hesapladıktan sonra karşılaştırma yöntemi, ağırlıklar listesinden karşılık gelen ağırlık değerini belirler ve toplam karşılaştırma puanına neden olur. Veri mühendisleri, veri kalitesine, dağıtımına ya da diğer etkenlere göre ağırlıkları gerektiği gibi özelleştirebilirler.
  • record_filter -Kayıt süzme öğesi, eşleşen motorun varlık tiplerine dayalı olarak eşleştirme için kayıt seçmesini sağlar. Her kayıt süzgeci tanımlaması bir öğe içerir:

    • criteria -Belirli koşullara dayalı olarak kayıtları eşleştirme değerlendirmesini içerir ya da içermez. Bu öğe, anahtar-değer çifti olan bir JSON nesnesi içeriyor.

      criteria JSON nesnesinin anahtarı bir öznitelik adıdır. Aşağıdakilerden biri olabilir:

      • record_source sistem özniteliği.
      • Basit bir öznitelik tipinin (dizgi) kullanıcı tanımlı özel özniteliği.

    criteria JSON nesnesinin değeri, bir öğe içeren başka bir JSON nesnesidir; bu nesne aşağıdakilerden biri olabilir:

    • allowed -Dizgi değerleri dizisi. Bu değerlerden herhangi birini içeren kayıtlar, eşleştirme sırasında dikkate alınır.
    • disallowed -Dizgi değerleri dizisi. Bu değerlerden herhangi birini içeren kayıtlar, eşleştirme sırasında dikkate alınmaz.

Bucketing kaynakları

Bucketing tanımlamaları varsayılan olarak aşağıdaki Map kaynaklarını kullanır:

  • person_map_name_nickname -Verili bir kişi adı girişi için takma adlar ya da diğer adlar oluşturur.
  • org_map_name_cnick_name -Verili bir kuruluş adı girişi için takma adlar ya da diğer adlar oluşturur.

Bucketing tanımlamaları varsayılan olarak şu Set kaynaklarını kullanır:

  • person_set_name_bkt_anon -Anonim kişi adı değerlerini kaldırır.
  • org_set_name_acname -Anonim kuruluş adı değerlerini kaldırır.

Karşılaştırma işlevleri

Karşılaştırma işlevleri (bazen karşılaştırıcılarolarak da adlandırılır), eşleşen algoritmanın anahtar bileşenlerinden biridir. Karşılaştırma işlevleri, eşleşen işlemci tarafından eşleşen işlem sırasında kayıt verilerini karşılaştırmak için kullanılır. Temel olarak, kayıt eşleştirme, farklı kayıt verileri arasında farklı öznitelik tiplerinin karşılaştırılmasını içerir.

Kişi, kuruluş ve konum etki alanlarında yaygın olarak kullanılan öznitelik tiplerinin çoğu için, IBM Match 360 eşleşen motoru önceden yapılandırılmış karşılaştırma yöntemlerini içerir.

IBM Match 360' da, karşılaştırma işlevleri özellik vektörleriolarak bilinen karşılaştırmaya bir yaklaşım kullanır. IBM Match 360 içinde farklı karşılaştırma işlevleri için kullanılan farklı özelleştirilebilir özellik tanımları vardır. Her karşılaştırma, verilen iki öznitelik değerinin ne kadar farklı olduğunu gösteren bir uzaklık ölçüsüyle (bir vektör) sonuçlanır.

Eşleştirme algoritmasında, her ayrık uzaklık değerine, bu değerin ne kadar güçlü dikkate alınması gerektiğini belirleyen bir ağırlık verilir. Ağırlık, bir karşılaştırma puanı üretmek için uzaklıkla birleşir. Eşleşen algoritma, genel kayıt-kayıt karşılaştırması için son karşılaştırma puanına ulaşmak üzere tüm karşılaştırma puanlarını bir araya ekler.

Özellikler hakkında

Bir özellik, bir karşılaştırma işlevinin ince düzey ayrıntılarını gösterir. Farklı öznitelik tipleri farklı benzerlik denetimi tipleri kullanır, bu da özelliklerinin de değiştiği anlamına gelir.

Özellik tanımlamaları, her karşılaştırma işlevi için kullanılan iç işlev tiplerini belirler. İç işlev örnekleri arasında tam eşleşme, düzenleme uzaklığı, takma ad, fonetik eşdeğeri ya da ilk eşleşme yer alır.

Karşılaştırma kaynakları

Her karşılaştırma yöntemi, iç karşılaştırma işlemlerinin ayrıntılarını içeren kaynakları içerir.

Varsayılan karşılaştırma tiplerinin her birinin kendi kaynakları vardır. İlişkili kaynakların ayrıntıları için her karşılaştırma tipine bakın.

generictipi eşleşen özel öznitelik tiplerine ilişkin karşılaştırmalar için soysal karşılaştırma yöntemi aşağıdaki kaynakları içerir:

  • compare_spec_generic -Oluşturulan algoritmada, bu kaynağın ad biçimi şöyledir: recordType_entityType_compare_spec_generic.

Kişi adı karşılaştırmaları

Bir kişi adı özniteliği içindeki farklı alanlar farklı şekilde işlenir. Önek, sonek ve oluşturma değerleri gibi alanlar için tam ya da eşleşmeyen değerler denetlenir. Ad, soyadı ve ikinci ad gibi diğer alanlar öncelikle aşağıdaki özellikleri kullanır:

  • Tam eşleşme
  • Takma ad eşleşmesi
  • Değişim uzaklığı
  • Baş harfler eşleşiyor
  • Fonetik eşleştirme
  • Belirteçlerin yanlış yerleştirilmesi
  • Fazladan belirteçler
  • Eksik değerler

Kişi Adı karşılaştırma yöntemi aşağıdaki kaynakları içerir:

  • person_compare_spec_name -Oluşturulan algoritmada, bu kaynağın ad biçimi şöyledir: recordType_entityType_ compare_spec_name. Örneğin: person_person_entity_compare_spec_name.

Kuruluş adı karşılaştırmaları

Kuruluş adları için, tüm iş adını içeren tipik olarak bir alan vardır. Bu alan öncelikle aşağıdaki özellikler kullanılarak karşılaştırılır:

  • Tam eşleşme
  • Takma ad eşleşmesi
  • Değişim uzaklığı
  • Baş harfler eşleşiyor
  • Fonetik eşleştirme
  • Belirteçlerin yanlış yerleştirilmesi
  • Fazladan belirteçler
  • Eksik değerler

Kuruluş adları için, kısaadlar ve takma adlar da tam olarak karşılaştırılır.

Kuruluş adı karşılaştırma yöntemi aşağıdaki kaynakları içerir:

  • org_compare_spec_name -Oluşturulan algoritmada, bu kaynağın ad biçimi şöyledir: recordType_entityType_ compare_spec_name.

Tarih karşılaştırmaları

Tarihler için karşılaştırılacak genellikle üç alan vardır: gün, ay ve yıl.

year alanı aşağıdaki özellikler kullanılarak karşılaştırılır:

  • Tam
  • Değişim uzaklığı
  • Eşleşmeyen
  • Eksik

day ve month alanları aşağıdaki özellikler kullanılarak karşılaştırılır:

  • Tam
  • Eşleşmeyen
  • Eksik

Tarih karşılaştırıcı, tarih biçimlemedeki yerel ayar farklılıkları nedeniyle day ve month alanlarının dönüştürüp dönüştürülemediğini de denetler.

Tarih karşılaştırma yöntemi aşağıdaki kaynakları içerir:

  • compare_spec_date -Oluşturulan algoritmada, bu kaynağın ad biçimi şöyledir: recordType_entityType_ compare_spec_date.

Cinsiyet karşılaştırmaları

Cinsiyet özniteliği aşağıdaki özellikler kullanılarak karşılaştırılır:

  • Tam
  • Eşleşmeyen

Cinsiyet karşılaştırma yöntemi aşağıdaki kaynakları içerir:

  • compare_spec_gender -Oluşturulan algoritmada, bu kaynağın ad biçimi şöyledir: recordType_entityType_ compare_spec_gender.

Adres karşılaştırmaları

Bir adres özniteliği içindeki farklı alanlar farklı şekilde işlenir.

Ülke, şehir, il/eyalet ve alt bölüm gibi alanlar aşağıdaki özellikler kullanılarak karşılaştırılır:

  • Tam
  • Eşdeğerlik
  • Değişim uzaklığı
  • Eşleşmeyen
  • Eksik

Posta kodu alanları aşağıdaki özellikler kullanılarak karşılaştırılır:

  • Tam
  • Değişim uzaklığı
  • Eşleşmeyen
  • Eksik

Sokak numarası, sokak adı, sokak tipi, birim numarası ve yön gibi alanlar aşağıdaki özellikler kullanılarak karşılaştırılır:

  • Tam
  • Eşdeğerlik
  • Baş harfler eşleşiyor
  • Değişim uzaklığı
  • Eşleşmeyen
  • Belirteçlerin yanlış yerleştirilmesi
  • Eksik

Adres karşılaştırma yöntemi aşağıdaki kaynakları içerir:

  • compare_spec_address -Oluşturulan algoritmada, bu kaynağın ad biçimi şöyledir: recordType_entityType_ compare_spec_address.

Telefon karşılaştırmaları

Telefon numarası öznitelikleri aşağıdaki özellikler kullanılarak karşılaştırılır:

  • Tam eşleşme
  • Değişim uzaklığı
  • Eşleşmeyen

Telefon karşılaştırma yöntemi aşağıdaki kaynakları içerir:

  • compare_spec_phone -Oluşturulan algoritmada, bu kaynağın ad biçimi recordType_entityType_ compare_spec_phoneolur.

Tanıtıcı karşılaştırmaları

Tanıtıcı numarası öznitelikleri aşağıdaki özellikler kullanılarak karşılaştırılır:

  • Tam eşleşme
  • Değişim uzaklığı
  • Eşleşmeyen

Tanıtıcı karşılaştırma yöntemi aşağıdaki kaynakları içerir:

  • compare_spec_identifier -Oluşturulan algoritmada, bu kaynağın ad biçimi şöyledir: recordType_entityType_ compare_spec_identifier.

E-posta karşılaştırmaları

E-posta öznitelikleri iki bölümden oluşur: benzersiz tanıtıcı (@ simgesinden önce) ve e-posta etki alanı (@ simgesinden sonra). Hem tanıtıcı hem de etki alanı parçaları, aşağıdaki özellikler kullanılarak ayrı ayrı karşılaştırılır:

  • Tam eşleşme
  • Değişim uzaklığı
  • Eşleşmeyen

İki karşılaştırmanın sonucu, genel bir karşılaştırma puanı üretmek için ağırlıklı bir şekilde birleştirilir.

E-posta karşılaştırma yöntemi aşağıdaki kaynakları içerir:

  • compare_spec_email -Oluşturulan algoritmada, bu kaynağın ad biçimi şöyledir: recordType_entityType_ compare_spec_email.

Sosyal medya karşılaştırmaları

Sosyal medya tanıtıcı öznitelikleri aşağıdaki özellikler kullanılarak karşılaştırılır:

  • Tam eşleşme
  • Değişim uzaklığı
  • Eşleşmeyen

Sosyal medya karşılaştırma yöntemi aşağıdaki kaynakları içerir:

  • compare_spec_non_phone -Oluşturulan algoritmada, bu kaynağın ad biçimi şöyledir: recordType_entityType_ compare_spec_non_phone.

Değişim uzaklığı

IBM Match 360 eşleşen motoru, çeşitli özniteliklerin karşılaştırılması ve eşleştirilmesi sırasında iç işlevlerden biri olarak düzenleme uzaklığını hesaplar. Düzenleme uzaklığı, iki dizenin birbirinden ne kadar farklı olduğunu ölçen bir ölçüdür. Bir dizgiyi diğerine dönüştürmek için gereken değişiklik sayısı sayılarak hesaplanır.

Farklı dizgi işlemleri kümelerini kullanarak düzenleme uzaklığını tanımlamanın farklı yolları vardır. Varsayılan olarak IBM Match 360 , literatürde genel kullanıma açık standart bir düzenleme uzaklığı işlevini kullanır. Alternatif olarak, özel bir IBM Match 360 uzaklık işlevini kullanmayı seçebilirsiniz.

  • Standart uzaklık düzenleme işlevi , eşleşen motorun daha iyi performans göstermesini sağlar. Bu nedenle, Telefon özniteliği tipi dışındaki tüm öznitelikler için varsayılan karşılaştırma yapılandırmasıdır.

  • Özel düzenleme uzaklığı işlevi , hiper duyarlıklı kullanım senaryoları için oluşturulmuştur. Bu seçenek, 8 ve B, 0 ve O, 5 ve S ya da 1 ve I gibi yazım hatalarını ya da benzer görünümlü karakterleri dikkate alır. Benzer görünümlü karakterlere dayalı olarak karşılaştırılan iki değerde bir uyumsuzluk olduğunda, atanan benzersizlik ölçüsü, standart bir düzenleme uzaklığı işlevi tarafından atanandan daha azdır. Sonuç olarak, bu tür uyumsuzluklar, özelleştirilmiş işlev tarafından güçlü bir şekilde cezalandırılmaz.

    Önemli: Özel uzaklık düzenleme işlevi bazı karmaşık hesaplamalar içerir. Sonuç olarak, bu seçeneğin belirlenmesi, eşleştirme işlemi sırasında sistem başarımını etkiler.

Düzenleme uzaklığını özelleştirmek için API ' yi kullanma da dahil olmak üzere, eşleşen algoritmanızı özelleştirme hakkında bilgi için bkz. Eşleştirme algoritmanızı özelleştirme ve güçlendirme.

Daha fazla bilgi

Üst konu: Ana verileri yönetme

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more