0 / 0
Go back to the English version of the documentation
Odpovídající algoritmy v produktu IBM Match 360
Last updated: 24. 8. 2023
Odpovídající algoritmy v produktu IBM Match 360

Produkt IBM Match 360 with Watson používá odpovídající algoritmy pro interpretaci datových záznamů do hlavních datových entit. Datoví inženýři mohou definovat různé odpovídající algoritmy pro každý typ entity ve svých datech. Odpovídající algoritmy pak mohou analyzovat data, aby vyhodnotili a porovnával záznamy, a pak shromáždí odpovídající záznamy do entit.

K dispozici jsou dva běžné důvody ke spuštění shody na vašich datech:

  • V případě zabránění duplikaci záznamů a rozpoznání entitproces porovnání analyzuje data a určí, zda ve vašich datech existují duplicitní záznamy. Podezření duplicitní záznamy se sloučí do hlavních entit dat za účelem vytvoření jediného, důvěryhodného, 360 stupňového pohledu na vaše data.
  • Chcete-li vytvořit jiné typy přidružení entit, porovnující proces analyzuje vaše data a shromáždí záznamy do entit, které představují různé druhy seskupení, jako je například domácnost.

Chcete-li zjistit, jak používat produkt IBM Match 360 k nastavení odpovídajícího algoritmu pro upravený datový model, podívejte se na následující video.

Toto video poskytuje vizuální metodu pro seznámení se s koncepty a úlohami v této dokumentaci.

V tomto tématu:

Párování pro vytvoření více než jednoho typu entity

Odpovídající algoritmy IBM Match 360 jsou řízeny typem entity s přidruženými daty. Pro každý typ záznamu v datovém modelu můžete definovat více než jeden typ entity. Pro každý typ entity nakonfigurujte a vylaďte odpovídající odpovídající algoritmus, abyste zajistili, že produkt IBM Match 360 vytvoří entity, které splňují požadavky vaší organizace.

Jednotlivý záznam může být součástí více než jedné samostatné entity. Pokud váš datový model obsahuje více než jeden typ entity, můžete v rámci stejné datové sady spustit různé typy odpovídajících typů entit. Vezměme si například datovou sadu, která zahrnuje záznamy osob z celého podniku. Pokud typ záznamu Osoba zahrnuje definice pro typ entity Osoba a typ entity Domácnost, pak můžete spustit odpovídající algoritmus pro rozpoznání a zabránění duplikaci entit a také spustit odpovídající algoritmus pro domácnosti k vytvoření entit vytvořených ze záznamů osob, které patří do stejné domácnosti.

Odpovídající proces

Odpovídající stroj prochází definovaným procesem tak, aby odpovídal záznamům v entitách. Odpovídající proces zahrnuje tři hlavní kroky:

  1. Standardizace. Během tohoto kroku algoritmus standardizuje formát dat tak, aby mohl být zpracován odpovídajícím strojem.

  2. Pockování. Algoritmus řadí data do různých kategorií nebo "sektorů" tak, aby bylo možné porovnávat informace podobné jako-jako-, např. informace.

  3. Porovnání. Algoritmus porovnává data s cílem určit konečné skóre porovnání. Algoritmus pak použije skóre porovnání, aby určil, zda jsou záznamy shodné.

Každý z těchto kroků je definován a konfigurován odpovídajícím algoritmem.

Komponenty odpovídajícího algoritmu

Tři hlavní typy komponent definují odpovídající algoritmus IBM Match 360 :

Standardizátory

Jak již název napovídá, standardizace definují, jak se data standardizují. Standardizace umožňuje odpovídajícímu algoritmu převést hodnoty různých atributů na standardizovanou reprezentaci, kterou lze zpracovat odpovídajícím strojem.

Odpovídající algoritmus používá více standardizací. Každý standardizátor je vhodný ke zpracování specifických typů atributů, které se nacházejí v datech záznamu.

Standardizátory jsou definovány objekty JSON. Každá standardizova definice objektu JSON obsahuje tři prvky:

  • label -Štítek, který identifikuje tuto standardizaci.

  • inputs -Seznam inputs obsahuje jeden prvek, což je objekt JSON. Tento objekt JSON má dva prvky: fields a attributes:

    • fields -Seznam polí, která mají být použita pro standardizaci.
    • attributes -Seznam atributů, které mají být použity pro standardizaci.
  • standardizer_recipe -Seznam objektů JSON, ve kterých každý objekt představuje jeden krok, který má být spuštěn během standardizačního procesu přidružené standardizace. Každý objekt v seznamu standardizer_recipe se skládá ze čtyř hlavních prvků:

    • label -Štítek, který identifikuje tento krok v standardizových receptech.
    • method -Interní použitá metoda. Tento prvek je pouze pro referenci a nesmí být upravován.
    • inputs -Jeden prvek seznamu inputs definuje jednu úroveň výše.
    • fields -Seznam polí, která mají být použita pro tento krok. Tato hodnota je obvykle podmnožinou všech polí definovaných v seznamu inputs o jednu úroveň výše. Ne každý krok musí zpracovat všechna pole inputs .
    • set_resource -Název přizpůsobitelných prostředků typu set použitého pro tento krok.
    • map_resource -Název přizpůsobitelných prostředků typu map použitého pro tento krok.

    V závislosti na chování kroku může existovat více konfiguračních prvků, které jsou vyžadovány v příslušném objektu JSON.

Předkonfigurované standardizace

Následující standardizace jsou připraveny k použití v produktu IBM Match 360. Předkonfigurované standardizace jsou také upravitelné.

Standardizace jména osoby

Tento standardizátor se používá ke standardizaci hodnot atributu Jméno osoby. Obsahuje následující recepty, v pořadí:

  1. Upper case -Převede vstupní hodnoty polí tak, aby používaly jejich ekvivalenty s velkými písmeny.
  2. Map character -Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy. Volitelně definujte mapu v prostředcích IBM Match 360 .
  3. Tokenizer -Tokenizuje hodnotu vstupního pole do více tokenů na základě definovaného seznamu oddělovačů.
  4. Parse token -Analyzuje hodnoty vstupních polí k různým tokenům, v závislosti na předdefinovaných hodnotách v prostředcích IBM Match 360 . Tento recept můžete například použít k analýze hodnot přípony, předpony a generování do odpovídajících polí.
  5. Length -Vyřadí tokeny, které jsou mimo daný rozsah délky. Minimální a maximální hodnoty jsou definovány v prostředcích IBM Match 360 .
  6. Stop token -Odebere anonymní vstupní hodnoty, jak je nakonfigurováno.
  7. Pick token -Vybere dílčí sadu (nebo všechny) tokenů jako standardní data, která se mají použít ve sponu a porovnání.

Standardizace jména osoby používá při výchozím nastavení následující prostředky mapy:

  • map_character_general -Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy.
  • person_map_name_alignments -parametry přípony, předpony a generování parametrů do příslušných polí.

Standard Person Name Standardizer používá při výchozím nastavení následující nastavení prostředků:

  • person_set_name_aname -Odebere anonymní hodnoty jmen osob.
Standardizace názvu organizace

Tento standardizátor se používá ke standardizaci hodnot atributu Název organizace. Obsahuje následující recepty, v pořadí:

  1. Upper case -Převede vstupní hodnoty polí tak, aby používaly jejich ekvivalenty s velkými písmeny.
  2. Map character -Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy. Volitelně definujte mapu v prostředcích IBM Match 360 .
  3. Stop character -Odebere nežádoucí vstupní znaky z hodnot názvů.
  4. Map token -Generuje přezdívky nebo alternativní názvy pro daný vstup a ukládá informace v samostatném novém interním poli.
  5. Tokenizer -Tokenizuje hodnotu vstupního pole do více tokenů na základě definovaného seznamu oddělovačů.
  6. Stop token -Odebere anonymní vstupní hodnoty, jak je nakonfigurováno.
  7. Acronym -Generuje akronym pro daný název organizace a ukládá informace v samostatném novém interním poli. Tato hodnota akronymu se používá při porovnávání ke zpracování zkrácených názvů.
  8. Pick token -Vybere dílčí sadu (nebo všechny) tokenů jako standardní data, která se mají použít ve sponu a porovnání.

Standardizace názvu organizace používá při výchozím nastavení následující prostředky mapy:

  • map_character_general -Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy.
  • org_map_name_cnick_name -Generuje přezdívky nebo alternativní názvy pro daný vstup.

Standardizace názvu organizace používá při výchozím nastavení následující sady prostředků:

  • org_set_name_aname -Odebere anonymní hodnoty názvu organizace.
Datum standardizace

Tento standardizátor se používá ke standardizaci hodnot atributu typu Date. Podporuje mnoho různých formátů data a obsahuje následující recepty v pořadí:

  1. Map character -Převede znaky lomítka (/) na znaky pomlčky (-).
  2. Date function -Převádí datové vstupy v různých formátech do standardizovaného formátu.
  3. Stop token -Odebere anonymní hodnoty data, jak je nakonfigurováno.
  4. Parse token -Analyzuje vstupní hodnoty polí k různým tokenům, v závislosti na určitých regulárních výrazech. Tento recept můžete například použít k analýze úplného vstupu data na tokeny den, měsíc a rok.
  5. Pick token -Vybere dílčí sadu (nebo všechny) tokenů jako standardní data, která se mají použít ve sponu a porovnání.

Standard Date Standardizer používá při výchozím nastavení následující prostředky mapy:

  • map_character_date_separators-Převede lomítko (/) nebo jakékoli jiné oddělovací znaky na pomlčku (-).
  • map_date_tokens_year_month_day -Analyzuje vstupní hodnotu data na interní pole, konkrétně birth_year, birth_month a birth_day, založené na regulárních výrazech.

Standardizace data standardně používá následující sady prostředků:

  • set_date_date -Odebere anonymní hodnoty data.
Standardizace pohlaví

Tento standardizátor se používá ke standardizaci hodnot atributu Pohlaví. Obsahuje následující recepty, v pořadí:

  1. Map character -Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy. Volitelně definujte mapu v prostředcích IBM Match 360 .
  2. Upper case -Převede vstupní hodnoty polí tak, aby používaly jejich ekvivalenty s velkými písmeny.
  3. Stop token -Odebere anonymní vstupní hodnoty pohlaví tak, jak jsou nakonfigurovány.
  4. Map token -Převádí hodnoty vstupního tokenu na ekvivalentní hodnoty, jak je nakonfigurováno v prostředcích IBM Match 360 .
  5. Parse token -Parses zpracovalo hodnoty polí na odpovídající interní pole.
  6. Pick token -Vybere dílčí sadu (nebo všechny) tokenů jako standardní data, která se mají použít ve sponu a porovnání.

Standardizace pohlaví používá při výchozím nastavení následující prostředky mapy:

  • map_character_general -Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy.
  • map_gender_gender -Mapuje různé vstupní hodnoty pohlaví na standardní hodnoty.
  • map_gender_tokens_gender -Analyzuje hodnotu vstupního tokenu na interní pole gender založené na regulárním výrazu.

Standardizace pohlaví používá při výchozím nastavení následující sady prostředků:

  • set_gender_anon_gender -Odebere anonymní vstupní hodnoty pohlaví.
Standardizace adresy

Tento standardizátor se používá ke standardizaci hodnot atributu Adresa. Adresy mohou mít několik různých formátů, v závislosti na národních prostředích. Tato flexibilita vyžaduje komplexní zpracování pro převod adres na standardizovaný formulář. Standardizace adresy obsahuje následující recepty, v pořadí:

  1. Upper case -Převede vstupní hodnoty polí tak, aby používaly jejich ekvivalenty s velkými písmeny.
  2. Map character -Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy. Volitelně definujte mapu v prostředcích IBM Match 360 .
  3. Map token -Převádí hodnoty vstupního tokenu na ekvivalentní hodnoty, jak je nakonfigurováno v prostředcích IBM Match 360 . Například "Spojené státy americké", "Spojené státy" a "US" mohou být všechny namapovány na "USA". Toto mapování je běžné pro hodnoty v zemi a provincii/státu. Kromě toho jsou znaky oddělovače konfigurované v prostředku mapovány na znak mezery.
  4. Tokenizer -Tokenizuje hodnotu vstupního pole do více tokenů na základě definovaného seznamu oddělovačů.
  5. Stop token -Odebere anonymní vstupní hodnoty, jako např. poštovní směrovací čísla, jak je nakonfigurováno.
  6. Keep token -Umožňuje pouze definovaný seznam hodnot pro dané pole. Můžete například definovat seznam poštovních kódů, které jsou povoleny během standardizace. Vstupní hodnoty, které nejsou v povoleném seznamu, budou odebrány.
  7. Parse token -Analyzuje hodnoty vstupních polí k příslušným interním polím v závislosti na určitých regulárních výrazech a předdefinovaných hodnotách, jak jsou nakonfigurovány v prostředcích. Tento recept můžete použít k oříznutí daného tokenu na určitou délku pomocí regulárních výrazů. Můžete také definovat různé alfanumerické sady vzorů ve formě regulárních výrazů, které umožní pouze určité vzorky.
  8. Join fields -Sloučí dvě nebo více polí dohromady za účelem vytvoření nové kombinované hodnoty přiřazené k internímu poli. Např. hodnoty polí latitude a longitude lze spojit dohromady a vytvořit nové interní pole s názvem lat_long.
  9. Pick token -Vybere dílčí sadu (nebo všechny) tokenů jako standardní data, která se mají použít ve sponu a porovnání.

Standardizace adresy používá při výchozím nastavení následující prostředky mapy:

  • map_character_general -Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy.
  • map_address_country -Převede hodnoty vstupní země na ekvivalentní hodnoty.
  • map_address_province_state -Převede vstupní provincii a hodnoty stavu na ekvivalentní hodnoty.
  • map_address_delimiter_removal -Mapuje znaky oddělovače konfigurované v prostředku na znak mezery.
  • map_address_addr_tok -Převádí hodnoty tokenu vstupní adresy na ekvivalentní hodnoty.
  • map_address_tokens_unit_type_and_number -Analyzuje vstupní pole residence_number založené na regulárním výrazu na interní pole, konkrétně unit_type a unit_number.
  • map_address_tokens_street_number_name_direction_type -Analyzuje vstupní pole address_line1 založené na regulárním výrazu na interní pole, jmenovitě na street_number, street_name, directiona street_type.
  • map_address_tokens_sub_division -Analyzuje vstupní pole address_line2 založené na regulárním výrazu na interní pole sub_division.
  • map_address_tokens_pobox_type_and_number -Analyzuje vstupní pole address_line3 založené na regulárním výrazu na interní pole, konkrétně pobox_type a pobox.
  • map_address_tokens_city -Analyzuje vstupní hodnotu pole city na základě regulárního výrazu.
  • map_address_tokens_province -Analyzuje vstupní hodnotu pole province_state na základě regulárního výrazu k internímu poli province.
  • map_address_tokens_postal_code -Analyzuje vstupní hodnotu pole zip_postal_code na základě regulárního výrazu k internímu poli postal_code.
  • map_address_tokens_country -Analyzuje vstupní hodnotu pole country na základě regulárního výrazu.
  • map_address_tokens_latitude -Analyzuje vstupní hodnotu pole latitude_degrees založenou na regulárním výrazu na interní pole latitude.
  • map_address_tokens_longtitude -Analyzuje vstupní hodnotu pole longitude_degrees na základě regulárního výrazu k internímu poli longitude.

Standardizace adresy používá při výchozím nastavení následující sady prostředků:

  • set_address_postal_code -Odebere anonymní vstupní hodnoty pro zip_postal_code.
Standardizace telefonu

Tento standardizátor se používá ke standardizaci hodnot atributu Phone. Obsahuje následující recepty, v pořadí:

  1. Stop character -Odebere nežádoucí vstupní znaky z telefonních hodnot.
  2. Stop token -Odebere anonymní telefonní hodnoty, jak je nakonfigurováno.
  3. Phone -Parses vstupní telefonní čísla s různými formáty z různých národních prostředí do běžného formátu. Tento recept lze nakonfigurovat k odstranění kódů oblastí a kódů zemí z telefonních čísel. Může si také ponechat určitý počet číslic ve standardizovaném telefonním čísle.
  4. Parse token -Parses zpracovalo hodnoty polí na odpovídající interní pole v závislosti na určitých regulárních výrazech, jak je nakonfigurováno v prostředcích.
  5. Pick token -Vybere dílčí sadu (nebo všechny) tokenů jako standardní data, která se mají použít ve sponu a porovnání.

Standardizace telefonu používá standardně následující prostředky mapy:

  • map_phone_tokens_phone -Paruje telefonní hodnoty do interního pole na základě regulárních výrazů.

Standard Phone používá při výchozím nastavení následující nastavení prostředků:

  • set_character_phone -Nahradí všechny znaky, které nejsou alfanumerické. Umožňuje zadávat regulární výrazy.
  • set_phone_anon_phone -Odebere anonymní telefonní hodnoty.
Standardizace identifikace

Tento standardizátor se používá ke standardizaci hodnot atributu Identifikace. Obsahuje následující recepty, v pořadí:

  1. Map character -Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy. Volitelně definujte mapu v prostředcích IBM Match 360 .
  2. Upper case -Převede vstupní hodnoty polí tak, aby používaly jejich ekvivalenty s velkými písmeny.
  3. Stop character -Odebere nechtěné vstupní znaky z identifikačních hodnot.
  4. Stop token -Odebere anonymní vstupní hodnoty, jak je nakonfigurováno.
  5. Map token -Převádí hodnoty vstupního tokenu na ekvivalentní hodnoty, jak je nakonfigurováno v prostředcích IBM Match 360 .
  6. Parse token -Parses zpracovalo hodnoty polí na odpovídající interní pole v závislosti na určitých regulárních výrazech, jak je nakonfigurováno v prostředcích.
  7. Pick token -Vybere dílčí sadu (nebo všechny) tokenů jako standardní data, která se mají použít ve sponu a porovnání.

Standard Identification Standardizer používá při výchozím nastavení následující prostředky mapy:

  • map_character_general -Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy.
  • map_identifier_equi_identifier -Převádí hodnoty vstupního tokenu na ekvivalentní hodnoty.
  • map_identifier_tokens_identification_number -Parses zpracovalo hodnoty polí na odpovídající interní pole v závislosti na určitých regulárních výrazech, jak je nakonfigurováno v prostředcích.

Standard Identification Standardizer používá při výchozím nastavení následující nastavení prostředků:

  • set_character_identification_number -Odebere nealfanumerické vstupní znaky z identifikačních hodnot. Umožňuje zadávat regulární výrazy.
  • set_identifier_anonymous -Odebere anonymní identifikační hodnoty.
E-mail standardizace

Tento standardizátor se používá ke standardizaci hodnot atributu E-mail. Obsahuje následující recepty, v pořadí:

  1. Map character -Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy. Volitelně definujte mapu v prostředcích IBM Match 360 .
  2. Upper case -Převede vstupní hodnoty polí tak, aby používaly jejich ekvivalenty s velkými písmeny.
  3. Stop token -Odebere anonymní vstupní hodnoty, jak je nakonfigurováno.
  4. Map token -Převádí hodnoty vstupního tokenu na ekvivalentní hodnoty, jak je nakonfigurováno v prostředcích IBM Match 360 .
  5. Parse token -Parses zpracovalo hodnoty polí na odpovídající interní pole v závislosti na určitých regulárních výrazech, jak je nakonfigurováno v prostředcích.
  6. Pick token -Vybere dílčí sadu (nebo všechny) tokenů jako standardní data, která se mají použít ve sponu a porovnání.

Standard e-mailu používá standardně tyto prostředky mapy:

  • map_character_general -Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy.
  • map_non_phone_equi_non_phone -Převádí hodnoty vstupního tokenu na ekvivalentní hodnoty.
  • map_non_phone_tokens_non_phone -Analyzuje vstupní pole email_id založené na regulárním výrazu na interní pole email_local_part a email_domain.

Standard e-mailu používá při výchozím nastavení následující sady prostředků:

  • set_non_phone_anon_non_phone -Odebere anonymní e-mailové hodnoty.
Standardizace sociálních médií

Tato standardizace se používá ke standardizaci hodnot atributů sociálních médií. Obsahuje následující recepty, v pořadí:

  1. Map character -Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy. Volitelně definujte mapu v prostředcích IBM Match 360 .
  2. Upper case -Převede vstupní hodnoty polí tak, aby používaly jejich ekvivalenty s velkými písmeny.
  3. Stop token -Odebere anonymní vstupní hodnoty, jak je nakonfigurováno.
  4. Map token -Převádí hodnoty vstupního tokenu na ekvivalentní hodnoty, jak je nakonfigurováno v prostředcích IBM Match 360 .
  5. Parse token -Parses zpracovalo hodnoty polí na odpovídající interní pole v závislosti na určitých regulárních výrazech, jak je nakonfigurováno v prostředcích.
  6. Pick token -Vybere dílčí sadu (nebo všechny) tokenů jako standardní data, která se mají použít ve sponu a porovnání.

Standardizace sociálních médií standardně používá následující prostředky mapy:

  • map_character_general -Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy.
  • map_non_phone_equi_non_phone -Převádí hodnoty vstupního tokenu na ekvivalentní hodnoty.
  • map_non_phone_tokens_non_phone -Analyzuje vstupní pole social_media_handle na interní pole social_media_id založené na řádných výrazech.

Standardizace sociálních médií standardně používá následující sady prostředků:

  • set_non_phone_anon_non_phone -Odebere anonymní hodnoty social_media_id.

Typy entit (předávaní)

V rámci jediného odpovídajícího algoritmu může mít každý typ záznamu více definic typů entit (objektyentity_type JSON). Například v algoritmu definovaném pro typ záznamu osoby může být zapotřebí vytvořit více než jednu definici typu entity, jako např. entitu osoby, entitu domácnosti, entitu umístění a další.

Každý typ entity lze použít k tomu, aby se záznamy shodoval a propojí záznamy různými způsoby. Typ entity definuje, jak jsou záznamy přebušeny a porovnávány během odpovídajícího procesu.

Každá definice typu entity (entity_type) v odpovídajícím algoritmu má několik prvků JSON:

  • clerical_review_threshold -Záznamy, které mají skóre porovnání nižší než prahová hodnota administrativní kontroly, jsou považovány za neshodné.

  • auto_link_threshold -Záznamy, které mají skóre porovnání vyšší než prahová hodnota automatického propojení, se považují za dostatečně silné shody, že se automaticky shodují.

  • bucket_generators -Tento oddíl obsahuje definici generátorů sektorů konfigurovaných pro typ entity. K dispozici jsou dva typy generátorů sektoru: sektory a skupiny sektorů.

    • Sektory zahrnují vytváření buků pouze pro jeden atribut. Každá definice bucket obsahuje čtyři prvky:

      • label -Popisek, který identifikuje generátor sektoru.
      • maximum_bucket_size -Hodnota, která definuje velikost velkých sektorů. Jakýkoli hašovací kód sektoru s velikostí sektoru větší, než je tato hodnota, se nepovažuje za výběr kandidáta během porovnávání.
      • inputs -Pro sektory má seznam inputs pouze jeden prvek, což je objekt JSON. Tento objekt JSON má dva prvky: fields a attributes:
        • fields -Seznam polí, která se mají použít pro bujování.
        • attributes -Seznam atributů, které se mají použít pro vybuzky.
      • bucket_recipe -Seznam receptů na sektor definuje kroky, které generátor sektoru dokončí během procesu vytváření. Každý seznam bucket_recipe má několik dílčích prvků:
        • label -Štítek, který identifikuje prvek receptu sektoru.
        • method -Interní použitá metoda. Tento prvek je pouze pro referenci a nesmí být upravován.
        • inputs -Jeden prvek seznamu inputs definuje jednu úroveň výše.
        • fields -Seznam polí, která mají být použita pro tento sektor. Tato hodnota je obvykle podmnožinou všech polí definovaných v seznamu inputs o jednu úroveň výše.
        • min_tokens -Minimální počet tokenů, které se mají použít, když se receptem vytváří hašovací kód sektoru.
        • max_tokens -Maximální počet tokenů, které lze použít dohromady, když se receptem vytváří hašovací kód sektoru.
        • count -Limit počtu hašování sektoru pro jednotlivý záznam, který se vygeneruje z generátoru sektoru. Pokud záznam generuje velké množství hašování, zvedne se pouze počet hašování nastavených tímto prvkem.
        • bucket_group -Pořadové číslo pro skupinu sektorů, která vytváří hašovací kód sektoru. Prostřední kroky nebo recepty by nepřiřazují pořadové číslo.
        • order -Určuje, zda jsou tokeny řazeny v lexikografickém pořadí, když je více tokenů zkombinováno do tvaru hašovací tabulky sektoru.
        • maximum_bucket_size -Hodnota, která definuje velikost velkých sektorů. Tento prvek je stejný jako ten, který je definován na úrovni generátoru sektoru; také jej má na úrovni receptu sektoru, který vám dává jemnější kontrolu nad velkými jednotlivými sektory.
    • Skupiny sektorů zahrnují spony pro více než jeden atribut. Každá definice bucket_group obsahuje pět prvků:

      • label -Popisek, který identifikuje generátor sektoru.
      • maximum_bucket_size -Hodnota, která definuje velikost velkých sektorů. Jakýkoli hašovací kód sektoru s velikostí sektoru větší, než je tato hodnota, se nepovažuje za výběr kandidáta během porovnávání.
      • inputs -Pro skupiny sektorů má seznam inputs více než jeden prvek objektu JSON. Každý objekt JSON má dva prvky: fields a attributes:
        • fields -Seznam polí, která se mají použít pro bujování.
        • attributes -Seznam atributů, které se mají použít pro vybuzky.
      • bucket_recipe -Seznam receptů na sektor definuje kroky, které generátor sektoru dokončí během procesu vytváření. Každý seznam bucket_recipe má několik dílčích prvků:
        • label -Štítek, který identifikuje prvek receptu sektoru.
        • method -Interní použitá metoda. Tento prvek je pouze pro referenci a nesmí být upravován.
        • inputs -Jeden prvek seznamu inputs definuje jednu úroveň výše.
        • fields -Seznam polí, která mají být použita pro tento sektor. Toto je obvykle podmnožina všech polí, která jsou definována v rámci inputs seznamu o jednu úroveň výše.
        • min_tokens -Minimální počet tokenů, které se mají použít, když se receptem vytváří hašovací kód sektoru.
        • max_tokens -Maximální počet tokenů, které lze použít dohromady, když se receptem vytváří hašovací kód sektoru.
        • count -Limit počtu hašování sektoru pro jednotlivý záznam, který se vygeneruje z generátoru sektoru. Pokud záznam vygeneruje mnoho hašování sektoru, vybere se pouze počet hašování nastavených tímto prvkem.
        • bucket_group -Pořadové číslo pro skupinu sektorů, která vytváří hašovací kód sektoru. Prostřední kroky nebo recepty by nepřiřazují pořadové číslo.
        • order -Určuje, zda jsou tokeny řazeny v lexikografickém pořadí, když je více tokenů zkombinováno do tvaru hašovací tabulky sektoru.
        • maximum_bucket_size -Hodnota, která definuje velikost velkých sektorů. Tento prvek je stejný jako ten, který je definován na úrovni generátoru sektoru. Schopnost definovat ji na úrovni sektoru receptury vám dává jemnější kontrolu nad velkými jednotlivými sektory.
        • set_resource -Název prostředku typu set použitého pro sektor receptu.
        • map_resource -Název prostředku typu map použitého pro sektor receptu.
        • output_fields -Pokud tento recept vytvoří nová pole po dokončení práce s přebukami ve vstupních polích, tento prvek obsahuje seznam názvů generovaných polí.
      • bucket_group_recipe -sekce receptů skupiny sektoru se obvykle používá pro definování sektorů, které se skládají z více než jednoho atributu. Každý prvek seznamu bucket_group_recipe je objekt JSON definující konstrukt pro jednu skupinu sektorů.
        • Seznam inputs v rámci bucket_group_recipe má více než jeden prvek, což znamená, že se odkazuje na více než jeden atribut definovaný v poli inputs o jednu úroveň výš.
        • Prvek fields je seznam seznamů. Každý vnitřní seznam polí je přidružen k příslušnému seznamu attributes .
        • Seznamy min_tokens a max_tokens mají více než jeden prvek, přičemž každý prvek odpovídá příslušnému seznamu attributes .
      Pozn.:

      V některých definicích receptů se jedná o vlastnost, která má název search_only. Při výchozím nastavení je jeho hodnota false. Je-li tato vlastnost nastavena na hodnotu true, znamená to, že skupina nebo skupina sektorů se používá pouze pro pravděpodobnostní scénáře vyhledávání a nepoužívá se pro scénáře rozpoznání entit (shody).

  • compare_methods -Definice metod porovnání, které jsou konfigurovány pro typ entity. Každý objekt JSON compare_methods se skládá z definic různých metod compare . Srovnávací algoritmus přidá skóre z každé definice metody compare , aby získal konečné skóre porovnání. Každý objekt JSON metody compare obsahuje tři prvky:

    • label -Označení, které identifikuje metodu compare .
    • methods -Seznam komparátorů, které tvoří porovnávací skupinu. Každý prvek v tomto poli představuje jeden komparátor, který je určen pro jeden typ atributu shody. Odpovídající algoritmus bere v úvahu maximum skóre ze všech komparátorů v seznamu methods jako konečné skóre z této skupiny porovnání. Každá definice porovnání obsahuje dva prvky:
      • inputs -Pro komparátory má seznam inputs pouze jeden prvek, což je objekt JSON. Tento objekt JSON má dva prvky: fields a attributes:
        • fields -Seznam polí, která mají být použita pro porovnání.
        • attributes -Seznam atributů, které mají být použity pro porovnání.
      • compare_recipe -Tento seznam se používá hlavně pro definování porovnávacích kroků. V tomto poli je zpravidla pouze jeden prvek JSON, který představuje pouze jeden krok pro provedení porovnání. Tento krok má pět prvků:
        • label -Štítek, který identifikuje krok porovnání.
        • method -Interní použitá metoda. Tento prvek je pouze pro referenci a nesmí být upravován.
        • inputs -Jeden prvek seznamu inputs definuje jednu úroveň výše.
        • fields -Pole, která mají být použita pro toto porovnání, ze všech polí, která jsou definována v seznamu inputs o jednu úroveň výše.
        • comparison_resource -Název přizpůsobitelných porovnávacích prostředků použitých pro tento krok porovnání.
    • weights -Každé porovnání, které provede komparátor, má za následek skóre z 0 až 10. Toto číslo se nazývá měřítko vzdálenosti nebo dis-podobnosti. Vzdálenost 0 označuje, že porovnávané hodnoty jsou přesně stejné. Vzdálenost 10 označuje, že se zcela liší. Odpovídá 11 odlišeným hodnotám (0-10), 11 závaží je definováno pro každý komparátor. Po výpočtu vzdálenosti určuje porovnávací metoda odpovídající hodnotu váhy ze seznamu vah, což vede k celkovému skóre porovnání. Inženýři dat si mohou podle potřeby přizpůsobit váhy na základě kvality, distribuce a jiných faktorů.
  • record_filter -Prvek filtrování záznamů umožňuje, aby odpovídající stroj vybral záznamy pro porovnávání na základě typů entit. Každá definice filtru záznamu obsahuje jeden prvek:

    • criteria -Zahrnuje nebo vylučuje záznamy z porovnávání za určitých podmínek. Tento prvek obsahuje jeden objekt JSON s dvojicí klíč-hodnota.

      Klíč objektu JSON criteria je název atributu. Může se jednat o jednu z následujících možností:

      • Systémový atribut produktu record_source .
      • Uživatelem definovaný vlastní atribut typu jednoduchého atributu (řetězec).

    Hodnota objektu JSON criteria je dalším objektem JSON obsahujícím jeden prvek, který může být jeden z následujících:

    • allowed -Pole hodnot řetězce. Záznamy, které obsahují některou z těchto hodnot, budou považovány za vyhovující.
    • disallowed -Pole hodnot řetězce. Záznamy, které obsahují některou z těchto hodnot, nebudou během porovnávání považovány za považovány za vyhovující.

Pockování prostředků

Definice spony používají při výchozím nastavení následující prostředky mapy:

  • person_map_name_nickname -Generuje přezdívky nebo alternativní názvy pro daný vstup jména osoby.
  • org_map_name_cnick_name -Generuje přezdívky nebo alternativní názvy pro daný vstup názvu organizace.

Definice spony používají při výchozím nastavení následující nastavení prostředků:

  • person_set_name_bkt_anon -Odebere anonymní hodnoty jmen osob.
  • org_set_name_acname -Odebere anonymní hodnoty názvu organizace.

Porovnávací funkce

Porovnávací funkce, někdy nazývané komparátory, jsou jednou z klíčových komponent odpovídajícího algoritmu. Porovnávací funkce jsou používány odpovídajícím strojem k porovnání dat záznamu během odpovídajícího procesu. V zásadě porovnávání záznamů zahrnuje porovnání různých typů atributů mezi různými daty záznamů.

U mnoha běžně používaných typů atributů v doménách osob, organizací a lokalit produkt IBM Match 360 odpovídá předkonfigurovaným metodám porovnání.

V produktu IBM Match 360používají funkce porovnání přístup k porovnání označovaný jako vektory funkcí. V produktu IBM Match 360 se používají různé definice přizpůsobitelných funkcí, které se používají pro různé funkce porovnání. Každé porovnání má za následek měřítko vzdálenosti (vektoru), které ukazuje, jak jsou hodnoty atributů odlišné od obou.

V odpovídajícím algoritmu je každá hodnota diskrétní vzdálenosti dána váhou, která určuje, jak silně tuto hodnotu považovat za tuto hodnotu. Hmotnost spojuje se vzdáleností, aby bylo dosaženo porovnání skóre. Odpovídající algoritmus přidá všechny výsledky porovnání dohromady, aby se dospělo k závěrečnému skóre porovnání pro celkové porovnání záznamů-na-záznam.

O funkcích

Funkce představuje podrobnosti o podrobné úrovni funkce porovnání. Různé typy atributů používají různé typy kontrol podobnosti, což znamená, že jejich funkce se liší i v různých typech.

Definice funkcí určují typy vnitřních funkcí, které se používají pro každou porovnávací funkci. Mezi příklady interních funkcí patří přesná shoda, editační vzdálenost, přezdívka, fonetický ekvivalent nebo počáteční shoda.

Prostředky porovnání

Každá metoda porovnání zahrnuje prostředky, které obsahují podrobnosti o interních operacích porovnání.

Každý z výchozích typů porovnání má své vlastní prostředky. Podrobnosti o přidružených prostředcích naleznete v jednotlivých typech porovnání.

Pro porovnání na vlastních typech atributů, které mají odpovídající typ generic, generická metoda porovnání zahrnuje následující prostředky:

  • compare_spec_generic -V generovaném algoritmu je formát názvu tohoto prostředku recordType_entityType_compare_spec_generic.

Porovnání jmen osob

Různá pole v atributu jména osoby jsou obsluhována odlišně. Pro pole, jako je předpona, přípona a hodnoty generování, se kontroluje přesnost nebo neshodující se. Jiná pole, jako např. křestní jméno, příjmení a prostřední jméno, primárně používají následující funkce:

  • Přesná shoda
  • Shoda přezdívek
  • Upravit vzdálenost
  • Iniciály se shodují
  • Fonetické porovnávání
  • Nesprávné umístění tokenů
  • Další tokeny
  • Chybějící hodnoty

Metoda porovnání jména osoby zahrnuje následující prostředky:

  • person_compare_spec_name -V generovaném algoritmu je formát názvu tohoto prostředku recordType_entityType_ compare_spec_name. Například: person_person_entity_compare_spec_name.

Porovnání názvu organizace

Pro názvy organizací existuje jedno pole, které obsahuje celé obchodní jméno. Toto pole je porovnáváno s použitím primárně následujících funkcí:

  • Přesná shoda
  • Shoda přezdívek
  • Upravit vzdálenost
  • Iniciály se shodují
  • Fonetické porovnávání
  • Nesprávné umístění tokenů
  • Další tokeny
  • Chybějící hodnoty

Pro názvy organizací se také porovnávají zkratky a přezdívky pro přesnost.

Metoda porovnání názvu organizace zahrnuje následující prostředky:

  • org_compare_spec_name -V generovaném algoritmu je formát názvu tohoto prostředku recordType_entityType_ compare_spec_name.

Porovnání data

Pro data existují obvykle tři pole k porovnání: den, měsíc a rok.

Pole year je porovnáno s následujícími funkcemi:

  • Exast
  • Upravit vzdálenost
  • Nevyhovující
  • Chybějící

Pole day a month se porovnávají s použitím následujících funkcí:

  • Exast
  • Nevyhovující
  • Chybějící

Komparátor data také kontroluje, zda byla pole day a month transponována kvůli rozdílům národního prostředí ve formátu data.

Metoda porovnání data zahrnuje následující prostředky:

  • compare_spec_date -V generovaném algoritmu je formát názvu tohoto prostředku recordType_entityType_ compare_spec_date.

Porovnání pohlaví

Atribut pohlaví je porovnán s použitím následujících funkcí:

  • Exast
  • Nevyhovující

Metoda porovnání pohlaví zahrnuje následující prostředky:

  • compare_spec_gender -V generovaném algoritmu je formát názvu tohoto prostředku recordType_entityType_ compare_spec_gender.

Porovnání adres

Různá pole v rámci atributu adresy se zpracovávají jinak.

Pole jako země, město, provincie/stát a subdivize se porovnávají s použitím následujících funkcí:

  • Exast
  • Rovnocennost
  • Upravit vzdálenost
  • Nevyhovující
  • Chybějící

Pole PSČ se porovnávají s použitím následujících funkcí:

  • Exast
  • Upravit vzdálenost
  • Nevyhovující
  • Chybějící

Pole jako číslo ulice, název ulice, typ ulice, číslo jednotky a směr se porovnávají s pomocí následujících funkcí:

  • Exast
  • Rovnocennost
  • Iniciály se shodují
  • Upravit vzdálenost
  • Nevyhovující
  • Nesprávné umístění tokenů
  • Chybějící

Metoda porovnání adresy zahrnuje následující prostředky:

  • compare_spec_address -V generovaném algoritmu je formát názvu tohoto prostředku recordType_entityType_ compare_spec_address.

Porovnávání telefonu

Atributy telefonního čísla se porovnávají s použitím následujících funkcí:

  • Přesná shoda
  • Upravit vzdálenost
  • Nevyhovující

Metoda porovnání telefonu zahrnuje následující prostředky:

  • compare_spec_phone -V generovaném algoritmu by formát názvu tohoto prostředku byl recordType_entityType_ compare_spec_phone.

Porovnání identifikátorů

Atributy identifikačního čísla se porovnávají s použitím následujících funkcí:

  • Přesná shoda
  • Upravit vzdálenost
  • Nevyhovující

Metoda porovnání identifikátorů zahrnuje následující prostředky:

  • compare_spec_identifier -V generovaném algoritmu je formát názvu tohoto prostředku recordType_entityType_ compare_spec_identifier.

Porovnání e-mailu

Atributy e-mailu se skládají ze dvou částí: z jedinečného ID (před symbolem @) a domény e-mailu (za symbolem @). ID a části domén se porovnávají odděleně s použitím následujících funkcí:

  • Přesná shoda
  • Upravit vzdálenost
  • Nevyhovující

Výsledek těchto dvou porovnání se kombinuje s váženým způsobem, aby bylo dosaženo celkového skóre porovnání.

Metoda porovnání e-mailu obsahuje následující prostředky:

  • compare_spec_email -V generovaném algoritmu je formát názvu tohoto prostředku recordType_entityType_ compare_spec_email.

Porovnání sociálních médií

Atributy obsluhy sociálních médií se porovnávají s použitím následujících funkcí:

  • Přesná shoda
  • Upravit vzdálenost
  • Nevyhovující

Metoda porovnání sociálních médií zahrnuje následující prostředky:

  • compare_spec_non_phone -V generovaném algoritmu je formát názvu tohoto prostředku recordType_entityType_ compare_spec_non_phone.

Upravit vzdálenost

Odpovídající stroj IBM Match 360 vypočítá vzdálenost úprav jako jednu z interních funkcí během porovnání a porovnávání různých atributů. Editační vzdálenost je měření toho, jak se podobné dva řetězce od sebe navzájem liší. Vypočítává se tím, že se počítá počet změn požadovaných k transformaci jednoho řetězce na druhý.

Existují různé způsoby, jak definovat vzdálenost úprav pomocí různých sad řetězcových operací. Produkt IBM Match 360 standardně používá standardní funkci úpravy vzdálenosti, která je veřejně dostupná v literatuře. Jako alternativu si můžete zvolit použití specializované funkce úpravy vzdálenosti IBM Match 360 .

  • Standardní funkce úpravy vzdálenosti poskytuje lepší výkon pro odpovídající stroj. Z tohoto důvodu se jedná o výchozí konfiguraci porovnání pro všechny atributy kromě typu atributu Telefon.

  • Specializovaná funkce úpravy vzdálenosti je sestavena pro případy použití hyperprecision use. Tato možnost bere v úvahu překlepy nebo podobné znaky jako jsou 8 a B, 0 a O, 5 a S nebo 1 a I. Dojde-li k neshodě ve dvou porovnávaných hodnotách založených na podobných znacích, přiřazenému ukazateli nesouladu je menší než to, co by bylo přiřazeno standardní funkcí úpravy vzdálenosti. V důsledku toho se tyto typy neshod netrestáni tak silně do specializované funkce.

    Důležité: Speciální funkce pro úpravu vzdálenosti zahrnuje některé složité výpočty. V důsledku toho má výběr této volby vliv na výkon systému během odpovídajícího procesu.

Informace o úpravě vašeho odpovídajícího algoritmu, včetně použití rozhraní API k přizpůsobení vzdálenosti úprav, viz téma Úprava a posílení algoritmu porovnávání.

Další informace

Nadřazené téma: Správa hlavních dat

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more