Translation not up to date
Produkt IBM Match 360 with Watson používá odpovídající algoritmy pro interpretaci datových záznamů do hlavních datových entit. Datoví inženýři mohou definovat různé odpovídající algoritmy pro každý typ entity ve svých datech. Odpovídající algoritmy pak mohou analyzovat data, aby vyhodnotili a porovnával záznamy, a pak shromáždí odpovídající záznamy do entit.
K dispozici jsou dva běžné důvody ke spuštění shody na vašich datech:
- V případě zabránění duplikaci záznamů a rozpoznání entitproces porovnání analyzuje data a určí, zda ve vašich datech existují duplicitní záznamy. Podezření duplicitní záznamy se sloučí do hlavních entit dat za účelem vytvoření jediného, důvěryhodného, 360 stupňového pohledu na vaše data.
- Chcete-li vytvořit jiné typy přidružení entit, porovnující proces analyzuje vaše data a shromáždí záznamy do entit, které představují různé druhy seskupení, jako je například domácnost.
Chcete-li zjistit, jak používat produkt IBM Match 360 k nastavení odpovídajícího algoritmu pro upravený datový model, podívejte se na následující video.
Toto video poskytuje vizuální metodu pro seznámení se s koncepty a úlohami v této dokumentaci.
V tomto tématu:
- Zjišťování shody pro vytvoření více než jednoho typu entity
- Odpovídající proces
- Komponenty odpovídajícího algoritmu
Párování pro vytvoření více než jednoho typu entity
Odpovídající algoritmy IBM Match 360 jsou řízeny typem entity s přidruženými daty. Pro každý typ záznamu v datovém modelu můžete definovat více než jeden typ entity. Pro každý typ entity nakonfigurujte a vylaďte odpovídající odpovídající algoritmus, abyste zajistili, že produkt IBM Match 360 vytvoří entity, které splňují požadavky vaší organizace.
Jednotlivý záznam může být součástí více než jedné samostatné entity. Pokud váš datový model obsahuje více než jeden typ entity, můžete v rámci stejné datové sady spustit různé typy odpovídajících typů entit. Vezměme si například datovou sadu, která zahrnuje záznamy osob z celého podniku. Pokud typ záznamu Osoba zahrnuje definice pro typ entity Osoba a typ entity Domácnost, pak můžete spustit odpovídající algoritmus pro rozpoznání a zabránění duplikaci entit a také spustit odpovídající algoritmus pro domácnosti k vytvoření entit vytvořených ze záznamů osob, které patří do stejné domácnosti.
Odpovídající proces
Odpovídající stroj prochází definovaným procesem tak, aby odpovídal záznamům v entitách. Odpovídající proces zahrnuje tři hlavní kroky:
Standardizace. Během tohoto kroku algoritmus standardizuje formát dat tak, aby mohl být zpracován odpovídajícím strojem.
Pockování. Algoritmus řadí data do různých kategorií nebo "sektorů" tak, aby bylo možné porovnávat informace podobné jako-jako-, např. informace.
Porovnání. Algoritmus porovnává data s cílem určit konečné skóre porovnání. Algoritmus pak použije skóre porovnání, aby určil, zda jsou záznamy shodné.
Každý z těchto kroků je definován a konfigurován odpovídajícím algoritmem.
Komponenty odpovídajícího algoritmu
Tři hlavní typy komponent definují odpovídající algoritmus IBM Match 360 :
Standardizátory
Jak již název napovídá, standardizace definují, jak se data standardizují. Standardizace umožňuje odpovídajícímu algoritmu převést hodnoty různých atributů na standardizovanou reprezentaci, kterou lze zpracovat odpovídajícím strojem.
Odpovídající algoritmus používá více standardizací. Každý standardizátor je vhodný ke zpracování specifických typů atributů, které se nacházejí v datech záznamu.
Standardizátory jsou definovány objekty JSON. Každá standardizova definice objektu JSON obsahuje tři prvky:
label
-Štítek, který identifikuje tuto standardizaci.inputs
-Seznaminputs
obsahuje jeden prvek, což je objekt JSON. Tento objekt JSON má dva prvky:fields
aattributes
:fields
-Seznam polí, která mají být použita pro standardizaci.attributes
-Seznam atributů, které mají být použity pro standardizaci.
standardizer_recipe
-Seznam objektů JSON, ve kterých každý objekt představuje jeden krok, který má být spuštěn během standardizačního procesu přidružené standardizace. Každý objekt v seznamustandardizer_recipe
se skládá ze čtyř hlavních prvků:label
-Štítek, který identifikuje tento krok v standardizových receptech.method
-Interní použitá metoda. Tento prvek je pouze pro referenci a nesmí být upravován.inputs
-Jeden prvek seznamuinputs
definuje jednu úroveň výše.fields
-Seznam polí, která mají být použita pro tento krok. Tato hodnota je obvykle podmnožinou všech polí definovaných v seznamuinputs
o jednu úroveň výše. Ne každý krok musí zpracovat všechna poleinputs
.set_resource
-Název přizpůsobitelných prostředků typuset
použitého pro tento krok.map_resource
-Název přizpůsobitelných prostředků typumap
použitého pro tento krok.
V závislosti na chování kroku může existovat více konfiguračních prvků, které jsou vyžadovány v příslušném objektu JSON.
Předkonfigurované standardizace
Následující standardizace jsou připraveny k použití v produktu IBM Match 360. Předkonfigurované standardizace jsou také upravitelné.
Standardizace jména osoby
Tento standardizátor se používá ke standardizaci hodnot atributu Jméno osoby. Obsahuje následující recepty, v pořadí:
Upper case
-Převede vstupní hodnoty polí tak, aby používaly jejich ekvivalenty s velkými písmeny.Map character
-Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy. Volitelně definujte mapu v prostředcích IBM Match 360 .Tokenizer
-Tokenizuje hodnotu vstupního pole do více tokenů na základě definovaného seznamu oddělovačů.Parse token
-Analyzuje hodnoty vstupních polí k různým tokenům, v závislosti na předdefinovaných hodnotách v prostředcích IBM Match 360 . Tento recept můžete například použít k analýze hodnot přípony, předpony a generování do odpovídajících polí.Length
-Vyřadí tokeny, které jsou mimo daný rozsah délky. Minimální a maximální hodnoty jsou definovány v prostředcích IBM Match 360 .Stop token
-Odebere anonymní vstupní hodnoty, jak je nakonfigurováno.Pick token
-Vybere dílčí sadu (nebo všechny) tokenů jako standardní data, která se mají použít ve sponu a porovnání.
Standardizace jména osoby používá při výchozím nastavení následující prostředky mapy:
map_character_general
-Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy.person_map_name_alignments
-parametry přípony, předpony a generování parametrů do příslušných polí.
Standard Person Name Standardizer používá při výchozím nastavení následující nastavení prostředků:
person_set_name_aname
-Odebere anonymní hodnoty jmen osob.
Standardizace názvu organizace
Tento standardizátor se používá ke standardizaci hodnot atributu Název organizace. Obsahuje následující recepty, v pořadí:
Upper case
-Převede vstupní hodnoty polí tak, aby používaly jejich ekvivalenty s velkými písmeny.Map character
-Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy. Volitelně definujte mapu v prostředcích IBM Match 360 .Stop character
-Odebere nežádoucí vstupní znaky z hodnot názvů.Map token
-Generuje přezdívky nebo alternativní názvy pro daný vstup a ukládá informace v samostatném novém interním poli.Tokenizer
-Tokenizuje hodnotu vstupního pole do více tokenů na základě definovaného seznamu oddělovačů.Stop token
-Odebere anonymní vstupní hodnoty, jak je nakonfigurováno.Acronym
-Generuje akronym pro daný název organizace a ukládá informace v samostatném novém interním poli. Tato hodnota akronymu se používá při porovnávání ke zpracování zkrácených názvů.Pick token
-Vybere dílčí sadu (nebo všechny) tokenů jako standardní data, která se mají použít ve sponu a porovnání.
Standardizace názvu organizace používá při výchozím nastavení následující prostředky mapy:
map_character_general
-Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy.org_map_name_cnick_name
-Generuje přezdívky nebo alternativní názvy pro daný vstup.
Standardizace názvu organizace používá při výchozím nastavení následující sady prostředků:
org_set_name_aname
-Odebere anonymní hodnoty názvu organizace.
Datum standardizace
Tento standardizátor se používá ke standardizaci hodnot atributu typu Date. Podporuje mnoho různých formátů data a obsahuje následující recepty v pořadí:
Map character
-Převede znaky lomítka (/
) na znaky pomlčky (-
).Date function
-Převádí datové vstupy v různých formátech do standardizovaného formátu.Stop token
-Odebere anonymní hodnoty data, jak je nakonfigurováno.Parse token
-Analyzuje vstupní hodnoty polí k různým tokenům, v závislosti na určitých regulárních výrazech. Tento recept můžete například použít k analýze úplného vstupu data na tokeny den, měsíc a rok.Pick token
-Vybere dílčí sadu (nebo všechny) tokenů jako standardní data, která se mají použít ve sponu a porovnání.
Standard Date Standardizer používá při výchozím nastavení následující prostředky mapy:
map_character_date_separators
-Převede lomítko (/
) nebo jakékoli jiné oddělovací znaky na pomlčku (-
).map_date_tokens_year_month_day
-Analyzuje vstupní hodnotu data na interní pole, konkrétněbirth_year
,birth_month
abirth_day
, založené na regulárních výrazech.
Standardizace data standardně používá následující sady prostředků:
set_date_date
-Odebere anonymní hodnoty data.
Standardizace pohlaví
Tento standardizátor se používá ke standardizaci hodnot atributu Pohlaví. Obsahuje následující recepty, v pořadí:
Map character
-Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy. Volitelně definujte mapu v prostředcích IBM Match 360 .Upper case
-Převede vstupní hodnoty polí tak, aby používaly jejich ekvivalenty s velkými písmeny.Stop token
-Odebere anonymní vstupní hodnoty pohlaví tak, jak jsou nakonfigurovány.Map token
-Převádí hodnoty vstupního tokenu na ekvivalentní hodnoty, jak je nakonfigurováno v prostředcích IBM Match 360 .Parse token
-Parses zpracovalo hodnoty polí na odpovídající interní pole.Pick token
-Vybere dílčí sadu (nebo všechny) tokenů jako standardní data, která se mají použít ve sponu a porovnání.
Standardizace pohlaví používá při výchozím nastavení následující prostředky mapy:
map_character_general
-Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy.map_gender_gender
-Mapuje různé vstupní hodnoty pohlaví na standardní hodnoty.map_gender_tokens_gender
-Analyzuje hodnotu vstupního tokenu na interní polegender
založené na regulárním výrazu.
Standardizace pohlaví používá při výchozím nastavení následující sady prostředků:
set_gender_anon_gender
-Odebere anonymní vstupní hodnoty pohlaví.
Standardizace adresy
Tento standardizátor se používá ke standardizaci hodnot atributu Adresa. Adresy mohou mít několik různých formátů, v závislosti na národních prostředích. Tato flexibilita vyžaduje komplexní zpracování pro převod adres na standardizovaný formulář. Standardizace adresy obsahuje následující recepty, v pořadí:
Upper case
-Převede vstupní hodnoty polí tak, aby používaly jejich ekvivalenty s velkými písmeny.Map character
-Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy. Volitelně definujte mapu v prostředcích IBM Match 360 .Map token
-Převádí hodnoty vstupního tokenu na ekvivalentní hodnoty, jak je nakonfigurováno v prostředcích IBM Match 360 . Například "Spojené státy americké", "Spojené státy" a "US" mohou být všechny namapovány na "USA". Toto mapování je běžné pro hodnoty v zemi a provincii/státu. Kromě toho jsou znaky oddělovače konfigurované v prostředku mapovány na znak mezery.Tokenizer
-Tokenizuje hodnotu vstupního pole do více tokenů na základě definovaného seznamu oddělovačů.Stop token
-Odebere anonymní vstupní hodnoty, jako např. poštovní směrovací čísla, jak je nakonfigurováno.Keep token
-Umožňuje pouze definovaný seznam hodnot pro dané pole. Můžete například definovat seznam poštovních kódů, které jsou povoleny během standardizace. Vstupní hodnoty, které nejsou v povoleném seznamu, budou odebrány.Parse token
-Analyzuje hodnoty vstupních polí k příslušným interním polím v závislosti na určitých regulárních výrazech a předdefinovaných hodnotách, jak jsou nakonfigurovány v prostředcích. Tento recept můžete použít k oříznutí daného tokenu na určitou délku pomocí regulárních výrazů. Můžete také definovat různé alfanumerické sady vzorů ve formě regulárních výrazů, které umožní pouze určité vzorky.Join fields
-Sloučí dvě nebo více polí dohromady za účelem vytvoření nové kombinované hodnoty přiřazené k internímu poli. Např. hodnoty polílatitude
alongitude
lze spojit dohromady a vytvořit nové interní pole s názvemlat_long
.Pick token
-Vybere dílčí sadu (nebo všechny) tokenů jako standardní data, která se mají použít ve sponu a porovnání.
Standardizace adresy používá při výchozím nastavení následující prostředky mapy:
map_character_general
-Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy.map_address_country
-Převede hodnoty vstupní země na ekvivalentní hodnoty.map_address_province_state
-Převede vstupní provincii a hodnoty stavu na ekvivalentní hodnoty.map_address_delimiter_removal
-Mapuje znaky oddělovače konfigurované v prostředku na znak mezery.map_address_addr_tok
-Převádí hodnoty tokenu vstupní adresy na ekvivalentní hodnoty.map_address_tokens_unit_type_and_number
-Analyzuje vstupní poleresidence_number
založené na regulárním výrazu na interní pole, konkrétněunit_type
aunit_number
.map_address_tokens_street_number_name_direction_type
-Analyzuje vstupní poleaddress_line1
založené na regulárním výrazu na interní pole, jmenovitě nastreet_number
,street_name
,direction
astreet_type
.map_address_tokens_sub_division
-Analyzuje vstupní poleaddress_line2
založené na regulárním výrazu na interní polesub_division
.map_address_tokens_pobox_type_and_number
-Analyzuje vstupní poleaddress_line3
založené na regulárním výrazu na interní pole, konkrétněpobox_type
apobox
.map_address_tokens_city
-Analyzuje vstupní hodnotu polecity
na základě regulárního výrazu.map_address_tokens_province
-Analyzuje vstupní hodnotu poleprovince_state
na základě regulárního výrazu k internímu poliprovince
.map_address_tokens_postal_code
-Analyzuje vstupní hodnotu polezip_postal_code
na základě regulárního výrazu k internímu polipostal_code
.map_address_tokens_country
-Analyzuje vstupní hodnotu polecountry
na základě regulárního výrazu.map_address_tokens_latitude
-Analyzuje vstupní hodnotu polelatitude_degrees
založenou na regulárním výrazu na interní polelatitude
.map_address_tokens_longtitude
-Analyzuje vstupní hodnotu polelongitude_degrees
na základě regulárního výrazu k internímu polilongitude
.
Standardizace adresy používá při výchozím nastavení následující sady prostředků:
set_address_postal_code
-Odebere anonymní vstupní hodnoty prozip_postal_code
.
Standardizace telefonu
Tento standardizátor se používá ke standardizaci hodnot atributu Phone. Obsahuje následující recepty, v pořadí:
Stop character
-Odebere nežádoucí vstupní znaky z telefonních hodnot.Stop token
-Odebere anonymní telefonní hodnoty, jak je nakonfigurováno.Phone
-Parses vstupní telefonní čísla s různými formáty z různých národních prostředí do běžného formátu. Tento recept lze nakonfigurovat k odstranění kódů oblastí a kódů zemí z telefonních čísel. Může si také ponechat určitý počet číslic ve standardizovaném telefonním čísle.Parse token
-Parses zpracovalo hodnoty polí na odpovídající interní pole v závislosti na určitých regulárních výrazech, jak je nakonfigurováno v prostředcích.Pick token
-Vybere dílčí sadu (nebo všechny) tokenů jako standardní data, která se mají použít ve sponu a porovnání.
Standardizace telefonu používá standardně následující prostředky mapy:
map_phone_tokens_phone
-Paruje telefonní hodnoty do interního pole na základě regulárních výrazů.
Standard Phone používá při výchozím nastavení následující nastavení prostředků:
set_character_phone
-Nahradí všechny znaky, které nejsou alfanumerické. Umožňuje zadávat regulární výrazy.set_phone_anon_phone
-Odebere anonymní telefonní hodnoty.
Standardizace identifikace
Tento standardizátor se používá ke standardizaci hodnot atributu Identifikace. Obsahuje následující recepty, v pořadí:
Map character
-Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy. Volitelně definujte mapu v prostředcích IBM Match 360 .Upper case
-Převede vstupní hodnoty polí tak, aby používaly jejich ekvivalenty s velkými písmeny.Stop character
-Odebere nechtěné vstupní znaky z identifikačních hodnot.Stop token
-Odebere anonymní vstupní hodnoty, jak je nakonfigurováno.Map token
-Převádí hodnoty vstupního tokenu na ekvivalentní hodnoty, jak je nakonfigurováno v prostředcích IBM Match 360 .Parse token
-Parses zpracovalo hodnoty polí na odpovídající interní pole v závislosti na určitých regulárních výrazech, jak je nakonfigurováno v prostředcích.Pick token
-Vybere dílčí sadu (nebo všechny) tokenů jako standardní data, která se mají použít ve sponu a porovnání.
Standard Identification Standardizer používá při výchozím nastavení následující prostředky mapy:
map_character_general
-Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy.map_identifier_equi_identifier
-Převádí hodnoty vstupního tokenu na ekvivalentní hodnoty.map_identifier_tokens_identification_number
-Parses zpracovalo hodnoty polí na odpovídající interní pole v závislosti na určitých regulárních výrazech, jak je nakonfigurováno v prostředcích.
Standard Identification Standardizer používá při výchozím nastavení následující nastavení prostředků:
set_character_identification_number
-Odebere nealfanumerické vstupní znaky z identifikačních hodnot. Umožňuje zadávat regulární výrazy.set_identifier_anonymous
-Odebere anonymní identifikační hodnoty.
E-mail standardizace
Tento standardizátor se používá ke standardizaci hodnot atributu E-mail. Obsahuje následující recepty, v pořadí:
Map character
-Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy. Volitelně definujte mapu v prostředcích IBM Match 360 .Upper case
-Převede vstupní hodnoty polí tak, aby používaly jejich ekvivalenty s velkými písmeny.Stop token
-Odebere anonymní vstupní hodnoty, jak je nakonfigurováno.Map token
-Převádí hodnoty vstupního tokenu na ekvivalentní hodnoty, jak je nakonfigurováno v prostředcích IBM Match 360 .Parse token
-Parses zpracovalo hodnoty polí na odpovídající interní pole v závislosti na určitých regulárních výrazech, jak je nakonfigurováno v prostředcích.Pick token
-Vybere dílčí sadu (nebo všechny) tokenů jako standardní data, která se mají použít ve sponu a porovnání.
Standard e-mailu používá standardně tyto prostředky mapy:
map_character_general
-Převede vstupní znaky UNICODE na ekvivalentní znaky anglické abecedy.map_non_phone_equi_non_phone
-Převádí hodnoty vstupního tokenu na ekvivalentní hodnoty.map_non_phone_tokens_non_phone
-Analyzuje vstupní poleemail_id
založené na regulárním výrazu na interní poleemail_local_part
aemail_domain
.
Standard e-mailu používá při výchozím nastavení následující sady prostředků:
set_non_phone_anon_non_phone
-Odebere anonymní e-mailové hodnoty.
Typy entit (předávaní)
V rámci jediného odpovídajícího algoritmu může mít každý typ záznamu více definic typů entit (objektyentity_type
JSON). Například v algoritmu definovaném pro typ záznamu osoby může být zapotřebí vytvořit více než jednu definici typu entity, jako např. entitu osoby, entitu domácnosti, entitu umístění a další.
Každý typ entity lze použít k tomu, aby se záznamy shodoval a propojí záznamy různými způsoby. Typ entity definuje, jak jsou záznamy přebušeny a porovnávány během odpovídajícího procesu.
Každá definice typu entity (entity_type
) v odpovídajícím algoritmu má několik prvků JSON:
clerical_review_threshold
-Záznamy, které mají skóre porovnání nižší než prahová hodnota administrativní kontroly, jsou považovány za neshodné.auto_link_threshold
-Záznamy, které mají skóre porovnání vyšší než prahová hodnota automatického propojení, se považují za dostatečně silné shody, že se automaticky shodují.bucket_generators
-Tento oddíl obsahuje definici generátorů sektorů konfigurovaných pro typ entity. K dispozici jsou dva typy generátorů sektoru: sektory a skupiny sektorů.Sektory zahrnují vytváření buků pouze pro jeden atribut. Každá definice
bucket
obsahuje čtyři prvky:label
-Popisek, který identifikuje generátor sektoru.maximum_bucket_size
-Hodnota, která definuje velikost velkých sektorů. Jakýkoli hašovací kód sektoru s velikostí sektoru větší, než je tato hodnota, se nepovažuje za výběr kandidáta během porovnávání.inputs
-Pro sektory má seznaminputs
pouze jeden prvek, což je objekt JSON. Tento objekt JSON má dva prvky:fields
aattributes
:fields
-Seznam polí, která se mají použít pro bujování.attributes
-Seznam atributů, které se mají použít pro vybuzky.
bucket_recipe
-Seznam receptů na sektor definuje kroky, které generátor sektoru dokončí během procesu vytváření. Každý seznambucket_recipe
má několik dílčích prvků:label
-Štítek, který identifikuje prvek receptu sektoru.method
-Interní použitá metoda. Tento prvek je pouze pro referenci a nesmí být upravován.inputs
-Jeden prvek seznamuinputs
definuje jednu úroveň výše.fields
-Seznam polí, která mají být použita pro tento sektor. Tato hodnota je obvykle podmnožinou všech polí definovaných v seznamuinputs
o jednu úroveň výše.min_tokens
-Minimální počet tokenů, které se mají použít, když se receptem vytváří hašovací kód sektoru.max_tokens
-Maximální počet tokenů, které lze použít dohromady, když se receptem vytváří hašovací kód sektoru.count
-Limit počtu hašování sektoru pro jednotlivý záznam, který se vygeneruje z generátoru sektoru. Pokud záznam generuje velké množství hašování, zvedne se pouze počet hašování nastavených tímto prvkem.bucket_group
-Pořadové číslo pro skupinu sektorů, která vytváří hašovací kód sektoru. Prostřední kroky nebo recepty by nepřiřazují pořadové číslo.order
-Určuje, zda jsou tokeny řazeny v lexikografickém pořadí, když je více tokenů zkombinováno do tvaru hašovací tabulky sektoru.maximum_bucket_size
-Hodnota, která definuje velikost velkých sektorů. Tento prvek je stejný jako ten, který je definován na úrovni generátoru sektoru; také jej má na úrovni receptu sektoru, který vám dává jemnější kontrolu nad velkými jednotlivými sektory.
Skupiny sektorů zahrnují spony pro více než jeden atribut. Každá definice
bucket_group
obsahuje pět prvků:label
-Popisek, který identifikuje generátor sektoru.maximum_bucket_size
-Hodnota, která definuje velikost velkých sektorů. Jakýkoli hašovací kód sektoru s velikostí sektoru větší, než je tato hodnota, se nepovažuje za výběr kandidáta během porovnávání.inputs
-Pro skupiny sektorů má seznaminputs
více než jeden prvek objektu JSON. Každý objekt JSON má dva prvky:fields
aattributes
:fields
-Seznam polí, která se mají použít pro bujování.attributes
-Seznam atributů, které se mají použít pro vybuzky.
bucket_recipe
-Seznam receptů na sektor definuje kroky, které generátor sektoru dokončí během procesu vytváření. Každý seznambucket_recipe
má několik dílčích prvků:label
-Štítek, který identifikuje prvek receptu sektoru.method
-Interní použitá metoda. Tento prvek je pouze pro referenci a nesmí být upravován.inputs
-Jeden prvek seznamuinputs
definuje jednu úroveň výše.fields
-Seznam polí, která mají být použita pro tento sektor. Toto je obvykle podmnožina všech polí, která jsou definována v rámciinputs
seznamu o jednu úroveň výše.min_tokens
-Minimální počet tokenů, které se mají použít, když se receptem vytváří hašovací kód sektoru.max_tokens
-Maximální počet tokenů, které lze použít dohromady, když se receptem vytváří hašovací kód sektoru.count
-Limit počtu hašování sektoru pro jednotlivý záznam, který se vygeneruje z generátoru sektoru. Pokud záznam vygeneruje mnoho hašování sektoru, vybere se pouze počet hašování nastavených tímto prvkem.bucket_group
-Pořadové číslo pro skupinu sektorů, která vytváří hašovací kód sektoru. Prostřední kroky nebo recepty by nepřiřazují pořadové číslo.order
-Určuje, zda jsou tokeny řazeny v lexikografickém pořadí, když je více tokenů zkombinováno do tvaru hašovací tabulky sektoru.maximum_bucket_size
-Hodnota, která definuje velikost velkých sektorů. Tento prvek je stejný jako ten, který je definován na úrovni generátoru sektoru. Schopnost definovat ji na úrovni sektoru receptury vám dává jemnější kontrolu nad velkými jednotlivými sektory.set_resource
-Název prostředku typuset
použitého pro sektor receptu.map_resource
-Název prostředku typumap
použitého pro sektor receptu.output_fields
-Pokud tento recept vytvoří nová pole po dokončení práce s přebukami ve vstupních polích, tento prvek obsahuje seznam názvů generovaných polí.
bucket_group_recipe
-sekce receptů skupiny sektoru se obvykle používá pro definování sektorů, které se skládají z více než jednoho atributu. Každý prvek seznamubucket_group_recipe
je objekt JSON definující konstrukt pro jednu skupinu sektorů.- Seznam
inputs
v rámcibucket_group_recipe
má více než jeden prvek, což znamená, že se odkazuje na více než jeden atribut definovaný v poliinputs
o jednu úroveň výš. - Prvek
fields
je seznam seznamů. Každý vnitřní seznam polí je přidružen k příslušnému seznamuattributes
. - Seznamy
min_tokens
amax_tokens
mají více než jeden prvek, přičemž každý prvek odpovídá příslušnému seznamuattributes
.
- Seznam
Pozn.:V některých definicích receptů se jedná o vlastnost, která má název
search_only
. Při výchozím nastavení je jeho hodnotafalse
. Je-li tato vlastnost nastavena na hodnotutrue
, znamená to, že skupina nebo skupina sektorů se používá pouze pro pravděpodobnostní scénáře vyhledávání a nepoužívá se pro scénáře rozpoznání entit (shody).
compare_methods
-Definice metod porovnání, které jsou konfigurovány pro typ entity. Každý objekt JSONcompare_methods
se skládá z definic různých metodcompare
. Srovnávací algoritmus přidá skóre z každé definice metodycompare
, aby získal konečné skóre porovnání. Každý objekt JSON metodycompare
obsahuje tři prvky:label
-Označení, které identifikuje metoducompare
.methods
-Seznam komparátorů, které tvoří porovnávací skupinu. Každý prvek v tomto poli představuje jeden komparátor, který je určen pro jeden typ atributu shody. Odpovídající algoritmus bere v úvahu maximum skóre ze všech komparátorů v seznamumethods
jako konečné skóre z této skupiny porovnání. Každá definice porovnání obsahuje dva prvky:inputs
-Pro komparátory má seznaminputs
pouze jeden prvek, což je objekt JSON. Tento objekt JSON má dva prvky:fields
aattributes
:fields
-Seznam polí, která mají být použita pro porovnání.attributes
-Seznam atributů, které mají být použity pro porovnání.
compare_recipe
-Tento seznam se používá hlavně pro definování porovnávacích kroků. V tomto poli je zpravidla pouze jeden prvek JSON, který představuje pouze jeden krok pro provedení porovnání. Tento krok má pět prvků:label
-Štítek, který identifikuje krok porovnání.method
-Interní použitá metoda. Tento prvek je pouze pro referenci a nesmí být upravován.inputs
-Jeden prvek seznamuinputs
definuje jednu úroveň výše.fields
-Pole, která mají být použita pro toto porovnání, ze všech polí, která jsou definována v seznamuinputs
o jednu úroveň výše.comparison_resource
-Název přizpůsobitelných porovnávacích prostředků použitých pro tento krok porovnání.
weights
-Každé porovnání, které provede komparátor, má za následek skóre z 0 až 10. Toto číslo se nazývá měřítko vzdálenosti nebo dis-podobnosti. Vzdálenost 0 označuje, že porovnávané hodnoty jsou přesně stejné. Vzdálenost 10 označuje, že se zcela liší. Odpovídá 11 odlišeným hodnotám (0-10), 11 závaží je definováno pro každý komparátor. Po výpočtu vzdálenosti určuje porovnávací metoda odpovídající hodnotu váhy ze seznamu vah, což vede k celkovému skóre porovnání. Inženýři dat si mohou podle potřeby přizpůsobit váhy na základě kvality, distribuce a jiných faktorů.
record_filter
-Prvek filtrování záznamů umožňuje, aby odpovídající stroj vybral záznamy pro porovnávání na základě typů entit. Každá definice filtru záznamu obsahuje jeden prvek:criteria
-Zahrnuje nebo vylučuje záznamy z porovnávání za určitých podmínek. Tento prvek obsahuje jeden objekt JSON s dvojicí klíč-hodnota.Klíč objektu JSON
criteria
je název atributu. Může se jednat o jednu z následujících možností:- Systémový atribut produktu
record_source
. - Uživatelem definovaný vlastní atribut typu jednoduchého atributu (řetězec).
- Systémový atribut produktu
Hodnota objektu JSON
criteria
je dalším objektem JSON obsahujícím jeden prvek, který může být jeden z následujících:allowed
-Pole hodnot řetězce. Záznamy, které obsahují některou z těchto hodnot, budou považovány za vyhovující.disallowed
-Pole hodnot řetězce. Záznamy, které obsahují některou z těchto hodnot, nebudou během porovnávání považovány za považovány za vyhovující.
Pockování prostředků
Definice spony používají při výchozím nastavení následující prostředky mapy:
person_map_name_nickname
-Generuje přezdívky nebo alternativní názvy pro daný vstup jména osoby.org_map_name_cnick_name
-Generuje přezdívky nebo alternativní názvy pro daný vstup názvu organizace.
Definice spony používají při výchozím nastavení následující nastavení prostředků:
person_set_name_bkt_anon
-Odebere anonymní hodnoty jmen osob.org_set_name_acname
-Odebere anonymní hodnoty názvu organizace.
Porovnávací funkce
Porovnávací funkce, někdy nazývané komparátory, jsou jednou z klíčových komponent odpovídajícího algoritmu. Porovnávací funkce jsou používány odpovídajícím strojem k porovnání dat záznamu během odpovídajícího procesu. V zásadě porovnávání záznamů zahrnuje porovnání různých typů atributů mezi různými daty záznamů.
U mnoha běžně používaných typů atributů v doménách osob, organizací a lokalit produkt IBM Match 360 odpovídá předkonfigurovaným metodám porovnání.
V produktu IBM Match 360používají funkce porovnání přístup k porovnání označovaný jako vektory funkcí. V produktu IBM Match 360 se používají různé definice přizpůsobitelných funkcí, které se používají pro různé funkce porovnání. Každé porovnání má za následek měřítko vzdálenosti (vektoru), které ukazuje, jak jsou hodnoty atributů odlišné od obou.
V odpovídajícím algoritmu je každá hodnota diskrétní vzdálenosti dána váhou, která určuje, jak silně tuto hodnotu považovat za tuto hodnotu. Hmotnost spojuje se vzdáleností, aby bylo dosaženo porovnání skóre. Odpovídající algoritmus přidá všechny výsledky porovnání dohromady, aby se dospělo k závěrečnému skóre porovnání pro celkové porovnání záznamů-na-záznam.
O funkcích
Funkce představuje podrobnosti o podrobné úrovni funkce porovnání. Různé typy atributů používají různé typy kontrol podobnosti, což znamená, že jejich funkce se liší i v různých typech.
Definice funkcí určují typy vnitřních funkcí, které se používají pro každou porovnávací funkci. Mezi příklady interních funkcí patří přesná shoda, editační vzdálenost, přezdívka, fonetický ekvivalent nebo počáteční shoda.
Prostředky porovnání
Každá metoda porovnání zahrnuje prostředky, které obsahují podrobnosti o interních operacích porovnání.
Každý z výchozích typů porovnání má své vlastní prostředky. Podrobnosti o přidružených prostředcích naleznete v jednotlivých typech porovnání.
Pro porovnání na vlastních typech atributů, které mají odpovídající typ generic
, generická metoda porovnání zahrnuje následující prostředky:
compare_spec_generic
-V generovaném algoritmu je formát názvu tohoto prostředkurecordType_entityType_compare_spec_generic
.
Porovnání jmen osob
Různá pole v atributu jména osoby jsou obsluhována odlišně. Pro pole, jako je předpona, přípona a hodnoty generování, se kontroluje přesnost nebo neshodující se. Jiná pole, jako např. křestní jméno, příjmení a prostřední jméno, primárně používají následující funkce:
- Přesná shoda
- Shoda přezdívek
- Upravit vzdálenost
- Iniciály se shodují
- Fonetické porovnávání
- Nesprávné umístění tokenů
- Další tokeny
- Chybějící hodnoty
Metoda porovnání jména osoby zahrnuje následující prostředky:
person_compare_spec_name
-V generovaném algoritmu je formát názvu tohoto prostředkurecordType_entityType_ compare_spec_name
. Například:person_person_entity_compare_spec_name
.
Porovnání názvu organizace
Pro názvy organizací existuje jedno pole, které obsahuje celé obchodní jméno. Toto pole je porovnáváno s použitím primárně následujících funkcí:
- Přesná shoda
- Shoda přezdívek
- Upravit vzdálenost
- Iniciály se shodují
- Fonetické porovnávání
- Nesprávné umístění tokenů
- Další tokeny
- Chybějící hodnoty
Pro názvy organizací se také porovnávají zkratky a přezdívky pro přesnost.
Metoda porovnání názvu organizace zahrnuje následující prostředky:
org_compare_spec_name
-V generovaném algoritmu je formát názvu tohoto prostředkurecordType_entityType_ compare_spec_name
.
Porovnání data
Pro data existují obvykle tři pole k porovnání: den, měsíc a rok.
Pole year
je porovnáno s následujícími funkcemi:
- Exast
- Upravit vzdálenost
- Nevyhovující
- Chybějící
Pole day
a month
se porovnávají s použitím následujících funkcí:
- Exast
- Nevyhovující
- Chybějící
Komparátor data také kontroluje, zda byla pole day
a month
transponována kvůli rozdílům národního prostředí ve formátu data.
Metoda porovnání data zahrnuje následující prostředky:
compare_spec_date
-V generovaném algoritmu je formát názvu tohoto prostředkurecordType_entityType_ compare_spec_date
.
Porovnání pohlaví
Atribut pohlaví je porovnán s použitím následujících funkcí:
- Exast
- Nevyhovující
Metoda porovnání pohlaví zahrnuje následující prostředky:
compare_spec_gender
-V generovaném algoritmu je formát názvu tohoto prostředkurecordType_entityType_ compare_spec_gender
.
Porovnání adres
Různá pole v rámci atributu adresy se zpracovávají jinak.
Pole jako země, město, provincie/stát a subdivize se porovnávají s použitím následujících funkcí:
- Exast
- Rovnocennost
- Upravit vzdálenost
- Nevyhovující
- Chybějící
Pole PSČ se porovnávají s použitím následujících funkcí:
- Exast
- Upravit vzdálenost
- Nevyhovující
- Chybějící
Pole jako číslo ulice, název ulice, typ ulice, číslo jednotky a směr se porovnávají s pomocí následujících funkcí:
- Exast
- Rovnocennost
- Iniciály se shodují
- Upravit vzdálenost
- Nevyhovující
- Nesprávné umístění tokenů
- Chybějící
Metoda porovnání adresy zahrnuje následující prostředky:
compare_spec_address
-V generovaném algoritmu je formát názvu tohoto prostředkurecordType_entityType_ compare_spec_address
.
Porovnávání telefonu
Atributy telefonního čísla se porovnávají s použitím následujících funkcí:
- Přesná shoda
- Upravit vzdálenost
- Nevyhovující
Metoda porovnání telefonu zahrnuje následující prostředky:
compare_spec_phone
-V generovaném algoritmu by formát názvu tohoto prostředku bylrecordType_entityType_ compare_spec_phone
.
Porovnání identifikátorů
Atributy identifikačního čísla se porovnávají s použitím následujících funkcí:
- Přesná shoda
- Upravit vzdálenost
- Nevyhovující
Metoda porovnání identifikátorů zahrnuje následující prostředky:
compare_spec_identifier
-V generovaném algoritmu je formát názvu tohoto prostředkurecordType_entityType_ compare_spec_identifier
.
Porovnání e-mailu
Atributy e-mailu se skládají ze dvou částí: z jedinečného ID (před symbolem @) a domény e-mailu (za symbolem @). ID a části domén se porovnávají odděleně s použitím následujících funkcí:
- Přesná shoda
- Upravit vzdálenost
- Nevyhovující
Výsledek těchto dvou porovnání se kombinuje s váženým způsobem, aby bylo dosaženo celkového skóre porovnání.
Metoda porovnání e-mailu obsahuje následující prostředky:
compare_spec_email
-V generovaném algoritmu je formát názvu tohoto prostředkurecordType_entityType_ compare_spec_email
.
Upravit vzdálenost
Odpovídající stroj IBM Match 360 vypočítá vzdálenost úprav jako jednu z interních funkcí během porovnání a porovnávání různých atributů. Editační vzdálenost je měření toho, jak se podobné dva řetězce od sebe navzájem liší. Vypočítává se tím, že se počítá počet změn požadovaných k transformaci jednoho řetězce na druhý.
Existují různé způsoby, jak definovat vzdálenost úprav pomocí různých sad řetězcových operací. Produkt IBM Match 360 standardně používá standardní funkci úpravy vzdálenosti, která je veřejně dostupná v literatuře. Jako alternativu si můžete zvolit použití specializované funkce úpravy vzdálenosti IBM Match 360 .
Standardní funkce úpravy vzdálenosti poskytuje lepší výkon pro odpovídající stroj. Z tohoto důvodu se jedná o výchozí konfiguraci porovnání pro všechny atributy kromě typu atributu Telefon.
Specializovaná funkce úpravy vzdálenosti je sestavena pro případy použití hyperprecision use. Tato možnost bere v úvahu překlepy nebo podobné znaky jako jsou 8 a B, 0 a O, 5 a S nebo 1 a I. Dojde-li k neshodě ve dvou porovnávaných hodnotách založených na podobných znacích, přiřazenému ukazateli nesouladu je menší než to, co by bylo přiřazeno standardní funkcí úpravy vzdálenosti. V důsledku toho se tyto typy neshod netrestáni tak silně do specializované funkce.
Důležité: Speciální funkce pro úpravu vzdálenosti zahrnuje některé složité výpočty. V důsledku toho má výběr této volby vliv na výkon systému během odpovídajícího procesu.
Informace o úpravě vašeho odpovídajícího algoritmu, včetně použití rozhraní API k přizpůsobení vzdálenosti úprav, viz téma Úprava a posílení algoritmu porovnávání.
Další informace
- Koncepce dat
- Porovnání dat za účelem vytvoření hlavních datových entit
- Přizpůsobení a posílení vašeho algoritmu porovnávání
Nadřazené téma: Správa hlavních dat