Translation not up to date
Firma IBM Match 360 with Watson wykorzystuje zgodne algorytmy w celu rozstrzygania rekordów danych w jednostkach danych głównych. Inżynierowie danych mogą definiować różne algorytmy dopasowywania dla każdego typu jednostki w ich danych. Zgodne algorytmy mogą następnie analizować dane, aby wartościować i porównywać rekordy, a następnie gromadzić dopasowane rekordy do obiektów.
Istnieją dwa wspólne powody, aby można było uruchomić dopasowanie do danych:
- W przypadku operacji deduplikacji i rozwiązywania problemówproces dopasowywania analizuje dane w celu określenia, czy w danych istnieją zduplikowane rekordy. Rekordy podejrzewanych duplikatów są scalane z jednostkami danych wzorcowych w celu ustanowienia jednego, zaufanego, 360-stopniowego widoku danych.
- Aby utworzyć inne typy powiązań jednostek, proces dopasowywania analizuje dane w celu gromadzenia rekordów do jednostek reprezentujących różne rodzaje grup, takich jak gospodarstwo domowe.
Obejrzyj poniższy film wideo, aby sprawdzić, w jaki sposób można użyć programu IBM Match 360 w celu skonfigurowania zgodnego algorytmu dla dostosowanego modelu danych.
Ten film wideo udostępnia metodę wizualną, która umożliwia poznanie pojęć i zadań w tej dokumentacji.
W tym temacie:
- Dopasowywanie do tworzenia więcej niż jednego typu encji
- Zgodny proces
- Komponenty algorytmu uzgadniania
Dopasowanie, aby utworzyć więcej niż jeden typ obiektu
Algorytmy zgodne z IBM Match 360 są sterowane przez typ jednostki powiązanych danych. Dla każdego typu rekordu w modelu danych można zdefiniować więcej niż jeden typ jednostki. Dla każdego typu jednostki należy skonfigurować i dostroić odpowiadający mu algorytm dopasowywania, aby program IBM Match 360 utworzył obiekty spełniające wymagania organizacji.
Pojedynczy rekord może być częścią więcej niż jednego oddzielnego obiektu. Jeśli model danych zawiera więcej niż jeden typ jednostki, można uruchomić różne typy dopasowywania w tym samym zestawie danych. Na przykład można rozważyć zestaw danych, który zawiera rekordy osób z całego przedsiębiorstwa. Jeśli typ rekordu Osoba zawiera definicje dla typu jednostki Osoba i typu jednostki gospodarstwa domowego, wówczas można uruchomić algorytm dopasowywania osób dla rozstrzygania obiektów i deduplikacji, a także uruchomić algorytm uzgadniania Household w celu utworzenia obiektów składanych z rekordów osób należących do tego samego gospodarstwa domowego.
Zgodny proces
Pasujący mechanizm przechodzi przez zdefiniowany proces w celu dopasowania rekordów do obiektów. Proces dopasowywania obejmuje trzy główne kroki:
Standaryzacja. W tym kroku algorytm standaryzuje format danych tak, aby mógł on być przetwarzany przez pasujący silnik.
Bucketing. Algorytm sortuje dane do różnych kategorii lub "zasobników", dzięki czemu może porównywać dane podobne do tych, które są podobne do informacji.
Porównanie. Algorytm porównuje dane w celu określenia końcowego wyniku porównania. Następnie algorytm korzysta z wyniku porównania w celu określenia, czy rekordy są zgodne.
Każdy z tych kroków jest zdefiniowany i skonfigurowany przez zgodny algorytm.
Komponenty algorytmu uzgadniania
Trzy główne typy komponentów definiują algorytm uzgadniania IBM Match 360 :
Standaryzatory
Jak sama nazwa wskazuje, standaryzatorzy definiują sposób, w jaki dane są standaryzowane. Standaryzacja umożliwia dopasowaniu algorytmu do konwersji wartości różnych atrybutów do standaryzowanej reprezentacji, która może być przetwarzana przez pasujący mechanizm.
Algorytm dopasowywania korzysta z wielu standaryzatorów. Każdy standaryzator jest odpowiedni do przetwarzania konkretnych typów atrybutów znalezionych w danych rekordu.
Standaryzatory są definiowane przez obiekty JSON. Każda definicja obiektu JSON standaryzatora zawiera trzy elementy:
label
-Etykieta, która identyfikuje ten standaryzator.inputs
-Listainputs
zawiera jeden element, który jest obiektem JSON. Ten obiekt JSON ma dwa elementy:fields
iattributes
:fields
-Lista pól, które mają być używane na potrzeby standaryzacji.attributes
-Lista atrybutów, które mają być używane na potrzeby standaryzacji.
standardizer_recipe
-Lista obiektów JSON, w których każdy obiekt reprezentuje jeden krok, który ma być uruchamiany podczas procesu standaryzacji powiązanego standaryzatora. Każdy obiekt na liściestandardizer_recipe
składa się z czterech głównych elementów:label
-Etykieta, która identyfikuje ten krok w przepisie standaryzującym.method
-używana metoda wewnętrzna. Ten element jest przeznaczony tylko do celów referencyjnych i nie może być edytowany.inputs
-pojedynczy element listyinputs
zdefiniowany na jednym poziomie wyższym.fields
-lista pól, które mają być używane dla tego kroku. Jest to zwykle podzbiór wszystkich pól zdefiniowanych na liścieinputs
o jeden poziom wyżej. Nie każdy krok musi przetworzyć wszystkie pola produktuinputs
.set_resource
-Nazwa zasobu konfigurowalnego typuset
używanego na potrzeby tego kroku.map_resource
-Nazwa zasobu konfigurowalnego typumap
używanego na potrzeby tego kroku.
W zależności od zachowania kroku może istnieć więcej elementów konfiguracji, które są wymagane w odpowiednim obiekcie JSON.
Wstępnie skonfigurowane standaryzatory
Następujące standaryzatory są gotowe do użycia w programie IBM Match 360. Wstępnie skonfigurowane standaryzatory są również konfigurowalne.
Standaryzator nazwy osoby
Ten standaryzator jest używany do standaryzowania wartości atrybutów Nazwa osoby. Zawiera ona następujące przepisy, w kolejności:
Upper case
-Umożliwia przekształcenie wartości pól wejściowych w celu użycia ich wielkich odpowiedników.Map character
-Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego. Opcjonalnie można zdefiniować odwzorowanie w zasobach IBM Match 360 .Tokenizer
-Tokenizuje wartość pola wejściowego na wiele leksemów na podstawie zdefiniowanej listy ograniczników.Parse token
-służy do analizowania wartości pól wejściowych do różnych tokenów w zależności od predefiniowanych wartości w zasobach IBM Match 360 . Na przykład można użyć tego przepisu do analizowania przyrostków, przedrostków i wartości generowania w odpowiednich polach.Length
-Odrzuć tokeny, które znajdują się poza podanym zakresem długości. Wartości minimalne i maksymalne są definiowane w zasobach IBM Match 360 .Stop token
-usuwa anonimowe wartości wejściowe, zgodnie z konfiguracją.Pick token
-służy do wyboru podzbioru (lub wszystkich) tokenów jako standardowych danych do użycia w bukingu i porównywaniu.
Standaryzator nazwy osoby domyślnie korzysta z następujących zasobów mapy:
map_character_general
-Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego.person_map_name_alignments
-Przytaczają wartości przyrostka, prefiks i generację do odpowiednich pól.
Standaryzator nazwy osoby używa domyślnie następujących zasobów zestawu:
person_set_name_aname
-usuwa wartości anonimowych nazw osób.
Standaryzator nazwy organizacji
Ten standaryzator jest używany do standaryzowania wartości atrybutów Nazwa organizacji. Zawiera ona następujące przepisy, w kolejności:
Upper case
-Umożliwia przekształcenie wartości pól wejściowych w celu użycia ich wielkich odpowiedników.Map character
-Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego. Opcjonalnie można zdefiniować odwzorowanie w zasobach IBM Match 360 .Stop character
-usuwa niepożądane znaki wejściowe z wartości nazw.Map token
-Generuje pseudonimy lub alternatywne nazwy dla danych wejściowych i zapisuje informacje w osobnym nowym polu wewnętrznym.Tokenizer
-Tokenizuje wartość pola wejściowego na wiele leksemów na podstawie zdefiniowanej listy ograniczników.Stop token
-usuwa anonimowe wartości wejściowe, zgodnie z konfiguracją.Acronym
-Generuje akronim dla danej nazwy organizacji i zapisuje informacje w osobnym nowym polu wewnętrznym. Wartość akronimu jest używana podczas porównywania w celu obsługi nazw skróconych.Pick token
-służy do wyboru podzbioru (lub wszystkich) tokenów jako standardowych danych do użycia w bukingu i porównywaniu.
Standaryzator nazwy organizacji domyślnie korzysta z następujących zasobów mapy:
map_character_general
-Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego.org_map_name_cnick_name
-Generuje pseudonimy lub alternatywne nazwy dla podanych danych wejściowych.
Standaryzator nazwy organizacji domyślnie używa następujących zasobów zestawu:
org_set_name_aname
-usuwa anonimowe wartości nazw organizacji.
Standaryzator daty
Ten standaryzator jest używany do standaryzowania wartości atrybutów daty. Obsługuje wiele różnych formatów daty i zawiera następujące przepisy, w kolejności:
Map character
-Konwertuje znaki ukośnika (/
) na myślniki (-
).Date function
-Przekształca dane wejściowe daty w różnych formatach do formatu standaryzowanego.Stop token
-usuwa anonimowe wartości daty, zgodnie ze skonfigurowanymi.Parse token
-służy do analizowania wartości pól wejściowych do różnych tokenów, w zależności od niektórych wyrażeń regularnych. Na przykład można użyć tego przepisu w celu przeanalizowania pełnej daty wejścia do tokenów dnia, miesiąca i roku.Pick token
-służy do wyboru podzbioru (lub wszystkich) tokenów jako standardowych danych do użycia w bukingu i porównywaniu.
Standaryzator daty korzysta domyślnie z następujących zasobów mapy:
map_character_date_separators
-Konwertuje ukośnik (/
) lub dowolny inny znak separatora na znaki myślnika (-
).map_date_tokens_year_month_day
-służy do analizowania wartości daty wejściowej do pól wewnętrznych, a mianowiciebirth_year
,birth_month
ibirth_day
, w oparciu o wyrażenia regularne.
Standaryzator daty korzysta domyślnie z następujących zasobów zestawu:
set_date_date
-usuwa anonimowe wartości dat.
Standaryzator płci
Ten standaryzator jest używany do standaryzowania wartości atrybutów Płeć. Zawiera ona następujące przepisy, w kolejności:
Map character
-Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego. Opcjonalnie można zdefiniować odwzorowanie w zasobach IBM Match 360 .Upper case
-Umożliwia przekształcenie wartości pól wejściowych w celu użycia ich wielkich odpowiedników.Stop token
-usuwa anonimowe wejściowe wartości płci, zgodnie ze skonfigurowanymi.Map token
-przekształca wartości znacznika wejściowego na równoważne wartości, zgodnie ze skonfigurowanymi w zasobach IBM Match 360 .Parse token
-Analizuje wartości pól przetworzonych w odpowiednim polu wewnętrznym.Pick token
-służy do wyboru podzbioru (lub wszystkich) tokenów jako standardowych danych do użycia w bukingu i porównywaniu.
Standaryzator płci domyślnie korzysta z następujących zasobów mapy:
map_character_general
-Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego.map_gender_gender
-odwzorowuje różne wejściowe wartości płci na wartości standardowe.map_gender_tokens_gender
-Analizuje wartość znacznika wejściowego na wewnętrzne polegender
w oparciu o wyrażenie regularne.
Standaryzator płci używa domyślnie następujących zasobów Ustaw:
set_gender_anon_gender
-usuwa anonimowe wejściowe wartości płci.
Standaryzator adresu
Ten standaryzator jest używany do standaryzowania wartości atrybutów adresu. Adresy mogą mieć kilka różnych formatów, w zależności od ustawień narodowych. Ta elastyczność wymaga skomplikowanego przetwarzania w celu przekształcenia adresów w znormalizowaną formę. Standaryzator adresu zawiera następujące przepisy, w kolejności:
Upper case
-Umożliwia przekształcenie wartości pól wejściowych w celu użycia ich wielkich odpowiedników.Map character
-Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego. Opcjonalnie można zdefiniować odwzorowanie w zasobach IBM Match 360 .Map token
-przekształca wartości znacznika wejściowego na równoważne wartości, zgodnie ze skonfigurowanymi w zasobach IBM Match 360 . Na przykład: "Stany Zjednoczone Ameryki", "Stany Zjednoczone" i "Stany Zjednoczone" można odwzorować na "USA". To odwzorowanie jest wspólne dla wartości pól kraju i prowincji/województwa. Ponadto znaki ogranicznika skonfigurowane w zasobie są odwzorowywane na znak spacji.Tokenizer
-Tokenizuje wartość pola wejściowego na wiele leksemów na podstawie zdefiniowanej listy ograniczników.Stop token
-Usuwa anonimowe wartości wejściowe, takie jak kody pocztowe, zgodnie ze skonfigurowanymi.Keep token
-Umożliwia tylko zdefiniowaną listę wartości dla danego pola. Na przykład: można zdefiniować listę kodów pocztowych, które są dozwolone podczas standaryzacji. Wartości wejściowe, które nie znajdują się na liście dozwolonych, zostaną usunięte.Parse token
-służy do analizowania wartości pól wejściowych w odpowiednich polach wewnętrznych, w zależności od niektórych wyrażeń regularnych i predefiniowanych wartości skonfigurowanych w zasobach. Można użyć tego przepisu, aby obciąć dany znacznik na określoną długość, używając wyrażeń regularnych. Można również zdefiniować różne alfanumeryczne zestawy wzorców w postaci wyrażeń regularnych, aby umożliwić tylko określone wzorce.Join fields
-umożliwia połączenie dwóch lub większej liczby pól w celu utworzenia nowej wartości połączonej, przypisanej do pola wewnętrznego. Na przykład wartości póllatitude
ilongitude
można połączyć razem w celu utworzenia nowego pola wewnętrznego o nazwielat_long
.Pick token
-służy do wyboru podzbioru (lub wszystkich) tokenów jako standardowych danych do użycia w bukingu i porównywaniu.
Standaryzator adresów domyślnie korzysta z następujących zasobów mapy:
map_character_general
-Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego.map_address_country
-przekształca wartości kraju wejściowego na równoważne wartości.map_address_province_state
-Konwertuje wartości województwa i województwa na równoważne wartości.map_address_delimiter_removal
-odwzorowuje znaki ogranicznika skonfigurowane w zasobie na znak spacji.map_address_addr_tok
-przekształca wartości znacznika adresu wejściowego na równoważne wartości.map_address_tokens_unit_type_and_number
-Analizuje pole wejścioweresidence_number
oparte na wyrażeniu regularnym na pola wewnętrzne, a mianowicieunit_type
iunit_number
.map_address_tokens_street_number_name_direction_type
-Analizuje pole wejścioweaddress_line1
w oparciu o wyrażenie regularne do pól wewnętrznych, a mianowiciestreet_number
,street_name
,direction
istreet_type
.map_address_tokens_sub_division
-Analizuje pole wejścioweaddress_line2
na podstawie wyrażenia regularnego do pola wewnętrznegosub_division
.map_address_tokens_pobox_type_and_number
-Analizuje pole wejścioweaddress_line3
oparte na wyrażeniu regularnym na pola wewnętrzne, a mianowiciepobox_type
ipobox
.map_address_tokens_city
-Analizuje wartość wejściową polacity
w oparciu o wyrażenie regularne.map_address_tokens_province
-służy do analizowania wartości wejściowej polaprovince_state
w oparciu o wyrażenie regularne do pola wewnętrznegoprovince
.map_address_tokens_postal_code
-służy do analizowania wartości wejściowej polazip_postal_code
w oparciu o wyrażenie regularne do pola wewnętrznegopostal_code
.map_address_tokens_country
-Analizuje wartość wejściową polacountry
w oparciu o wyrażenie regularne.map_address_tokens_latitude
-służy do analizowania wartości wejściowej polalatitude_degrees
w oparciu o wyrażenie regularne do pola wewnętrznegolatitude
.map_address_tokens_longtitude
-służy do analizowania wartości wejściowej polalongitude_degrees
w oparciu o wyrażenie regularne do pola wewnętrznegolongitude
.
Standaryzator adresów domyślnie korzysta z następujących zasobów zestawu:
set_address_postal_code
-usuwa anonimowe wartości wejściowe dlazip_postal_code
.
Standaryzator telefonu
Ten standaryzator jest używany do standaryzowania wartości atrybutów Telefon. Zawiera ona następujące przepisy, w kolejności:
Stop character
-usuwa niepożądane znaki wejściowe z wartości telefonu.Stop token
-usuwa anonimowe wartości telefonu, zgodnie ze skonfigurowanymi.Phone
-Analizuje numery telefonów wejściowych o różnych formatach z różnych ustawień narodowych do wspólnego formatu. Ten przepis można skonfigurować tak, aby usuwać kody obszarów i kody krajów z numerów telefonów. Może również zachować określoną liczbę cyfr w standardowym numerze telefonu.Parse token
-Analizuje wartości pól przetworzonych w odpowiednim polu w zależności od niektórych wyrażeń regularnych skonfigurowanych w zasobach.Pick token
-służy do wyboru podzbioru (lub wszystkich) tokenów jako standardowych danych do użycia w bukingu i porównywaniu.
Standaryzator telefonu domyślnie korzysta z następujących zasobów mapy:
map_phone_tokens_phone
-służy do analizowania wartości telefonu do pola wewnętrznego w oparciu o wyrażenia regularne.
Standaryzator telefonu domyślnie używa następujących zasobów Ustaw:
set_character_phone
-zastępuje wszystkie znaki, które nie są alfanumeryczne. Umożliwia określenie wyrażeń regularnych.set_phone_anon_phone
-usuwa anonimowe wartości telefonu.
Standaryzator identyfikacji
Ten standaryzator jest używany do standaryzowania wartości atrybutów identyfikacji. Zawiera ona następujące przepisy, w kolejności:
Map character
-Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego. Opcjonalnie można zdefiniować odwzorowanie w zasobach IBM Match 360 .Upper case
-Umożliwia przekształcenie wartości pól wejściowych w celu użycia ich wielkich odpowiedników.Stop character
-usuwa niechciane znaki wejściowe z wartości identyfikacyjnych.Stop token
-usuwa anonimowe wartości wejściowe, zgodnie z konfiguracją.Map token
-przekształca wartości znacznika wejściowego na równoważne wartości, zgodnie ze skonfigurowanymi w zasobach IBM Match 360 .Parse token
-Analizuje wartości pól przetworzonych w odpowiednim polu w zależności od niektórych wyrażeń regularnych skonfigurowanych w zasobach.Pick token
-służy do wyboru podzbioru (lub wszystkich) tokenów jako standardowych danych do użycia w bukingu i porównywaniu.
Standaryzator identyfikacji domyślnie korzysta z następujących zasobów mapy:
map_character_general
-Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego.map_identifier_equi_identifier
-przekształca wartości znacznika wejściowego na równoważne wartości.map_identifier_tokens_identification_number
-Analizuje wartości pól przetworzonych w odpowiednim polu w zależności od niektórych wyrażeń regularnych skonfigurowanych w zasobach.
Standaryzator identyfikacji domyślnie korzysta z następujących zasobów Ustaw:
set_character_identification_number
-Usuwa niealfanumeryczne znaki wejściowe z wartości identyfikacyjnych. Umożliwia określenie wyrażeń regularnych.set_identifier_anonymous
-usuwa anonimowe wartości identyfikacyjne.
Standaryzator poczty elektronicznej
Ten standaryzator jest używany do standaryzowania wartości atrybutów wiadomości e-mail. Zawiera ona następujące przepisy, w kolejności:
Map character
-Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego. Opcjonalnie można zdefiniować odwzorowanie w zasobach IBM Match 360 .Upper case
-Umożliwia przekształcenie wartości pól wejściowych w celu użycia ich wielkich odpowiedników.Stop token
-usuwa anonimowe wartości wejściowe, zgodnie z konfiguracją.Map token
-przekształca wartości znacznika wejściowego na równoważne wartości, zgodnie ze skonfigurowanymi w zasobach IBM Match 360 .Parse token
-Analizuje wartości pól przetworzonych w odpowiednim polu w zależności od niektórych wyrażeń regularnych skonfigurowanych w zasobach.Pick token
-służy do wyboru podzbioru (lub wszystkich) tokenów jako standardowych danych do użycia w bukingu i porównywaniu.
Standaryzator poczty elektronicznej domyślnie używa następujących zasobów mapy:
map_character_general
-Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego.map_non_phone_equi_non_phone
-przekształca wartości znacznika wejściowego na równoważne wartości.map_non_phone_tokens_non_phone
-służy do analizowania pola wejściowegoemail_id
w oparciu o wyrażenie regularne do pól wewnętrznychemail_local_part
iemail_domain
.
Standaryzator poczty elektronicznej domyślnie używa następujących zasobów Ustaw:
set_non_phone_anon_non_phone
-usuwa anonimowe wartości poczty elektronicznej.
Typy jednostek (bucketing)
W ramach jednego zgodnego algorytmu każdy typ rekordu może mieć wiele definicji typów jednostek (obiekty JSON produktuentity_type
). Na przykład w algorytmie zdefiniowanym dla typu rekordu osoby może być konieczne utworzenie więcej niż jednej definicji typu jednostki, takiej jak jednostka osoby, jednostka gospodarstwa domowego, obiekt lokalizacji i inne.
Każdy typ jednostki może być używany do dopasowania rekordów i łączenia rekordów na różne sposoby. Typ jednostki definiuje sposób, w jaki rekordy są buckowane i porównywane podczas dopasowywania.
Każda definicja typu jednostki (entity_type
) w pasującym algorytmie ma kilka elementów JSON:
clerical_review_threshold
-Rekordy, dla których wynik porównania jest niższy od progu przeglądu ręcznego, są traktowane jako niezgodne.auto_link_threshold
-rekordy, które mają wynik porównania wyższy niż próg automatycznego łącza, są uznawane za wystarczająco silne, aby były zgodne automatycznie.bucket_generators
-ta sekcja zawiera definicję generatorów zasobników skonfigurowanych dla typu jednostki. Istnieją dwa rodzaje generatorów zasobników: wiadra i grupy zasobników.Bukiety obejmują tylko jeden atrybut. Każda definicja
bucket
zawiera cztery elementy:label
-Etykieta, która identyfikuje generator porcji.maximum_bucket_size
-Wartość, która definiuje wielkość dużych porcji. Dowolna wartość mieszająca porcji o wielkości porcji większej niż ta wartość nie jest uwzględniana podczas dopasowywania do wyboru kandydata.inputs
-W przypadku zasobników listainputs
zawiera tylko jeden element, który jest obiektem JSON. Ten obiekt JSON ma dwa elementy:fields
iattributes
:fields
-Lista pól, które mają być używane do wypakowywania.attributes
-Lista atrybutów, które mają być używane do wypakowywania.
bucket_recipe
-Lista przepisów dotyczących zasobników definiuje kroki dla generatora porcji, które mają zostać zakończone w trakcie procesu wykuwaczowego. Każda listabucket_recipe
zawiera pewną liczbę podelementów:label
-etykieta, która identyfikuje element receptury zasobnika.method
-używana metoda wewnętrzna. Ten element jest przeznaczony tylko do celów referencyjnych i nie może być edytowany.inputs
-pojedynczy element listyinputs
zdefiniowany na jednym poziomie wyższym.fields
-lista pól, które mają być używane dla tego zasobnika. Jest to zwykle podzbiór wszystkich pól zdefiniowanych na liścieinputs
o jeden poziom wyżej.min_tokens
-minimalna liczba tokenów, które mają być używane, gdy przepis tworzy mieszanie porcji.max_tokens
-Maksymalna liczba tokenów, które mają być używane razem, gdy przepis tworzy mieszanie porcji.count
-Limit liczby haftów zasobnika dla pojedynczego rekordu, który został wygenerowany z generatora porcji. Jeśli rekord generuje wiele mieszających porcji, zostanie pobrana tylko liczba zestawów mieszających ustawionych przez ten element.bucket_group
-numer kolejny dla grupy zasobników, która tworzy mieszanie porcji. Do kroków pośrednich lub przepisów nie można przypisać numeru kolejnego.order
-określa, czy tokeny są sortowane w kolejności leksykograficznej, gdy wiele tokenów jest połączonych w celu utworzenia mieszającego porcji.maximum_bucket_size
-wartość, która definiuje wielkość dużych porcji. Ten element jest taki sam jak ten, który został zdefiniowany na poziomie generatora kubeł. Ten element jest również taki sam, jak na poziomie receptury wiaderka, który zapewnia dokładniejsze sterowanie dużymi indywidualnymi porcjami.
Grupy zasobników obejmują bucketing dla więcej niż jednego atrybutu. Każda definicja
bucket_group
zawiera pięć elementów:label
-Etykieta, która identyfikuje generator porcji.maximum_bucket_size
-Wartość, która definiuje wielkość dużych porcji. Dowolna wartość mieszająca porcji o wielkości porcji większej niż ta wartość nie jest uwzględniana podczas dopasowywania do wyboru kandydata.inputs
-W przypadku grup porcji listainputs
zawiera więcej niż jeden element obiektu JSON. Każdy obiekt JSON ma dwa elementy:fields
iattributes
:fields
-Lista pól, które mają być używane do wypakowywania.attributes
-Lista atrybutów, które mają być używane do wypakowywania.
bucket_recipe
-Lista przepisów dotyczących zasobników definiuje kroki dla generatora porcji, które mają zostać zakończone w trakcie procesu wykuwaczowego. Każda listabucket_recipe
zawiera pewną liczbę podelementów:label
-etykieta, która identyfikuje element receptury zasobnika.method
-używana metoda wewnętrzna. Ten element jest przeznaczony tylko do celów referencyjnych i nie może być edytowany.inputs
-pojedynczy element listyinputs
zdefiniowany na jednym poziomie wyższym.fields
-lista pól, które mają być używane dla tego zasobnika. Jest to zwykle podzbiór wszystkich pól, które są zdefiniowane na liścieinputs
o jeden poziom wyżej.min_tokens
-minimalna liczba tokenów, które mają być używane, gdy przepis tworzy mieszanie porcji.max_tokens
-Maksymalna liczba tokenów, które mają być używane razem, gdy przepis tworzy mieszanie porcji.count
-Limit liczby haftów zasobnika dla pojedynczego rekordu, który został wygenerowany z generatora porcji. Jeśli rekord generuje wiele mieszających porcji, zostanie pobrana tylko liczba zestawów mieszających ustawionych przez ten element.bucket_group
-numer kolejny dla grupy zasobników, która tworzy mieszanie porcji. Do kroków pośrednich lub przepisów nie można przypisać numeru kolejnego.order
-określa, czy tokeny są sortowane w kolejności leksykograficznej, gdy wiele tokenów jest połączonych w celu utworzenia mieszającego porcji.maximum_bucket_size
-wartość, która definiuje wielkość dużych porcji. Ten element jest taki sam, jak ten zdefiniowany na poziomie generatora porcji. Możliwość zdefiniowania go na poziomie porcji receptury daje finer kontroli nad dużymi pojedynkami.set_resource
-nazwa zasobu typuset
używanego na potrzeby receptury zasobnika.map_resource
-nazwa zasobu typumap
używanego na potrzeby receptury zasobnika.output_fields
-Jeśli ten przepis spowoduje utworzenie nowych pól po zakończeniu funkcji bucketing w polach wejściowych, ten element zawiera listę nazw wygenerowanych pól.
bucket_group_recipe
-Sekcja z przepisami grupy zasobników jest zwykle używana do definiowania zasobników, które składają się z więcej niż jednego atrybutu. Każdy element listybucket_group_recipe
jest obiektem JSON definiującym konstrukcję dla pojedynczej grupy porcji.- Lista
inputs
w programiebucket_group_recipe
ma więcej niż jeden element, co oznacza, że odnosi się do więcej niż jednego atrybutu zdefiniowanego w tablicyinputs
o jeden poziom wyżej. - Element
fields
jest listą list. Każda wewnętrzna lista pól jest powiązana z odpowiednią listąattributes
. - Listy
min_tokens
imax_tokens
mają więcej niż jeden element, z każdym elementem odpowiadając na odpowiednią listęattributes
.
- Lista
Uwaga:W niektórych definicjach receptur znajduje się właściwość o nazwie
search_only
. Domyślnie jej wartością jestfalse
. Jeśli ustawiona jest wartośćtrue
, ta właściwość wskazuje, że grupa zasobnika lub zasobnika jest używana tylko w scenariuszach wyszukiwania probabilistycznego i nie jest używana w scenariuszach rozstrzygania obiektów (zgodnych ze zgodnymi).
compare_methods
-Definicje metod porównania, które są skonfigurowane dla typu jednostki. Każdy obiekt JSONcompare_methods
składa się z definicji różnych metodcompare
. Algorytm dopasowywania dodaje wyniki z każdej definicji metodycompare
, aby uzyskać końcowy wynik porównania. Każdy obiekt JSON metodycompare
zawiera trzy elementy:label
-Etykieta, która identyfikuje metodęcompare
.methods
-Lista komparatorów, które tworzą grupę porównawcze. Każdy element w tej tablicy reprezentuje jeden komparator, oznaczany dla jednego typu zgodnego atrybutu. Algorytm dopasowywania uwzględnia maksymalną liczbę ocen ze wszystkich komparatorów na liściemethods
jako wynik końcowy z tej grupy porównawczej. Każda definicja komparatora zawiera dwa elementy:inputs
-W przypadku komparatorów listainputs
ma tylko jeden element, który jest obiektem JSON. Ten obiekt JSON ma dwa elementy:fields
iattributes
:fields
-Lista pól, które mają zostać użyte do porównania.attributes
-Lista atrybutów, które mają zostać użyte do porównania.
compare_recipe
-Ta lista jest używana głównie do definiowania kroków porównania. Zwykle w tej tablicy istnieje tylko jeden element JSON, który reprezentuje tylko jeden krok do wykonania porównania. Ten krok zawiera pięć elementów:label
-etykieta, która identyfikuje krok porównania.method
-używana metoda wewnętrzna. Ten element jest przeznaczony tylko do celów referencyjnych i nie może być edytowany.inputs
-pojedynczy element listyinputs
zdefiniowany na jednym poziomie wyższym.fields
-Pola, które mają być używane do tego porównania, poza wszystkimi polami zdefiniowanymi na liścieinputs
o jeden poziom wyżej.comparison_resource
-nazwa dostosowywalnego zasobu porównawczego użytego dla tego kroku porównania.
weights
-każde porównanie wykonywane przez komparator powoduje wynik liczby z zakresu od 0 do 10. Liczba ta nazywana jest miarą odległości lub podobieństwa. Odległość od 0 oznacza, że porównywane wartości są dokładnie takie same. Odległość 10 wskazuje, że są one zupełnie inne. Odpowiada 11 odrębnych wartości (0-10), 11 wag jest zdefiniowanych dla każdego komparatora. Po obliczeniu odległości, metoda porównywania określa odpowiednią wartość wagi z listy wag, co powoduje, że wynik porównania jest całkowity. Inżynierowie danych mogą dostosować wagi w zależności od potrzeb, w oparciu o jakość danych, dystrybucję lub inne czynniki.
record_filter
-Element filtrowania rekordów umożliwia dopasowaniu mechanizmu do wybierania rekordów do dopasowania w oparciu o ich typy obiektów. Każda definicja filtru rekordu zawiera jeden element:criteria
-Zawiera lub wyklucza rekordy z dopasowywania w oparciu o konkretne warunki. Ten element zawiera jeden obiekt JSON z parą klucz-wartość.Kluczem obiektu JSON
criteria
jest nazwa atrybutu. Może to być jeden z następujących elementów:- Atrybut systemowy
record_source
. - Zdefiniowany przez użytkownika atrybut niestandardowy typu prostego atrybutu (string).
- Atrybut systemowy
Wartością obiektu JSON
criteria
jest inny obiekt JSON zawierający jeden element, który może mieć jedną z następujących wartości:allowed
-tablica wartości łańcuchowych. Rekordy, które zawierają dowolną z tych wartości, będą uwzględniane podczas dopasowywania.disallowed
-tablica wartości łańcuchowych. Rekordy, które zawierają dowolną z tych wartości, nie będą brane pod uwagę podczas dopasowywania.
Zasoby Bucketing
Definicje bucketing domyślnie używają następujących zasobów mapy:
person_map_name_nickname
-Generuje pseudonimy lub alternatywne nazwy dla danych wejściowych podanych nazw osób.org_map_name_cnick_name
-Generuje pseudonimy lub alternatywne nazwy dla danych wejściowych danej nazwy organizacji.
Definicje bucketing domyślnie korzystają z następujących zasobów Ustaw:
person_set_name_bkt_anon
-usuwa wartości anonimowych nazw osób.org_set_name_acname
-usuwa anonimowe wartości nazw organizacji.
funkcje porównawcze
Funkcje porównywania, czasami nazywane komparatorami, są jednym z kluczowych komponentów algorytmu uzgadniania. Funkcje porównywania są używane przez mechanizm uzgadniania do porównywania danych rekordu podczas dopasowywania procesu. Zasadniczo dopasowanie rekordów wiąże się z porównywaniem różnych typów atrybutów między różnymi danymi rekordów.
W przypadku wielu często używanych typów atrybutów w domenach osoby, organizacji i lokalizacji, mechanizm uzgadniania IBM Match 360 zawiera wstępnie skonfigurowane metody porównania.
W programie IBM Match 360funkcje porównywania korzystają z podejścia do porównania określanego jako wektory funkcji. W programie IBM Match 360 dostępne są różne konfigurowalne definicje składników, które są używane do różnych funkcji porównywania. Każde porównanie skutkuje miarą odległości (wektora), która pokazuje, jak bardzo podobne są dwie podane wartości atrybutów.
W algorytmie dopasowywania każda dyskretna wartość odległości jest podawana na wagę, która określa, jak silnie rozważyć tę wartość. Waga łączy się z dystansem w celu uzyskania wyniku porównania. Algorytm dopasowywania dodaje wszystkie wyniki porównania razem, aby osiągnąć końcowy wynik porównania dla ogólnego porównania rekordów do rekordu.
Informacje o opcjach
Funkcja reprezentuje szczegółowe informacje o poziomie funkcji porównania. Różne typy atrybutów używają różnych typów sprawdzeń podobieństw, co oznacza, że ich funkcje są różne.
Definicje składników dyktują typy funkcji wewnętrznych używanych dla każdej funkcji porównania. Przykładami funkcji wewnętrznych są dokładna zgodność, odległość edycji, pseudonim, odpowiednik fonetyczny lub zgodność początkowa.
Zasoby porównawcze
Każda metoda porównania zawiera zasoby, które zawierają szczegóły jego wewnętrznych operacji porównania.
Każdy z domyślnych typów porównania ma własne zasoby. Szczegółowe informacje na temat powiązanych zasobów można znaleźć w każdym typie porównania.
W przypadku porównań dotyczących niestandardowych typów atrybutów, które mają zgodny typ generic
, ogólna metoda porównania obejmuje następujące zasoby:
compare_spec_generic
-W generowanym algorytmie formatem nazwy tego zasobu jestrecordType_entityType_compare_spec_generic
.
Porównania nazw osób
Różne pola w atrybucie nazwy osoby są obsługiwane w inny sposób. W przypadku pól, takich jak przedrostek, przyrostek i generowanie wartości, sprawdzana jest dokładność lub niezgodność. Inne pola, takie jak imię i nazwisko, nazwisko i drugie imię, używają przede wszystkim następujących funkcji:
- dokładna zgodność,
- Dopasowanie pseudonimu
- Odległość edycji
- Zgodność inicjałów
- Dopasowanie fonetyczne
- Rozdzielający leksemy
- Dodatkowe tokeny
- Brakujące dane
Metoda porównywania nazw osób obejmuje następujące zasoby:
person_compare_spec_name
-W generowanym algorytmie formatem nazwy tego zasobu jestrecordType_entityType_ compare_spec_name
. Na przykład:person_person_entity_compare_spec_name
.
Porównania nazw organizacji
W przypadku nazw organizacji pole to jest typu, które zawiera całą nazwę firmy. To pole jest porównywane przy użyciu przede wszystkim następujących funkcji:
- dokładna zgodność,
- Dopasowanie pseudonimu
- Odległość edycji
- Zgodność inicjałów
- Dopasowanie fonetyczne
- Rozdzielający leksemy
- Dodatkowe tokeny
- Brakujące dane
W przypadku nazw organizacji porównywane są również akronimy i pseudonimy.
Metoda porównywania nazw organizacji obejmuje następujące zasoby:
org_compare_spec_name
-W generowanym algorytmie formatem nazwy tego zasobu jestrecordType_entityType_ compare_spec_name
.
Porównania dat
W przypadku dat są zwykle trzy pola do porównania: dzień, miesiąc i rok.
Pole year
jest porównywane przy użyciu następujących funkcji:
- Dokładność
- Odległość edycji
- Niepasujące
- Brak
Pola day
i month
są porównywane przy użyciu następujących funkcji:
- Dokładność
- Niepasujące
- Brak
Komparator daty sprawdza również, czy pola day
i month
zostały przetransponowane z powodu różnic ustawień narodowych w formatowaniu daty.
Metoda porównywania dat obejmuje następujące zasoby:
compare_spec_date
-W generowanym algorytmie formatem nazwy tego zasobu jestrecordType_entityType_ compare_spec_date
.
Porównania płci
Porównywany jest atrybut płci, korzystając z następujących funkcji:
- Dokładność
- Niepasujące
Metoda porównywania płci obejmuje następujące zasoby:
compare_spec_gender
-W generowanym algorytmie formatem nazwy tego zasobu jestrecordType_entityType_ compare_spec_gender
.
Porównania adresów
Różne pola w atrybucie adresu są obsługiwane w inny sposób.
Pola takie jak kraj, miasto, województwo/województwo i podział są porównywane przy użyciu następujących funkcji:
- Dokładność
- Równoważność
- Odległość edycji
- Niepasujące
- Brak
Pola kodu pocztowego są porównywane przy użyciu następujących funkcji:
- Dokładność
- Odległość edycji
- Niepasujące
- Brak
Pola, takie jak numer ulicy, nazwa ulicy, typ ulicy, numer jednostki i kierunek, są porównywane przy użyciu następujących funkcji:
- Dokładność
- Równoważność
- Zgodność inicjałów
- Odległość edycji
- Niepasujące
- Rozdzielający leksemy
- Brak
Metoda porównania adresów obejmuje następujące zasoby:
compare_spec_address
-W generowanym algorytmie formatem nazwy tego zasobu jestrecordType_entityType_ compare_spec_address
.
Porównania telefonów
Atrybuty numeru telefonu są porównywane przy użyciu następujących funkcji:
- dokładna zgodność,
- Odległość edycji
- Niepasujące
Metoda porównania telefonu obejmuje następujące zasoby:
compare_spec_phone
-W wygenerowanym algorytmie format nazwy tego zasobu będzie miał postaćrecordType_entityType_ compare_spec_phone
.
Porównania identyfikatorów
Atrybuty numeru identyfikacyjnego są porównywane przy użyciu następujących funkcji:
- dokładna zgodność,
- Odległość edycji
- Niepasujące
Metoda porównywania identyfikatorów obejmuje następujące zasoby:
compare_spec_identifier
-W generowanym algorytmie formatem nazwy tego zasobu jestrecordType_entityType_ compare_spec_identifier
.
Porównania adresów e-mail
Atrybuty wiadomości e-mail składają się z dwóch części: unikalnego identyfikatora (przed symbolem @) i domeny poczty elektronicznej (po symbolu @). Zarówno identyfikator, jak i części domeny są porównywane, osobno, przy użyciu następujących funkcji:
- dokładna zgodność,
- Odległość edycji
- Niepasujące
Wynik tych dwóch porównań jest łączony w sposób ważony, aby uzyskać ogólny wynik porównania.
Metoda porównywania adresów e-mail obejmuje następujące zasoby:
compare_spec_email
-W generowanym algorytmie formatem nazwy tego zasobu jestrecordType_entityType_ compare_spec_email
.
Odległość edycji
Mechanizm uzgadniania IBM Match 360 oblicza odległość edycji jako jedną z funkcji wewnętrznych podczas porównywania i dopasowywania różnych atrybutów. Odległość edycji jest pomiarem sposobu, w jaki dwa łańcuchy są oddalone od siebie. Jest on obliczany przez zliczanie liczby zmian wymaganych do przekształcenia jednego łańcucha w drugi.
Istnieją różne sposoby definiowania odległości edycji przy użyciu różnych zestawów operacji łańcuchowych. Domyślnie IBM Match 360 korzysta z funkcji standardowej odległości edycji, która jest publicznie dostępna w literaturze. Alternatywnie można wybrać użycie wyspecjalizowanej funkcji odległości do edycji IBM Match 360 .
Funkcja standardowej odległości edycji zapewnia lepszą wydajność mechanizmu uzgadniania. Z tego powodu jest to domyślna konfiguracja porównania dla wszystkich atrybutów z wyjątkiem typu atrybutu Telefon.
wyspecjalizowana funkcja odległości do edycji jest zbudowana z myślą o precyzyjnych przypadkach użycia. Ta opcja uwzględnia znaki literowe lub podobieństwa, takie jak 8 i B, 0 i O, 5 i S, lub 1 i I. W przypadku wystąpienia niezgodności w dwóch porównywanych wartościach opartych na podobieństwo-wyglądaających znakach, przypisana miara niepodobieństwa jest mniejsza niż to, co zostanie przypisane za pomocą standardowej funkcji odległości edycji. W rezultacie tego typu niedopasowania nie są karane tak mocno przez wyspecjalizowaną funkcję.
Ważne: wyspecjalizowana funkcja odległości edycji obejmuje pewne złożone obliczenia. W rezultacie wybranie tej opcji ma wpływ na wydajność systemu podczas dopasowywania procesu.
Informacje na temat dostosowywania algorytmu dopasowywania, w tym za pomocą interfejsu API do dostosowania odległości edycji, zawiera sekcja Dostosowywanie i wzmacnianie algorytmu uzgadniania.
Więcej inform.
- Pojęcia dotyczące danych
- Dopasowywanie danych w celu utworzenia nadrzędnych jednostek danych
- Dostosowywanie i wzmacnianie algorytmu uzgadniania
Temat nadrzędny: Zarządzanie danymi głównymi