0 / 0
Go back to the English version of the documentation
Zgodne algorytmy w programie IBM Match 360
Last updated: 24 sie 2023
Zgodne algorytmy w programie IBM Match 360

Firma IBM Match 360 with Watson wykorzystuje zgodne algorytmy w celu rozstrzygania rekordów danych w jednostkach danych głównych. Inżynierowie danych mogą definiować różne algorytmy dopasowywania dla każdego typu jednostki w ich danych. Zgodne algorytmy mogą następnie analizować dane, aby wartościować i porównywać rekordy, a następnie gromadzić dopasowane rekordy do obiektów.

Istnieją dwa wspólne powody, aby można było uruchomić dopasowanie do danych:

  • W przypadku operacji deduplikacji i rozwiązywania problemówproces dopasowywania analizuje dane w celu określenia, czy w danych istnieją zduplikowane rekordy. Rekordy podejrzewanych duplikatów są scalane z jednostkami danych wzorcowych w celu ustanowienia jednego, zaufanego, 360-stopniowego widoku danych.
  • Aby utworzyć inne typy powiązań jednostek, proces dopasowywania analizuje dane w celu gromadzenia rekordów do jednostek reprezentujących różne rodzaje grup, takich jak gospodarstwo domowe.

Obejrzyj poniższy film wideo, aby sprawdzić, w jaki sposób można użyć programu IBM Match 360 w celu skonfigurowania zgodnego algorytmu dla dostosowanego modelu danych.

Ten film wideo udostępnia metodę wizualną, która umożliwia poznanie pojęć i zadań w tej dokumentacji.

W tym temacie:

Dopasowanie, aby utworzyć więcej niż jeden typ obiektu

Algorytmy zgodne z IBM Match 360 są sterowane przez typ jednostki powiązanych danych. Dla każdego typu rekordu w modelu danych można zdefiniować więcej niż jeden typ jednostki. Dla każdego typu jednostki należy skonfigurować i dostroić odpowiadający mu algorytm dopasowywania, aby program IBM Match 360 utworzył obiekty spełniające wymagania organizacji.

Pojedynczy rekord może być częścią więcej niż jednego oddzielnego obiektu. Jeśli model danych zawiera więcej niż jeden typ jednostki, można uruchomić różne typy dopasowywania w tym samym zestawie danych. Na przykład można rozważyć zestaw danych, który zawiera rekordy osób z całego przedsiębiorstwa. Jeśli typ rekordu Osoba zawiera definicje dla typu jednostki Osoba i typu jednostki gospodarstwa domowego, wówczas można uruchomić algorytm dopasowywania osób dla rozstrzygania obiektów i deduplikacji, a także uruchomić algorytm uzgadniania Household w celu utworzenia obiektów składanych z rekordów osób należących do tego samego gospodarstwa domowego.

Zgodny proces

Pasujący mechanizm przechodzi przez zdefiniowany proces w celu dopasowania rekordów do obiektów. Proces dopasowywania obejmuje trzy główne kroki:

  1. Standaryzacja. W tym kroku algorytm standaryzuje format danych tak, aby mógł on być przetwarzany przez pasujący silnik.

  2. Bucketing. Algorytm sortuje dane do różnych kategorii lub "zasobników", dzięki czemu może porównywać dane podobne do tych, które są podobne do informacji.

  3. Porównanie. Algorytm porównuje dane w celu określenia końcowego wyniku porównania. Następnie algorytm korzysta z wyniku porównania w celu określenia, czy rekordy są zgodne.

Każdy z tych kroków jest zdefiniowany i skonfigurowany przez zgodny algorytm.

Komponenty algorytmu uzgadniania

Trzy główne typy komponentów definiują algorytm uzgadniania IBM Match 360 :

Standaryzatory

Jak sama nazwa wskazuje, standaryzatorzy definiują sposób, w jaki dane są standaryzowane. Standaryzacja umożliwia dopasowaniu algorytmu do konwersji wartości różnych atrybutów do standaryzowanej reprezentacji, która może być przetwarzana przez pasujący mechanizm.

Algorytm dopasowywania korzysta z wielu standaryzatorów. Każdy standaryzator jest odpowiedni do przetwarzania konkretnych typów atrybutów znalezionych w danych rekordu.

Standaryzatory są definiowane przez obiekty JSON. Każda definicja obiektu JSON standaryzatora zawiera trzy elementy:

  • label -Etykieta, która identyfikuje ten standaryzator.

  • inputs -Lista inputs zawiera jeden element, który jest obiektem JSON. Ten obiekt JSON ma dwa elementy: fields i attributes:

    • fields -Lista pól, które mają być używane na potrzeby standaryzacji.
    • attributes -Lista atrybutów, które mają być używane na potrzeby standaryzacji.
  • standardizer_recipe -Lista obiektów JSON, w których każdy obiekt reprezentuje jeden krok, który ma być uruchamiany podczas procesu standaryzacji powiązanego standaryzatora. Każdy obiekt na liście standardizer_recipe składa się z czterech głównych elementów:

    • label -Etykieta, która identyfikuje ten krok w przepisie standaryzującym.
    • method -używana metoda wewnętrzna. Ten element jest przeznaczony tylko do celów referencyjnych i nie może być edytowany.
    • inputs -pojedynczy element listy inputs zdefiniowany na jednym poziomie wyższym.
    • fields -lista pól, które mają być używane dla tego kroku. Jest to zwykle podzbiór wszystkich pól zdefiniowanych na liście inputs o jeden poziom wyżej. Nie każdy krok musi przetworzyć wszystkie pola produktu inputs .
    • set_resource -Nazwa zasobu konfigurowalnego typu set używanego na potrzeby tego kroku.
    • map_resource -Nazwa zasobu konfigurowalnego typu map używanego na potrzeby tego kroku.

    W zależności od zachowania kroku może istnieć więcej elementów konfiguracji, które są wymagane w odpowiednim obiekcie JSON.

Wstępnie skonfigurowane standaryzatory

Następujące standaryzatory są gotowe do użycia w programie IBM Match 360. Wstępnie skonfigurowane standaryzatory są również konfigurowalne.

Standaryzator nazwy osoby

Ten standaryzator jest używany do standaryzowania wartości atrybutów Nazwa osoby. Zawiera ona następujące przepisy, w kolejności:

  1. Upper case -Umożliwia przekształcenie wartości pól wejściowych w celu użycia ich wielkich odpowiedników.
  2. Map character -Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego. Opcjonalnie można zdefiniować odwzorowanie w zasobach IBM Match 360 .
  3. Tokenizer -Tokenizuje wartość pola wejściowego na wiele leksemów na podstawie zdefiniowanej listy ograniczników.
  4. Parse token -służy do analizowania wartości pól wejściowych do różnych tokenów w zależności od predefiniowanych wartości w zasobach IBM Match 360 . Na przykład można użyć tego przepisu do analizowania przyrostków, przedrostków i wartości generowania w odpowiednich polach.
  5. Length -Odrzuć tokeny, które znajdują się poza podanym zakresem długości. Wartości minimalne i maksymalne są definiowane w zasobach IBM Match 360 .
  6. Stop token -usuwa anonimowe wartości wejściowe, zgodnie z konfiguracją.
  7. Pick token -służy do wyboru podzbioru (lub wszystkich) tokenów jako standardowych danych do użycia w bukingu i porównywaniu.

Standaryzator nazwy osoby domyślnie korzysta z następujących zasobów mapy:

  • map_character_general -Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego.
  • person_map_name_alignments -Przytaczają wartości przyrostka, prefiks i generację do odpowiednich pól.

Standaryzator nazwy osoby używa domyślnie następujących zasobów zestawu:

  • person_set_name_aname -usuwa wartości anonimowych nazw osób.
Standaryzator nazwy organizacji

Ten standaryzator jest używany do standaryzowania wartości atrybutów Nazwa organizacji. Zawiera ona następujące przepisy, w kolejności:

  1. Upper case -Umożliwia przekształcenie wartości pól wejściowych w celu użycia ich wielkich odpowiedników.
  2. Map character -Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego. Opcjonalnie można zdefiniować odwzorowanie w zasobach IBM Match 360 .
  3. Stop character -usuwa niepożądane znaki wejściowe z wartości nazw.
  4. Map token -Generuje pseudonimy lub alternatywne nazwy dla danych wejściowych i zapisuje informacje w osobnym nowym polu wewnętrznym.
  5. Tokenizer -Tokenizuje wartość pola wejściowego na wiele leksemów na podstawie zdefiniowanej listy ograniczników.
  6. Stop token -usuwa anonimowe wartości wejściowe, zgodnie z konfiguracją.
  7. Acronym -Generuje akronim dla danej nazwy organizacji i zapisuje informacje w osobnym nowym polu wewnętrznym. Wartość akronimu jest używana podczas porównywania w celu obsługi nazw skróconych.
  8. Pick token -służy do wyboru podzbioru (lub wszystkich) tokenów jako standardowych danych do użycia w bukingu i porównywaniu.

Standaryzator nazwy organizacji domyślnie korzysta z następujących zasobów mapy:

  • map_character_general -Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego.
  • org_map_name_cnick_name -Generuje pseudonimy lub alternatywne nazwy dla podanych danych wejściowych.

Standaryzator nazwy organizacji domyślnie używa następujących zasobów zestawu:

  • org_set_name_aname -usuwa anonimowe wartości nazw organizacji.
Standaryzator daty

Ten standaryzator jest używany do standaryzowania wartości atrybutów daty. Obsługuje wiele różnych formatów daty i zawiera następujące przepisy, w kolejności:

  1. Map character -Konwertuje znaki ukośnika (/) na myślniki (-).
  2. Date function -Przekształca dane wejściowe daty w różnych formatach do formatu standaryzowanego.
  3. Stop token -usuwa anonimowe wartości daty, zgodnie ze skonfigurowanymi.
  4. Parse token -służy do analizowania wartości pól wejściowych do różnych tokenów, w zależności od niektórych wyrażeń regularnych. Na przykład można użyć tego przepisu w celu przeanalizowania pełnej daty wejścia do tokenów dnia, miesiąca i roku.
  5. Pick token -służy do wyboru podzbioru (lub wszystkich) tokenów jako standardowych danych do użycia w bukingu i porównywaniu.

Standaryzator daty korzysta domyślnie z następujących zasobów mapy:

  • map_character_date_separators-Konwertuje ukośnik (/) lub dowolny inny znak separatora na znaki myślnika (-).
  • map_date_tokens_year_month_day -służy do analizowania wartości daty wejściowej do pól wewnętrznych, a mianowicie birth_year, birth_month i birth_day, w oparciu o wyrażenia regularne.

Standaryzator daty korzysta domyślnie z następujących zasobów zestawu:

  • set_date_date -usuwa anonimowe wartości dat.
Standaryzator płci

Ten standaryzator jest używany do standaryzowania wartości atrybutów Płeć. Zawiera ona następujące przepisy, w kolejności:

  1. Map character -Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego. Opcjonalnie można zdefiniować odwzorowanie w zasobach IBM Match 360 .
  2. Upper case -Umożliwia przekształcenie wartości pól wejściowych w celu użycia ich wielkich odpowiedników.
  3. Stop token -usuwa anonimowe wejściowe wartości płci, zgodnie ze skonfigurowanymi.
  4. Map token -przekształca wartości znacznika wejściowego na równoważne wartości, zgodnie ze skonfigurowanymi w zasobach IBM Match 360 .
  5. Parse token -Analizuje wartości pól przetworzonych w odpowiednim polu wewnętrznym.
  6. Pick token -służy do wyboru podzbioru (lub wszystkich) tokenów jako standardowych danych do użycia w bukingu i porównywaniu.

Standaryzator płci domyślnie korzysta z następujących zasobów mapy:

  • map_character_general -Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego.
  • map_gender_gender -odwzorowuje różne wejściowe wartości płci na wartości standardowe.
  • map_gender_tokens_gender -Analizuje wartość znacznika wejściowego na wewnętrzne pole gender w oparciu o wyrażenie regularne.

Standaryzator płci używa domyślnie następujących zasobów Ustaw:

  • set_gender_anon_gender -usuwa anonimowe wejściowe wartości płci.
Standaryzator adresu

Ten standaryzator jest używany do standaryzowania wartości atrybutów adresu. Adresy mogą mieć kilka różnych formatów, w zależności od ustawień narodowych. Ta elastyczność wymaga skomplikowanego przetwarzania w celu przekształcenia adresów w znormalizowaną formę. Standaryzator adresu zawiera następujące przepisy, w kolejności:

  1. Upper case -Umożliwia przekształcenie wartości pól wejściowych w celu użycia ich wielkich odpowiedników.
  2. Map character -Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego. Opcjonalnie można zdefiniować odwzorowanie w zasobach IBM Match 360 .
  3. Map token -przekształca wartości znacznika wejściowego na równoważne wartości, zgodnie ze skonfigurowanymi w zasobach IBM Match 360 . Na przykład: "Stany Zjednoczone Ameryki", "Stany Zjednoczone" i "Stany Zjednoczone" można odwzorować na "USA". To odwzorowanie jest wspólne dla wartości pól kraju i prowincji/województwa. Ponadto znaki ogranicznika skonfigurowane w zasobie są odwzorowywane na znak spacji.
  4. Tokenizer -Tokenizuje wartość pola wejściowego na wiele leksemów na podstawie zdefiniowanej listy ograniczników.
  5. Stop token -Usuwa anonimowe wartości wejściowe, takie jak kody pocztowe, zgodnie ze skonfigurowanymi.
  6. Keep token -Umożliwia tylko zdefiniowaną listę wartości dla danego pola. Na przykład: można zdefiniować listę kodów pocztowych, które są dozwolone podczas standaryzacji. Wartości wejściowe, które nie znajdują się na liście dozwolonych, zostaną usunięte.
  7. Parse token -służy do analizowania wartości pól wejściowych w odpowiednich polach wewnętrznych, w zależności od niektórych wyrażeń regularnych i predefiniowanych wartości skonfigurowanych w zasobach. Można użyć tego przepisu, aby obciąć dany znacznik na określoną długość, używając wyrażeń regularnych. Można również zdefiniować różne alfanumeryczne zestawy wzorców w postaci wyrażeń regularnych, aby umożliwić tylko określone wzorce.
  8. Join fields -umożliwia połączenie dwóch lub większej liczby pól w celu utworzenia nowej wartości połączonej, przypisanej do pola wewnętrznego. Na przykład wartości pól latitude i longitude można połączyć razem w celu utworzenia nowego pola wewnętrznego o nazwie lat_long.
  9. Pick token -służy do wyboru podzbioru (lub wszystkich) tokenów jako standardowych danych do użycia w bukingu i porównywaniu.

Standaryzator adresów domyślnie korzysta z następujących zasobów mapy:

  • map_character_general -Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego.
  • map_address_country -przekształca wartości kraju wejściowego na równoważne wartości.
  • map_address_province_state -Konwertuje wartości województwa i województwa na równoważne wartości.
  • map_address_delimiter_removal -odwzorowuje znaki ogranicznika skonfigurowane w zasobie na znak spacji.
  • map_address_addr_tok -przekształca wartości znacznika adresu wejściowego na równoważne wartości.
  • map_address_tokens_unit_type_and_number -Analizuje pole wejściowe residence_number oparte na wyrażeniu regularnym na pola wewnętrzne, a mianowicie unit_type i unit_number.
  • map_address_tokens_street_number_name_direction_type -Analizuje pole wejściowe address_line1 w oparciu o wyrażenie regularne do pól wewnętrznych, a mianowicie street_number, street_name, directioni street_type.
  • map_address_tokens_sub_division -Analizuje pole wejściowe address_line2 na podstawie wyrażenia regularnego do pola wewnętrznego sub_division.
  • map_address_tokens_pobox_type_and_number -Analizuje pole wejściowe address_line3 oparte na wyrażeniu regularnym na pola wewnętrzne, a mianowicie pobox_type i pobox.
  • map_address_tokens_city -Analizuje wartość wejściową pola city w oparciu o wyrażenie regularne.
  • map_address_tokens_province -służy do analizowania wartości wejściowej pola province_state w oparciu o wyrażenie regularne do pola wewnętrznego province.
  • map_address_tokens_postal_code -służy do analizowania wartości wejściowej pola zip_postal_code w oparciu o wyrażenie regularne do pola wewnętrznego postal_code.
  • map_address_tokens_country -Analizuje wartość wejściową pola country w oparciu o wyrażenie regularne.
  • map_address_tokens_latitude -służy do analizowania wartości wejściowej pola latitude_degrees w oparciu o wyrażenie regularne do pola wewnętrznego latitude.
  • map_address_tokens_longtitude -służy do analizowania wartości wejściowej pola longitude_degrees w oparciu o wyrażenie regularne do pola wewnętrznego longitude.

Standaryzator adresów domyślnie korzysta z następujących zasobów zestawu:

  • set_address_postal_code -usuwa anonimowe wartości wejściowe dla zip_postal_code.
Standaryzator telefonu

Ten standaryzator jest używany do standaryzowania wartości atrybutów Telefon. Zawiera ona następujące przepisy, w kolejności:

  1. Stop character -usuwa niepożądane znaki wejściowe z wartości telefonu.
  2. Stop token -usuwa anonimowe wartości telefonu, zgodnie ze skonfigurowanymi.
  3. Phone -Analizuje numery telefonów wejściowych o różnych formatach z różnych ustawień narodowych do wspólnego formatu. Ten przepis można skonfigurować tak, aby usuwać kody obszarów i kody krajów z numerów telefonów. Może również zachować określoną liczbę cyfr w standardowym numerze telefonu.
  4. Parse token -Analizuje wartości pól przetworzonych w odpowiednim polu w zależności od niektórych wyrażeń regularnych skonfigurowanych w zasobach.
  5. Pick token -służy do wyboru podzbioru (lub wszystkich) tokenów jako standardowych danych do użycia w bukingu i porównywaniu.

Standaryzator telefonu domyślnie korzysta z następujących zasobów mapy:

  • map_phone_tokens_phone -służy do analizowania wartości telefonu do pola wewnętrznego w oparciu o wyrażenia regularne.

Standaryzator telefonu domyślnie używa następujących zasobów Ustaw:

  • set_character_phone -zastępuje wszystkie znaki, które nie są alfanumeryczne. Umożliwia określenie wyrażeń regularnych.
  • set_phone_anon_phone -usuwa anonimowe wartości telefonu.
Standaryzator identyfikacji

Ten standaryzator jest używany do standaryzowania wartości atrybutów identyfikacji. Zawiera ona następujące przepisy, w kolejności:

  1. Map character -Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego. Opcjonalnie można zdefiniować odwzorowanie w zasobach IBM Match 360 .
  2. Upper case -Umożliwia przekształcenie wartości pól wejściowych w celu użycia ich wielkich odpowiedników.
  3. Stop character -usuwa niechciane znaki wejściowe z wartości identyfikacyjnych.
  4. Stop token -usuwa anonimowe wartości wejściowe, zgodnie z konfiguracją.
  5. Map token -przekształca wartości znacznika wejściowego na równoważne wartości, zgodnie ze skonfigurowanymi w zasobach IBM Match 360 .
  6. Parse token -Analizuje wartości pól przetworzonych w odpowiednim polu w zależności od niektórych wyrażeń regularnych skonfigurowanych w zasobach.
  7. Pick token -służy do wyboru podzbioru (lub wszystkich) tokenów jako standardowych danych do użycia w bukingu i porównywaniu.

Standaryzator identyfikacji domyślnie korzysta z następujących zasobów mapy:

  • map_character_general -Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego.
  • map_identifier_equi_identifier -przekształca wartości znacznika wejściowego na równoważne wartości.
  • map_identifier_tokens_identification_number -Analizuje wartości pól przetworzonych w odpowiednim polu w zależności od niektórych wyrażeń regularnych skonfigurowanych w zasobach.

Standaryzator identyfikacji domyślnie korzysta z następujących zasobów Ustaw:

  • set_character_identification_number -Usuwa niealfanumeryczne znaki wejściowe z wartości identyfikacyjnych. Umożliwia określenie wyrażeń regularnych.
  • set_identifier_anonymous -usuwa anonimowe wartości identyfikacyjne.
Standaryzator poczty elektronicznej

Ten standaryzator jest używany do standaryzowania wartości atrybutów wiadomości e-mail. Zawiera ona następujące przepisy, w kolejności:

  1. Map character -Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego. Opcjonalnie można zdefiniować odwzorowanie w zasobach IBM Match 360 .
  2. Upper case -Umożliwia przekształcenie wartości pól wejściowych w celu użycia ich wielkich odpowiedników.
  3. Stop token -usuwa anonimowe wartości wejściowe, zgodnie z konfiguracją.
  4. Map token -przekształca wartości znacznika wejściowego na równoważne wartości, zgodnie ze skonfigurowanymi w zasobach IBM Match 360 .
  5. Parse token -Analizuje wartości pól przetworzonych w odpowiednim polu w zależności od niektórych wyrażeń regularnych skonfigurowanych w zasobach.
  6. Pick token -służy do wyboru podzbioru (lub wszystkich) tokenów jako standardowych danych do użycia w bukingu i porównywaniu.

Standaryzator poczty elektronicznej domyślnie używa następujących zasobów mapy:

  • map_character_general -Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego.
  • map_non_phone_equi_non_phone -przekształca wartości znacznika wejściowego na równoważne wartości.
  • map_non_phone_tokens_non_phone -służy do analizowania pola wejściowego email_id w oparciu o wyrażenie regularne do pól wewnętrznych email_local_part i email_domain.

Standaryzator poczty elektronicznej domyślnie używa następujących zasobów Ustaw:

  • set_non_phone_anon_non_phone -usuwa anonimowe wartości poczty elektronicznej.
Standaryzator mediów społecznościowych

Ten standaryzator jest używany do standaryzowania wartości atrybutów Social Media. Zawiera ona następujące przepisy, w kolejności:

  1. Map character -Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego. Opcjonalnie można zdefiniować odwzorowanie w zasobach IBM Match 360 .
  2. Upper case -Umożliwia przekształcenie wartości pól wejściowych w celu użycia ich wielkich odpowiedników.
  3. Stop token -usuwa anonimowe wartości wejściowe, zgodnie z konfiguracją.
  4. Map token -przekształca wartości znacznika wejściowego na równoważne wartości, zgodnie ze skonfigurowanymi w zasobach IBM Match 360 .
  5. Parse token -Analizuje wartości pól przetworzonych w odpowiednim polu w zależności od niektórych wyrażeń regularnych skonfigurowanych w zasobach.
  6. Pick token -służy do wyboru podzbioru (lub wszystkich) tokenów jako standardowych danych do użycia w bukingu i porównywaniu.

Standaryzator Social Media domyślnie używa następujących zasobów mapy:

  • map_character_general -Konwertuje znaki wejściowe UNICODE na równoważne znaki alfabetu angielskiego.
  • map_non_phone_equi_non_phone -przekształca wartości znacznika wejściowego na równoważne wartości.
  • map_non_phone_tokens_non_phone -Analizuje pole wejściowe social_media_handle w polu wewnętrznym social_media_id na podstawie wyrażeń regularnych.

Standaryzator Social Media domyślnie używa następujących zasobów Ustaw:

  • set_non_phone_anon_non_phone -usuwa anonimowe wartości social_media_id.

Typy jednostek (bucketing)

W ramach jednego zgodnego algorytmu każdy typ rekordu może mieć wiele definicji typów jednostek (obiekty JSON produktuentity_type ). Na przykład w algorytmie zdefiniowanym dla typu rekordu osoby może być konieczne utworzenie więcej niż jednej definicji typu jednostki, takiej jak jednostka osoby, jednostka gospodarstwa domowego, obiekt lokalizacji i inne.

Każdy typ jednostki może być używany do dopasowania rekordów i łączenia rekordów na różne sposoby. Typ jednostki definiuje sposób, w jaki rekordy są buckowane i porównywane podczas dopasowywania.

Każda definicja typu jednostki (entity_type) w pasującym algorytmie ma kilka elementów JSON:

  • clerical_review_threshold -Rekordy, dla których wynik porównania jest niższy od progu przeglądu ręcznego, są traktowane jako niezgodne.

  • auto_link_threshold -rekordy, które mają wynik porównania wyższy niż próg automatycznego łącza, są uznawane za wystarczająco silne, aby były zgodne automatycznie.

  • bucket_generators -ta sekcja zawiera definicję generatorów zasobników skonfigurowanych dla typu jednostki. Istnieją dwa rodzaje generatorów zasobników: wiadra i grupy zasobników.

    • Bukiety obejmują tylko jeden atrybut. Każda definicja bucket zawiera cztery elementy:

      • label -Etykieta, która identyfikuje generator porcji.
      • maximum_bucket_size -Wartość, która definiuje wielkość dużych porcji. Dowolna wartość mieszająca porcji o wielkości porcji większej niż ta wartość nie jest uwzględniana podczas dopasowywania do wyboru kandydata.
      • inputs -W przypadku zasobników lista inputs zawiera tylko jeden element, który jest obiektem JSON. Ten obiekt JSON ma dwa elementy: fields i attributes:
        • fields -Lista pól, które mają być używane do wypakowywania.
        • attributes -Lista atrybutów, które mają być używane do wypakowywania.
      • bucket_recipe -Lista przepisów dotyczących zasobników definiuje kroki dla generatora porcji, które mają zostać zakończone w trakcie procesu wykuwaczowego. Każda lista bucket_recipe zawiera pewną liczbę podelementów:
        • label -etykieta, która identyfikuje element receptury zasobnika.
        • method -używana metoda wewnętrzna. Ten element jest przeznaczony tylko do celów referencyjnych i nie może być edytowany.
        • inputs -pojedynczy element listy inputs zdefiniowany na jednym poziomie wyższym.
        • fields -lista pól, które mają być używane dla tego zasobnika. Jest to zwykle podzbiór wszystkich pól zdefiniowanych na liście inputs o jeden poziom wyżej.
        • min_tokens -minimalna liczba tokenów, które mają być używane, gdy przepis tworzy mieszanie porcji.
        • max_tokens -Maksymalna liczba tokenów, które mają być używane razem, gdy przepis tworzy mieszanie porcji.
        • count -Limit liczby haftów zasobnika dla pojedynczego rekordu, który został wygenerowany z generatora porcji. Jeśli rekord generuje wiele mieszających porcji, zostanie pobrana tylko liczba zestawów mieszających ustawionych przez ten element.
        • bucket_group -numer kolejny dla grupy zasobników, która tworzy mieszanie porcji. Do kroków pośrednich lub przepisów nie można przypisać numeru kolejnego.
        • order -określa, czy tokeny są sortowane w kolejności leksykograficznej, gdy wiele tokenów jest połączonych w celu utworzenia mieszającego porcji.
        • maximum_bucket_size -wartość, która definiuje wielkość dużych porcji. Ten element jest taki sam jak ten, który został zdefiniowany na poziomie generatora kubeł. Ten element jest również taki sam, jak na poziomie receptury wiaderka, który zapewnia dokładniejsze sterowanie dużymi indywidualnymi porcjami.
    • Grupy zasobników obejmują bucketing dla więcej niż jednego atrybutu. Każda definicja bucket_group zawiera pięć elementów:

      • label -Etykieta, która identyfikuje generator porcji.
      • maximum_bucket_size -Wartość, która definiuje wielkość dużych porcji. Dowolna wartość mieszająca porcji o wielkości porcji większej niż ta wartość nie jest uwzględniana podczas dopasowywania do wyboru kandydata.
      • inputs -W przypadku grup porcji lista inputs zawiera więcej niż jeden element obiektu JSON. Każdy obiekt JSON ma dwa elementy: fields i attributes:
        • fields -Lista pól, które mają być używane do wypakowywania.
        • attributes -Lista atrybutów, które mają być używane do wypakowywania.
      • bucket_recipe -Lista przepisów dotyczących zasobników definiuje kroki dla generatora porcji, które mają zostać zakończone w trakcie procesu wykuwaczowego. Każda lista bucket_recipe zawiera pewną liczbę podelementów:
        • label -etykieta, która identyfikuje element receptury zasobnika.
        • method -używana metoda wewnętrzna. Ten element jest przeznaczony tylko do celów referencyjnych i nie może być edytowany.
        • inputs -pojedynczy element listy inputs zdefiniowany na jednym poziomie wyższym.
        • fields -lista pól, które mają być używane dla tego zasobnika. Jest to zwykle podzbiór wszystkich pól, które są zdefiniowane na liście inputs o jeden poziom wyżej.
        • min_tokens -minimalna liczba tokenów, które mają być używane, gdy przepis tworzy mieszanie porcji.
        • max_tokens -Maksymalna liczba tokenów, które mają być używane razem, gdy przepis tworzy mieszanie porcji.
        • count -Limit liczby haftów zasobnika dla pojedynczego rekordu, który został wygenerowany z generatora porcji. Jeśli rekord generuje wiele mieszających porcji, zostanie pobrana tylko liczba zestawów mieszających ustawionych przez ten element.
        • bucket_group -numer kolejny dla grupy zasobników, która tworzy mieszanie porcji. Do kroków pośrednich lub przepisów nie można przypisać numeru kolejnego.
        • order -określa, czy tokeny są sortowane w kolejności leksykograficznej, gdy wiele tokenów jest połączonych w celu utworzenia mieszającego porcji.
        • maximum_bucket_size -wartość, która definiuje wielkość dużych porcji. Ten element jest taki sam, jak ten zdefiniowany na poziomie generatora porcji. Możliwość zdefiniowania go na poziomie porcji receptury daje finer kontroli nad dużymi pojedynkami.
        • set_resource -nazwa zasobu typu set używanego na potrzeby receptury zasobnika.
        • map_resource -nazwa zasobu typu map używanego na potrzeby receptury zasobnika.
        • output_fields -Jeśli ten przepis spowoduje utworzenie nowych pól po zakończeniu funkcji bucketing w polach wejściowych, ten element zawiera listę nazw wygenerowanych pól.
      • bucket_group_recipe -Sekcja z przepisami grupy zasobników jest zwykle używana do definiowania zasobników, które składają się z więcej niż jednego atrybutu. Każdy element listy bucket_group_recipe jest obiektem JSON definiującym konstrukcję dla pojedynczej grupy porcji.
        • Lista inputs w programie bucket_group_recipe ma więcej niż jeden element, co oznacza, że odnosi się do więcej niż jednego atrybutu zdefiniowanego w tablicy inputs o jeden poziom wyżej.
        • Element fields jest listą list. Każda wewnętrzna lista pól jest powiązana z odpowiednią listą attributes .
        • Listy min_tokens i max_tokens mają więcej niż jeden element, z każdym elementem odpowiadając na odpowiednią listę attributes .
      Uwaga:

      W niektórych definicjach receptur znajduje się właściwość o nazwie search_only. Domyślnie jej wartością jest false. Jeśli ustawiona jest wartość true, ta właściwość wskazuje, że grupa zasobnika lub zasobnika jest używana tylko w scenariuszach wyszukiwania probabilistycznego i nie jest używana w scenariuszach rozstrzygania obiektów (zgodnych ze zgodnymi).

  • compare_methods -Definicje metod porównania, które są skonfigurowane dla typu jednostki. Każdy obiekt JSON compare_methods składa się z definicji różnych metod compare . Algorytm dopasowywania dodaje wyniki z każdej definicji metody compare , aby uzyskać końcowy wynik porównania. Każdy obiekt JSON metody compare zawiera trzy elementy:

    • label -Etykieta, która identyfikuje metodę compare .
    • methods -Lista komparatorów, które tworzą grupę porównawcze. Każdy element w tej tablicy reprezentuje jeden komparator, oznaczany dla jednego typu zgodnego atrybutu. Algorytm dopasowywania uwzględnia maksymalną liczbę ocen ze wszystkich komparatorów na liście methods jako wynik końcowy z tej grupy porównawczej. Każda definicja komparatora zawiera dwa elementy:
      • inputs -W przypadku komparatorów lista inputs ma tylko jeden element, który jest obiektem JSON. Ten obiekt JSON ma dwa elementy: fields i attributes:
        • fields -Lista pól, które mają zostać użyte do porównania.
        • attributes -Lista atrybutów, które mają zostać użyte do porównania.
      • compare_recipe -Ta lista jest używana głównie do definiowania kroków porównania. Zwykle w tej tablicy istnieje tylko jeden element JSON, który reprezentuje tylko jeden krok do wykonania porównania. Ten krok zawiera pięć elementów:
        • label -etykieta, która identyfikuje krok porównania.
        • method -używana metoda wewnętrzna. Ten element jest przeznaczony tylko do celów referencyjnych i nie może być edytowany.
        • inputs -pojedynczy element listy inputs zdefiniowany na jednym poziomie wyższym.
        • fields -Pola, które mają być używane do tego porównania, poza wszystkimi polami zdefiniowanymi na liście inputs o jeden poziom wyżej.
        • comparison_resource -nazwa dostosowywalnego zasobu porównawczego użytego dla tego kroku porównania.
    • weights -każde porównanie wykonywane przez komparator powoduje wynik liczby z zakresu od 0 do 10. Liczba ta nazywana jest miarą odległości lub podobieństwa. Odległość od 0 oznacza, że porównywane wartości są dokładnie takie same. Odległość 10 wskazuje, że są one zupełnie inne. Odpowiada 11 odrębnych wartości (0-10), 11 wag jest zdefiniowanych dla każdego komparatora. Po obliczeniu odległości, metoda porównywania określa odpowiednią wartość wagi z listy wag, co powoduje, że wynik porównania jest całkowity. Inżynierowie danych mogą dostosować wagi w zależności od potrzeb, w oparciu o jakość danych, dystrybucję lub inne czynniki.
  • record_filter -Element filtrowania rekordów umożliwia dopasowaniu mechanizmu do wybierania rekordów do dopasowania w oparciu o ich typy obiektów. Każda definicja filtru rekordu zawiera jeden element:

    • criteria -Zawiera lub wyklucza rekordy z dopasowywania w oparciu o konkretne warunki. Ten element zawiera jeden obiekt JSON z parą klucz-wartość.

      Kluczem obiektu JSON criteria jest nazwa atrybutu. Może to być jeden z następujących elementów:

      • Atrybut systemowy record_source .
      • Zdefiniowany przez użytkownika atrybut niestandardowy typu prostego atrybutu (string).

    Wartością obiektu JSON criteria jest inny obiekt JSON zawierający jeden element, który może mieć jedną z następujących wartości:

    • allowed -tablica wartości łańcuchowych. Rekordy, które zawierają dowolną z tych wartości, będą uwzględniane podczas dopasowywania.
    • disallowed -tablica wartości łańcuchowych. Rekordy, które zawierają dowolną z tych wartości, nie będą brane pod uwagę podczas dopasowywania.

Zasoby Bucketing

Definicje bucketing domyślnie używają następujących zasobów mapy:

  • person_map_name_nickname -Generuje pseudonimy lub alternatywne nazwy dla danych wejściowych podanych nazw osób.
  • org_map_name_cnick_name -Generuje pseudonimy lub alternatywne nazwy dla danych wejściowych danej nazwy organizacji.

Definicje bucketing domyślnie korzystają z następujących zasobów Ustaw:

  • person_set_name_bkt_anon -usuwa wartości anonimowych nazw osób.
  • org_set_name_acname -usuwa anonimowe wartości nazw organizacji.

funkcje porównawcze

Funkcje porównywania, czasami nazywane komparatorami, są jednym z kluczowych komponentów algorytmu uzgadniania. Funkcje porównywania są używane przez mechanizm uzgadniania do porównywania danych rekordu podczas dopasowywania procesu. Zasadniczo dopasowanie rekordów wiąże się z porównywaniem różnych typów atrybutów między różnymi danymi rekordów.

W przypadku wielu często używanych typów atrybutów w domenach osoby, organizacji i lokalizacji, mechanizm uzgadniania IBM Match 360 zawiera wstępnie skonfigurowane metody porównania.

W programie IBM Match 360funkcje porównywania korzystają z podejścia do porównania określanego jako wektory funkcji. W programie IBM Match 360 dostępne są różne konfigurowalne definicje składników, które są używane do różnych funkcji porównywania. Każde porównanie skutkuje miarą odległości (wektora), która pokazuje, jak bardzo podobne są dwie podane wartości atrybutów.

W algorytmie dopasowywania każda dyskretna wartość odległości jest podawana na wagę, która określa, jak silnie rozważyć tę wartość. Waga łączy się z dystansem w celu uzyskania wyniku porównania. Algorytm dopasowywania dodaje wszystkie wyniki porównania razem, aby osiągnąć końcowy wynik porównania dla ogólnego porównania rekordów do rekordu.

Informacje o opcjach

Funkcja reprezentuje szczegółowe informacje o poziomie funkcji porównania. Różne typy atrybutów używają różnych typów sprawdzeń podobieństw, co oznacza, że ich funkcje są różne.

Definicje składników dyktują typy funkcji wewnętrznych używanych dla każdej funkcji porównania. Przykładami funkcji wewnętrznych są dokładna zgodność, odległość edycji, pseudonim, odpowiednik fonetyczny lub zgodność początkowa.

Zasoby porównawcze

Każda metoda porównania zawiera zasoby, które zawierają szczegóły jego wewnętrznych operacji porównania.

Każdy z domyślnych typów porównania ma własne zasoby. Szczegółowe informacje na temat powiązanych zasobów można znaleźć w każdym typie porównania.

W przypadku porównań dotyczących niestandardowych typów atrybutów, które mają zgodny typ generic, ogólna metoda porównania obejmuje następujące zasoby:

  • compare_spec_generic -W generowanym algorytmie formatem nazwy tego zasobu jest recordType_entityType_compare_spec_generic.

Porównania nazw osób

Różne pola w atrybucie nazwy osoby są obsługiwane w inny sposób. W przypadku pól, takich jak przedrostek, przyrostek i generowanie wartości, sprawdzana jest dokładność lub niezgodność. Inne pola, takie jak imię i nazwisko, nazwisko i drugie imię, używają przede wszystkim następujących funkcji:

  • dokładna zgodność,
  • Dopasowanie pseudonimu
  • Odległość edycji
  • Zgodność inicjałów
  • Dopasowanie fonetyczne
  • Rozdzielający leksemy
  • Dodatkowe tokeny
  • Brakujące dane

Metoda porównywania nazw osób obejmuje następujące zasoby:

  • person_compare_spec_name -W generowanym algorytmie formatem nazwy tego zasobu jest recordType_entityType_ compare_spec_name. Na przykład: person_person_entity_compare_spec_name.

Porównania nazw organizacji

W przypadku nazw organizacji pole to jest typu, które zawiera całą nazwę firmy. To pole jest porównywane przy użyciu przede wszystkim następujących funkcji:

  • dokładna zgodność,
  • Dopasowanie pseudonimu
  • Odległość edycji
  • Zgodność inicjałów
  • Dopasowanie fonetyczne
  • Rozdzielający leksemy
  • Dodatkowe tokeny
  • Brakujące dane

W przypadku nazw organizacji porównywane są również akronimy i pseudonimy.

Metoda porównywania nazw organizacji obejmuje następujące zasoby:

  • org_compare_spec_name -W generowanym algorytmie formatem nazwy tego zasobu jest recordType_entityType_ compare_spec_name.

Porównania dat

W przypadku dat są zwykle trzy pola do porównania: dzień, miesiąc i rok.

Pole year jest porównywane przy użyciu następujących funkcji:

  • Dokładność
  • Odległość edycji
  • Niepasujące
  • Brak

Pola day i month są porównywane przy użyciu następujących funkcji:

  • Dokładność
  • Niepasujące
  • Brak

Komparator daty sprawdza również, czy pola day i month zostały przetransponowane z powodu różnic ustawień narodowych w formatowaniu daty.

Metoda porównywania dat obejmuje następujące zasoby:

  • compare_spec_date -W generowanym algorytmie formatem nazwy tego zasobu jest recordType_entityType_ compare_spec_date.

Porównania płci

Porównywany jest atrybut płci, korzystając z następujących funkcji:

  • Dokładność
  • Niepasujące

Metoda porównywania płci obejmuje następujące zasoby:

  • compare_spec_gender -W generowanym algorytmie formatem nazwy tego zasobu jest recordType_entityType_ compare_spec_gender.

Porównania adresów

Różne pola w atrybucie adresu są obsługiwane w inny sposób.

Pola takie jak kraj, miasto, województwo/województwo i podział są porównywane przy użyciu następujących funkcji:

  • Dokładność
  • Równoważność
  • Odległość edycji
  • Niepasujące
  • Brak

Pola kodu pocztowego są porównywane przy użyciu następujących funkcji:

  • Dokładność
  • Odległość edycji
  • Niepasujące
  • Brak

Pola, takie jak numer ulicy, nazwa ulicy, typ ulicy, numer jednostki i kierunek, są porównywane przy użyciu następujących funkcji:

  • Dokładność
  • Równoważność
  • Zgodność inicjałów
  • Odległość edycji
  • Niepasujące
  • Rozdzielający leksemy
  • Brak

Metoda porównania adresów obejmuje następujące zasoby:

  • compare_spec_address -W generowanym algorytmie formatem nazwy tego zasobu jest recordType_entityType_ compare_spec_address.

Porównania telefonów

Atrybuty numeru telefonu są porównywane przy użyciu następujących funkcji:

  • dokładna zgodność,
  • Odległość edycji
  • Niepasujące

Metoda porównania telefonu obejmuje następujące zasoby:

  • compare_spec_phone -W wygenerowanym algorytmie format nazwy tego zasobu będzie miał postać recordType_entityType_ compare_spec_phone.

Porównania identyfikatorów

Atrybuty numeru identyfikacyjnego są porównywane przy użyciu następujących funkcji:

  • dokładna zgodność,
  • Odległość edycji
  • Niepasujące

Metoda porównywania identyfikatorów obejmuje następujące zasoby:

  • compare_spec_identifier -W generowanym algorytmie formatem nazwy tego zasobu jest recordType_entityType_ compare_spec_identifier.

Porównania adresów e-mail

Atrybuty wiadomości e-mail składają się z dwóch części: unikalnego identyfikatora (przed symbolem @) i domeny poczty elektronicznej (po symbolu @). Zarówno identyfikator, jak i części domeny są porównywane, osobno, przy użyciu następujących funkcji:

  • dokładna zgodność,
  • Odległość edycji
  • Niepasujące

Wynik tych dwóch porównań jest łączony w sposób ważony, aby uzyskać ogólny wynik porównania.

Metoda porównywania adresów e-mail obejmuje następujące zasoby:

  • compare_spec_email -W generowanym algorytmie formatem nazwy tego zasobu jest recordType_entityType_ compare_spec_email.

Porównania w mediach społecznościowych

Atrybuty uchwytu nośnika społecznościowego są porównywane przy użyciu następujących funkcji:

  • dokładna zgodność,
  • Odległość edycji
  • Niepasujące

Metoda porównywania z nośnikami społecznościowym obejmuje następujące zasoby:

  • compare_spec_non_phone -W generowanym algorytmie formatem nazwy tego zasobu jest recordType_entityType_ compare_spec_non_phone.

Odległość edycji

Mechanizm uzgadniania IBM Match 360 oblicza odległość edycji jako jedną z funkcji wewnętrznych podczas porównywania i dopasowywania różnych atrybutów. Odległość edycji jest pomiarem sposobu, w jaki dwa łańcuchy są oddalone od siebie. Jest on obliczany przez zliczanie liczby zmian wymaganych do przekształcenia jednego łańcucha w drugi.

Istnieją różne sposoby definiowania odległości edycji przy użyciu różnych zestawów operacji łańcuchowych. Domyślnie IBM Match 360 korzysta z funkcji standardowej odległości edycji, która jest publicznie dostępna w literaturze. Alternatywnie można wybrać użycie wyspecjalizowanej funkcji odległości do edycji IBM Match 360 .

  • Funkcja standardowej odległości edycji zapewnia lepszą wydajność mechanizmu uzgadniania. Z tego powodu jest to domyślna konfiguracja porównania dla wszystkich atrybutów z wyjątkiem typu atrybutu Telefon.

  • wyspecjalizowana funkcja odległości do edycji jest zbudowana z myślą o precyzyjnych przypadkach użycia. Ta opcja uwzględnia znaki literowe lub podobieństwa, takie jak 8 i B, 0 i O, 5 i S, lub 1 i I. W przypadku wystąpienia niezgodności w dwóch porównywanych wartościach opartych na podobieństwo-wyglądaających znakach, przypisana miara niepodobieństwa jest mniejsza niż to, co zostanie przypisane za pomocą standardowej funkcji odległości edycji. W rezultacie tego typu niedopasowania nie są karane tak mocno przez wyspecjalizowaną funkcję.

    Ważne: wyspecjalizowana funkcja odległości edycji obejmuje pewne złożone obliczenia. W rezultacie wybranie tej opcji ma wpływ na wydajność systemu podczas dopasowywania procesu.

Informacje na temat dostosowywania algorytmu dopasowywania, w tym za pomocą interfejsu API do dostosowania odległości edycji, zawiera sekcja Dostosowywanie i wzmacnianie algorytmu uzgadniania.

Więcej inform.

Temat nadrzędny: Zarządzanie danymi głównymi

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more