0 / 0
Go back to the English version of the documentation
Strojenie zaawansowanego algorytmu uzgadniania za pomocą interfejsu REST API IBM Match 360
Last updated: 27 lip 2023
Strojenie zaawansowanego algorytmu uzgadniania za pomocą interfejsu REST API IBM Match 360

Aby osiągnąć zaawansowany poziom dostosowania, można użyć interfejsu REST API IBM Match 360 w celu skonfigurowania i dostrojenia zgodnego algorytmu.

Podczas pracy z interfejsem API konieczne jest jawne wdrożenie tego algorytmu przed uruchomieniem zgodnych zadań. Metoda POST /mdm/v1/algorithms/{record_type} w interfejsie API mikrousługi api-model generuje zgodny algorytm na podstawie dostarczonych atrybutów i pól.

Istnieje możliwość dalszego dostosowania algorytmu dopasowywania przy użyciu metody PUT /mdm/v1/algorithms/{record_type} , co umożliwia podanie w ładunku metody w pełni zdefiniowanego algorytmu uzgadniania.

Poniżej przedstawiono przykładowy ładunek dla produktu POST /mdm/v1/algorithms/{record_type} , który definiuje próg automatycznego łącza i zestaw zgodnych atrybutów i pól:

{"person_entity":{"auto_link_threshold":0.4,"matching_attributes":[{"attributes":["legal_name"]},{"attributes":["primary_residence"]}, {"attributes":["mobile_telephone"]},
{"attributes":["birth_date"]}, {"attributes":["gender"]}, {"attributes":["personal_email"]}]}}

Więcej informacji na temat interfejsu API REST produktu IBM Match 360 i odpowiednich pakietów SDK, w tym instrukcje dotyczące uwierzytelniania i pełną dokumentację każdej z metod, zawiera dokumentacja IBM Match 360 API reference.

Pamiętaj: W każdej chwili, gdy algorytm dopasowywania jest aktualizowany, nawet za pomocą interfejsu API, należy uruchomić dopasowywanie później, aby zobaczyć zmiany odzwierciedlone w wynikach dopasowania.

W tym temacie:

Konfigurowanie filtrów porównania wielowymiarowego

Precyzyjnie dostroić odpowiedni algorytm, definiując wielowymiarowe filtry porównania. Filtry wielowymiarowe mogą porównywać atrybuty między rekordami i dopasowywać pasujące wyniki oraz wagi w górę lub w dół w oparciu o zdefiniowane kryteria. Wielowymiarowe filtry porównania mogą zmniejszyć liczbę fałszywie dodatnich lub fałszywych wyników ujemnych w dopasowanych wynikach.

Można również użyć wielowymiarowych filtrów porównania w celu uwzględnienia własnych, deterministycznych reguł dopasowywania, które przesłaniają wyniki dopasowywania oparte na uczeniu maszynowym.

Generowanie wielowymiarowego filtru porównania

Aby wygenerować wielowymiarowy filtr porównania w pasującym algorytmie, zaktualizuj zgodną konfigurację mechanizmu za pomocą komend interfejsu REST API:

  1. Uzyskaj dostęp i uwierzytelnij się w interfejsie API IBM Match 360 .

  2. Określ ładunek produktu POST /mdm/v1/algorithms/{record_type} , który definiuje filtr, tak jak w następującym przykładzie:

    {"person_entity":{"auto_link_threshold":0.4,"matching_attributes":[{"attributes":["legal_name"], "post_filter_methods": ["false_positive_filter"]},{"attributes":["primary_residence"], "post_filter_methods": ["false_positive_filter"]}, {"attributes":["mobile_telephone"]},
    {"attributes":["birth_date"], "post_filter_methods": ["false_positive_filter"]}, {"attributes":["gender"]}, {"attributes":["personal_email"]}]}}
    

    W przykładowym ładunku false_positive_filter jest nazwą filtru niestandardowego. Ma ona zastosowanie do każdego atrybutu w ładunku, który zawiera nazwę filtru.

Przykładowy ładunek interfejsu API wygeneruje algorytm zawierający false_positive_filter , w którym domyślne wagi i kary są domyślne, czyli 0.

Opcjonalnie można dostosować wagi i kary w celu spełnienia wymagań organizacji, a następnie wdrożyć zaktualizowany algorytm za pomocą interfejsu API produktu PUT /mdm/v1/algorithms/{record_type} .

Zrozumienie parametrów definiujących filtry

Aby zrozumieć parametry konfiguracyjne, które definiują wielowymiarowe filtry porównania, należy wziąć pod uwagę przykład false_positive_filter utworzonego w poprzedniej sekcji.

Pobierz bieżący algorytm za pomocą komendy API GET /mdm/v1/algorithms/{record_type}.

Po przesłaniu żądania POST w poprzedniej sekcji, wraz z odpowiednim przykładowym ładunkiem, wygenerowano następującą sekcję w konfiguracji algorytmu:

{
  "false_positive_filter": {
    "filter_recipe": [
      {
        "method": "FilterMethod.MultiDimFilter",
        "inputs": [1,2,3],
        "label": "Multi-Dim filter",
        "weights": [
          {
            "distances": [0,0],
            "values": [0,0,0,0,0,0]
          }
        ]
      }
    ],
    "inputs": [
      {"compare_method": "address_compare"},
      {"compare_method": "date_compare"},
      {"compare_method": "pername_compare"}
    ],
    "label": "false_positive_filter"
  }
}

W przykładowej sekcji false_positive_filter znajdują się standardowe parametry definiujące wielowymiarowe filtry porównania:

  • filter_recipe -ta sekcja zawiera tablicę parametrów, które udostępniają niezbędny przepis definiujący pasujące wagi dla każdego wejścia.

    • inputs. Sekcja filter_recipe.inputs zawiera indeks danych wejściowych, do których odnosi się ten przepis filtru. Są to liczby odpowiadające kolejności metod porównywania, które zostały wymienione w sekcji inputs . Na przykład, w przykładzie, 1 odpowiada metodzie address_compare , 2 odpowiada metodzie date_compare , a 3 odpowiada metodzie pername_compare .
    • weights -Sekcja weights jest tablicą elementów, które definiują sposób ważenia poszczególnych danych wejściowych dla porównania trójwymiarowego. Sekcja weights zawiera definicje distances i values dla danych wejściowych. Domyślna waga to 0 dla dowolnych danych wejściowych, które nie są zdefiniowane.
  • inputs -ta sekcja zawiera metody porównywania atrybutów zgodnych. Te metody będą używać odległości i wag zdefiniowanych w sekcji filter_recipe .

  • max_distance -Opcjonalny (nie jest wyświetlany). Ten parametr definiuje maksymalną odległość. Domyślna maksymalna odległość to 5, co oznacza, że parametr filter_recipe.weights.values może zawierać 6 elementów ("values":[0,1,2,3,4,5]).

Konfigurowanie filtrów niestandardowych

Aby dostosować istniejące metody porównywania do użycia z filtrem porównania wielowymiarowego:

  1. Pobierz bieżący algorytm:

    GET /mdm/v1/algorithms/{record_type}
    
  2. Zaktualizuj algorytm zgodnie z potrzebami. Można na przykład:

    • Dodaj lub zaktualizuj elementy w sekcji weights , aby dostosować wagi dla wymienionych danych wejściowych.
    • Zdefiniuj maksymalną odległość, dodając parametr max_distance .
    • Dodaj metody porównywania jako dane wejściowe, które będą używać tego filtru zamiast domyślnych pasujących wag.
  3. Zastąp zgodny algorytm zaktualizowaną wersją:

    PUT /mdm/v1/algorithms/{record_type}
    

Przykład 1: Użyj następującego przykładowego ładunku, jeśli chcesz ustawić maksymalną odległość do 9 i określić niestandardowe wagi i kary dla różnych kombinacji wejść i odległości w następujący sposób: -input1 distance=0, input2 distance=0, input3 distance = [ 0,1,2,3,4,5,6,7,8, 9]. W tym przypadku kombinacja odległości [ 0,0, 3] daje wynik 15.

  • input1 distance=1, input2 distance=0, input3 dystans = [ 0,1,2,3,4,5,6,7,8, 9]. W tym przypadku kombinacja odległości [ 1,0, 9] daje wynik w wysokości -30.
{
  "false_positive_filter": {
    "filter_recipe": [
      {
        "method": "FilterMethod.MultiDimFilter",
        "max_distance": 9,
        "inputs": [1,2,3],
        "label": "Multi-Dim filter",
        "weights": [
          {
            "distances": [0,0],
            "values": [0,-5,-10,-15,-20,-25,-30,-30,-30,-30]
          },
          {
            "distances": [1,0],
            "values": [0,-5,-10,-15,-20,-25,-30,-30,-30,-30]
          }
        ]
      }
    ],
    "inputs": [
      {"compare_method": "address_compare"},
      {"compare_method": "date_compare"},
      {"compare_method": "pername_compare"}
    ],
    "label": "false_positive_filter"
  }
}

Przykład 2: Można dodać własne niestandardowe metody porównywania i skonfigurować je do wykluczenia z udziału w ogólnym wyniku dopasowania, tak jak w następującym przykładowym ładunku. W tym przypadku metody niestandardowe będą używane tylko przez filtr porównania wielowymiarowego.

W poniższym przykładzie filtr given_name_only_compare ustawia overall_score_contribution na false.

{
  "given_name_only_compare": {
    "methods": [
      {
        "inputs": [
          {
            "attributes": [
              "legal_name"
            ],
            "fields": [
              "given_name"
            ]
          }
        ],
        "compare_recipe": [
          {
            "comparison_resource": "person_person_entity_person_compare_spec_name",
            "method": "CompareMethod.NameCompare",
            "inputs": [
              1
            ],
            "label": "Given Name Only Match",
            "fields": [
              "given_name"
            ]
          } 
        ]
      }
    ],
    "overall_score_contribution" : false,
    "label": "Given Name Only Compare",
    "weights": [1,0,0,0,0,0,0,0,0,0,0]
  }
}

Przełączanie funkcji odległości edycji

Mechanizm uzgadniania IBM Match 360 oblicza odległość edycji jako jedną z funkcji wewnętrznych podczas porównywania i dopasowywania różnych atrybutów. Odległość edycji jest pomiarem sposobu, w jaki dwa łańcuchy są oddalone od siebie. Jest on obliczany przez zliczanie liczby zmian wymaganych do przekształcenia jednego łańcucha w drugi.

Użytkownik może wybrać między standardową funkcją edycji odległości lub wyspecjalizowaną. Standardowa odległość edycji to domyślna konfiguracja, która zapewnia szybszą wydajność podczas dopasowywania. Więcej informacji na temat odległości edycji znajduje się w sekcji IBM Match 360 zgodnych z algorytmami.

Aby zmienić funkcję aktywnej odległości edycji, zaktualizuj zgodną konfigurację mechanizmu za pomocą komend interfejsu REST API:

  1. Uzyskaj dostęp i uwierzytelnij się w interfejsie API IBM Match 360 .

  2. Pobierz istniejący plik konfiguracyjny JSON dla funkcji porównania, compare_spec_resource:

    GET /mdm/v1/compare_spec_resources/{resource_name}
    
  3. Na komputerze lokalnym zmień format JSON, aby dodać wiersz "similar_characters_enabled": true (lub usuń go, jeśli chcesz przełączyć się z powrotem do domyślnego ustawienia odległości edycji).

  4. Zaktualizuj konfigurację programu IBM Match 360 , przesyłając edytowany plik JSON:

    PUT /mdm/v1/compare_spec_resources/{resource_name}
    

Konfigurowanie progu rekordu kleju

Próg rekordu kleju można zdefiniować za pomocą komend interfejsu API w celu zaktualizowania algorytmu uzgadniania IBM Match 360 .

Gdy IBM Match 360 tworzy obiekty poprzez dopasowywanie, niektóre rekordy niskiej jakości mogą działać jako rekordy kleju. Rekordy kleju mają swoją nazwę, ponieważ trzymają się wielu innych płyt, takich jak klej. Ponieważ rekordy sklejenia zawierają kilka lub brak szczegółowych wartości atrybutów, mogą być one zgodne z wieloma różnymi rekordami. Zachowanie dopasowywania rekordu kleju może nieumyślnie i niepoprawnie tworzyć bardzo duże jednostki, które mają tylko jeden rekord kleju o niskiej jakości.

Jako przykład uproszczony należy wziąć pod uwagę rekord niskiej jakości, który nie zawiera atrybutów innych niż nazwa, na przykład Jan Kowalski. Rekord, taki jak ten, może być łatwo zgodny z dowolnym innym "Jan Kowalski" w zestawie danych, co powoduje, że inne rekordy, które w przeciwnym razie nie zostałyby dopasowane, zostaną uwzględnione w pojedynczym obiekcie "Jan Kowalski".

Ustawiając próg rekordu kleju w pasującym algorytmie dla każdego typu jednostki, inżynierowie danych mogą zapobiec powstawaniu rekordów kleju, co powoduje tworzenie dużych, słabo dopasowanych obiektów.

Po skonfigurowaniu progu rekordu kleju produkt IBM Match 360 identyfikuje rekordy kleju, sprawdzając, czy ich wynik własny plus wartość progu rekordu sklejenia jest mniejsza niż wynik własny rekordu centrum w jednostce. Jeśli jest mniejsza, niż rekord jest uznawany za rekord kleju, i nie zostanie uwzględniony w obiekcie.

Progi rekordu kleju są opcjonalne i nie są ustawiane domyślnie. Próg rekordu kleju dla każdego typu jednostki musi być zdefiniowany oddzielnie.

Aby ustawić próg rekordu kleju:

  1. Uzyskaj dostęp i uwierzytelnij się w interfejsie API IBM Match 360 .

  2. Pobierz istniejący plik JSON algorytmu uzgadniania konfiguracji dla danego typu rekordu:

    GET /mdm/v1/algorithms/{record_type}
    
  3. Na komputerze lokalnym zmień format JSON, aby dodać parametr glue_threshold w typie jednostki. Podaj wartość progową. (Usuń parametr, jeśli chcesz usunąć istniejący próg rekordu kleju). Na przykład:

    locale: {...}
    encryption: {...}
    standardizers: {...}
    entity_types:
      person_entity:
        bucket_generators: {...}
        auto_link_threshold: 65
        clerical_review_threshold: 55
        glue_threshold: 20
        compare_methods: {...}  
    
  4. Zaktualizuj algorytm uzgadniania IBM Match 360 :

    PUT /mdm/v1/algorithms/{record_type}
    

Następne kroki

Więcej inform.

Temat nadrzędny: Dostosowywanie i wzmacnianie algorytmu uzgadniania

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more