Translation not up to date
Aby osiągnąć zaawansowany poziom dostosowania, można użyć interfejsu REST API IBM Match 360 w celu skonfigurowania i dostrojenia zgodnego algorytmu.
Podczas pracy z interfejsem API konieczne jest jawne wdrożenie tego algorytmu przed uruchomieniem zgodnych zadań. Metoda POST /mdm/v1/algorithms/{record_type}
w interfejsie API mikrousługi api-model
generuje zgodny algorytm na podstawie dostarczonych atrybutów i pól.
Istnieje możliwość dalszego dostosowania algorytmu dopasowywania przy użyciu metody PUT /mdm/v1/algorithms/{record_type}
, co umożliwia podanie w ładunku metody w pełni zdefiniowanego algorytmu uzgadniania.
Poniżej przedstawiono przykładowy ładunek dla produktu POST /mdm/v1/algorithms/{record_type}
, który definiuje próg automatycznego łącza i zestaw zgodnych atrybutów i pól:
{"person_entity":{"auto_link_threshold":0.4,"matching_attributes":[{"attributes":["legal_name"]},{"attributes":["primary_residence"]}, {"attributes":["mobile_telephone"]},
{"attributes":["birth_date"]}, {"attributes":["gender"]}, {"attributes":["personal_email"]}]}}
Więcej informacji na temat interfejsu API REST produktu IBM Match 360 i odpowiednich pakietów SDK, w tym instrukcje dotyczące uwierzytelniania i pełną dokumentację każdej z metod, zawiera dokumentacja IBM Match 360 API reference.
W tym temacie:
Konfigurowanie filtrów porównania wielowymiarowego
Precyzyjnie dostroić odpowiedni algorytm, definiując wielowymiarowe filtry porównania. Filtry wielowymiarowe mogą porównywać atrybuty między rekordami i dopasowywać pasujące wyniki oraz wagi w górę lub w dół w oparciu o zdefiniowane kryteria. Wielowymiarowe filtry porównania mogą zmniejszyć liczbę fałszywie dodatnich lub fałszywych wyników ujemnych w dopasowanych wynikach.
Można również użyć wielowymiarowych filtrów porównania w celu uwzględnienia własnych, deterministycznych reguł dopasowywania, które przesłaniają wyniki dopasowywania oparte na uczeniu maszynowym.
Generowanie wielowymiarowego filtru porównania
Aby wygenerować wielowymiarowy filtr porównania w pasującym algorytmie, zaktualizuj zgodną konfigurację mechanizmu za pomocą komend interfejsu REST API:
Uzyskaj dostęp i uwierzytelnij się w interfejsie API IBM Match 360 .
Określ ładunek produktu
POST /mdm/v1/algorithms/{record_type}
, który definiuje filtr, tak jak w następującym przykładzie:{"person_entity":{"auto_link_threshold":0.4,"matching_attributes":[{"attributes":["legal_name"], "post_filter_methods": ["false_positive_filter"]},{"attributes":["primary_residence"], "post_filter_methods": ["false_positive_filter"]}, {"attributes":["mobile_telephone"]}, {"attributes":["birth_date"], "post_filter_methods": ["false_positive_filter"]}, {"attributes":["gender"]}, {"attributes":["personal_email"]}]}}
W przykładowym ładunku
false_positive_filter
jest nazwą filtru niestandardowego. Ma ona zastosowanie do każdego atrybutu w ładunku, który zawiera nazwę filtru.
Przykładowy ładunek interfejsu API wygeneruje algorytm zawierający false_positive_filter
, w którym domyślne wagi i kary są domyślne, czyli 0.
Opcjonalnie można dostosować wagi i kary w celu spełnienia wymagań organizacji, a następnie wdrożyć zaktualizowany algorytm za pomocą interfejsu API produktu PUT /mdm/v1/algorithms/{record_type}
.
Zrozumienie parametrów definiujących filtry
Aby zrozumieć parametry konfiguracyjne, które definiują wielowymiarowe filtry porównania, należy wziąć pod uwagę przykład false_positive_filter
utworzonego w poprzedniej sekcji.
Pobierz bieżący algorytm za pomocą komendy API GET /mdm/v1/algorithms/{record_type}
.
Po przesłaniu żądania POST w poprzedniej sekcji, wraz z odpowiednim przykładowym ładunkiem, wygenerowano następującą sekcję w konfiguracji algorytmu:
{
"false_positive_filter": {
"filter_recipe": [
{
"method": "FilterMethod.MultiDimFilter",
"inputs": [1,2,3],
"label": "Multi-Dim filter",
"weights": [
{
"distances": [0,0],
"values": [0,0,0,0,0,0]
}
]
}
],
"inputs": [
{"compare_method": "address_compare"},
{"compare_method": "date_compare"},
{"compare_method": "pername_compare"}
],
"label": "false_positive_filter"
}
}
W przykładowej sekcji false_positive_filter
znajdują się standardowe parametry definiujące wielowymiarowe filtry porównania:
filter_recipe
-ta sekcja zawiera tablicę parametrów, które udostępniają niezbędny przepis definiujący pasujące wagi dla każdego wejścia.inputs
. Sekcjafilter_recipe.inputs
zawiera indeks danych wejściowych, do których odnosi się ten przepis filtru. Są to liczby odpowiadające kolejności metod porównywania, które zostały wymienione w sekcjiinputs
. Na przykład, w przykładzie,1
odpowiada metodzieaddress_compare
,2
odpowiada metodziedate_compare
, a3
odpowiada metodziepername_compare
.weights
-Sekcjaweights
jest tablicą elementów, które definiują sposób ważenia poszczególnych danych wejściowych dla porównania trójwymiarowego. Sekcjaweights
zawiera definicjedistances
ivalues
dla danych wejściowych. Domyślna waga to0
dla dowolnych danych wejściowych, które nie są zdefiniowane.
inputs
-ta sekcja zawiera metody porównywania atrybutów zgodnych. Te metody będą używać odległości i wag zdefiniowanych w sekcjifilter_recipe
.max_distance
-Opcjonalny (nie jest wyświetlany). Ten parametr definiuje maksymalną odległość. Domyślna maksymalna odległość to 5, co oznacza, że parametrfilter_recipe.weights.values
może zawierać 6 elementów ("values":[0,1,2,3,4,5]
).
Konfigurowanie filtrów niestandardowych
Aby dostosować istniejące metody porównywania do użycia z filtrem porównania wielowymiarowego:
Pobierz bieżący algorytm:
GET /mdm/v1/algorithms/{record_type}
Zaktualizuj algorytm zgodnie z potrzebami. Można na przykład:
- Dodaj lub zaktualizuj elementy w sekcji
weights
, aby dostosować wagi dla wymienionych danych wejściowych. - Zdefiniuj maksymalną odległość, dodając parametr
max_distance
. - Dodaj metody porównywania jako dane wejściowe, które będą używać tego filtru zamiast domyślnych pasujących wag.
- Dodaj lub zaktualizuj elementy w sekcji
Zastąp zgodny algorytm zaktualizowaną wersją:
PUT /mdm/v1/algorithms/{record_type}
Przykład 1: Użyj następującego przykładowego ładunku, jeśli chcesz ustawić maksymalną odległość do 9 i określić niestandardowe wagi i kary dla różnych kombinacji wejść i odległości w następujący sposób: -input1 distance=0, input2 distance=0, input3 distance = [ 0,1,2,3,4,5,6,7,8, 9]. W tym przypadku kombinacja odległości [ 0,0, 3] daje wynik 15.
- input1 distance=1, input2 distance=0, input3 dystans = [ 0,1,2,3,4,5,6,7,8, 9]. W tym przypadku kombinacja odległości [ 1,0, 9] daje wynik w wysokości -30.
{
"false_positive_filter": {
"filter_recipe": [
{
"method": "FilterMethod.MultiDimFilter",
"max_distance": 9,
"inputs": [1,2,3],
"label": "Multi-Dim filter",
"weights": [
{
"distances": [0,0],
"values": [0,-5,-10,-15,-20,-25,-30,-30,-30,-30]
},
{
"distances": [1,0],
"values": [0,-5,-10,-15,-20,-25,-30,-30,-30,-30]
}
]
}
],
"inputs": [
{"compare_method": "address_compare"},
{"compare_method": "date_compare"},
{"compare_method": "pername_compare"}
],
"label": "false_positive_filter"
}
}
Przykład 2: Można dodać własne niestandardowe metody porównywania i skonfigurować je do wykluczenia z udziału w ogólnym wyniku dopasowania, tak jak w następującym przykładowym ładunku. W tym przypadku metody niestandardowe będą używane tylko przez filtr porównania wielowymiarowego.
W poniższym przykładzie filtr given_name_only_compare
ustawia overall_score_contribution
na false
.
{
"given_name_only_compare": {
"methods": [
{
"inputs": [
{
"attributes": [
"legal_name"
],
"fields": [
"given_name"
]
}
],
"compare_recipe": [
{
"comparison_resource": "person_person_entity_person_compare_spec_name",
"method": "CompareMethod.NameCompare",
"inputs": [
1
],
"label": "Given Name Only Match",
"fields": [
"given_name"
]
}
]
}
],
"overall_score_contribution" : false,
"label": "Given Name Only Compare",
"weights": [1,0,0,0,0,0,0,0,0,0,0]
}
}
Przełączanie funkcji odległości edycji
Mechanizm uzgadniania IBM Match 360 oblicza odległość edycji jako jedną z funkcji wewnętrznych podczas porównywania i dopasowywania różnych atrybutów. Odległość edycji jest pomiarem sposobu, w jaki dwa łańcuchy są oddalone od siebie. Jest on obliczany przez zliczanie liczby zmian wymaganych do przekształcenia jednego łańcucha w drugi.
Użytkownik może wybrać między standardową funkcją edycji odległości lub wyspecjalizowaną. Standardowa odległość edycji to domyślna konfiguracja, która zapewnia szybszą wydajność podczas dopasowywania. Więcej informacji na temat odległości edycji znajduje się w sekcji IBM Match 360 zgodnych z algorytmami.
Aby zmienić funkcję aktywnej odległości edycji, zaktualizuj zgodną konfigurację mechanizmu za pomocą komend interfejsu REST API:
Uzyskaj dostęp i uwierzytelnij się w interfejsie API IBM Match 360 .
Pobierz istniejący plik konfiguracyjny JSON dla funkcji porównania,
compare_spec_resource
:GET /mdm/v1/compare_spec_resources/{resource_name}
Na komputerze lokalnym zmień format JSON, aby dodać wiersz
"similar_characters_enabled": true
(lub usuń go, jeśli chcesz przełączyć się z powrotem do domyślnego ustawienia odległości edycji).Zaktualizuj konfigurację programu IBM Match 360 , przesyłając edytowany plik JSON:
PUT /mdm/v1/compare_spec_resources/{resource_name}
Konfigurowanie progu rekordu kleju
Próg rekordu kleju można zdefiniować za pomocą komend interfejsu API w celu zaktualizowania algorytmu uzgadniania IBM Match 360 .
Gdy IBM Match 360 tworzy obiekty poprzez dopasowywanie, niektóre rekordy niskiej jakości mogą działać jako rekordy kleju. Rekordy kleju mają swoją nazwę, ponieważ trzymają się wielu innych płyt, takich jak klej. Ponieważ rekordy sklejenia zawierają kilka lub brak szczegółowych wartości atrybutów, mogą być one zgodne z wieloma różnymi rekordami. Zachowanie dopasowywania rekordu kleju może nieumyślnie i niepoprawnie tworzyć bardzo duże jednostki, które mają tylko jeden rekord kleju o niskiej jakości.
Jako przykład uproszczony należy wziąć pod uwagę rekord niskiej jakości, który nie zawiera atrybutów innych niż nazwa, na przykład Jan Kowalski. Rekord, taki jak ten, może być łatwo zgodny z dowolnym innym "Jan Kowalski" w zestawie danych, co powoduje, że inne rekordy, które w przeciwnym razie nie zostałyby dopasowane, zostaną uwzględnione w pojedynczym obiekcie "Jan Kowalski".
Ustawiając próg rekordu kleju w pasującym algorytmie dla każdego typu jednostki, inżynierowie danych mogą zapobiec powstawaniu rekordów kleju, co powoduje tworzenie dużych, słabo dopasowanych obiektów.
Po skonfigurowaniu progu rekordu kleju produkt IBM Match 360 identyfikuje rekordy kleju, sprawdzając, czy ich wynik własny plus wartość progu rekordu sklejenia jest mniejsza niż wynik własny rekordu centrum w jednostce. Jeśli jest mniejsza, niż rekord jest uznawany za rekord kleju, i nie zostanie uwzględniony w obiekcie.
Progi rekordu kleju są opcjonalne i nie są ustawiane domyślnie. Próg rekordu kleju dla każdego typu jednostki musi być zdefiniowany oddzielnie.
Aby ustawić próg rekordu kleju:
Uzyskaj dostęp i uwierzytelnij się w interfejsie API IBM Match 360 .
Pobierz istniejący plik JSON algorytmu uzgadniania konfiguracji dla danego typu rekordu:
GET /mdm/v1/algorithms/{record_type}
Na komputerze lokalnym zmień format JSON, aby dodać parametr
glue_threshold
w typie jednostki. Podaj wartość progową. (Usuń parametr, jeśli chcesz usunąć istniejący próg rekordu kleju). Na przykład:locale: {...} encryption: {...} standardizers: {...} entity_types: person_entity: bucket_generators: {...} auto_link_threshold: 65 clerical_review_threshold: 55 glue_threshold: 20 compare_methods: {...}
Zaktualizuj algorytm uzgadniania IBM Match 360 :
PUT /mdm/v1/algorithms/{record_type}
Następne kroki
Więcej inform.
- IBM Match 360 with Watson zgodne z algorytmami
- Usługi API dostępne w serwisie IBM Match 360
- Eksploracja danych głównych
- Konfigurowanie danych głównych
- Zarządzanie danymi głównymi
Temat nadrzędny: Dostosowywanie i wzmacnianie algorytmu uzgadniania