Über den Einsatz von Cookies auf dieser Website Unsere Websites benötigen einige Cookies, um ordnungsgemäß zu funktionieren (erforderlich). Darüber hinaus können mit Ihrer Zustimmung weitere Cookies verwendet werden, um die Nutzung der Website zu analysieren, die Benutzerfreundlichkeit zu verbessern und Werbung zu schalten. Weitere Informationen finden Sie in Ihren. Durch den Besuch unserer Website erklären Sie sich mit der Verarbeitung von Informationen einverstanden, wie in der IBMDatenschutzbestimmung beschrieben. Um eine reibungslose Navigation zu ermöglichen, werden Ihre Cookie-Präferenzen über die hier aufgeführten IBM Web-Domains hinweg gemeinsam genutzt.
Abgleichalgorithmen in IBM Match 360
Letzte Aktualisierung: 22. Nov. 2024
IBM Match 360 verwendet Abgleichsalgorithmen, um Datensätze in Stammdateneinheiten aufzulösen. Datenentwickler können unterschiedliche Abgleichalgorithmen für jeden Entitätstyp in ihren Daten definieren. Die Abgleichalgorithmen können danach die Daten analysieren, um Datensätze auszuwerten und zu vergleichen, und anschließend die abgeglichenen Datensätze in Entitäten zu erfassen.
Zwei häufige Gründe für den Datenabgleich:
- Zum Entfernen doppelter Datensätze und zum Auflösen von Entitäten analysiert der Abgleichsprozess Ihre Daten, um festzustellen, ob in Ihren Daten doppelte Datensätze vorhanden sind. Mutmaßliche Duplikate werden in Stammdatenentitäten zusammengeführt, um eine einzelne, zuverlässige 360-Grad-Ansicht Ihrer Daten zu erstellen.
- Zum Erstellen anderer Typen von Entitätszuordnungen analysiert der Abgleichsprozess Ihre Daten, um Datensätze in Entitäten zu erfassen, die verschiedene Arten von Gruppierungen darstellen (z. B. einen Haushalt).
Sehen Sie sich das folgende Video an, um zu erfahren, wie Sie mit IBM Match 360 einen Abgleichalgorithmus für ein angepasstes Datenmodell einrichten können.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Inhalt dieses Themas:
- Abgleich zum Erstellen mehrerer Entitätstypen
- Der Abgleichsprozess
- Regeln für die Widerstandsfähigkeit
- Komponenten des Abgleichalgorithmus
Abgleich zum Erstellen mehrerer Entitätstypen
IBM Match 360-Abgleichalgorithmen werden vom Entitätstyp der zugeordneten Daten gesteuert. Für jeden Datensatztyp im Datenmodell können Sie mehrere Entitätstypen definieren. Konfigurieren und optimieren Sie für jeden Entitätstyp den entsprechenden Abgleichalgorithmus, um sicherzustellen, dass die von IBM Match 360 erstellten Entitäten die Anforderungen Ihres Unternehmens erfüllen.
Ein einzelner Datensatz kann mehr als einer separaten Entität angehören. Wenn Ihr Datenmodell mehr als einen Entitätstyp enthält, können Sie verschiedene Abgleichstypen auf dasselbe Dataset anwenden. Angenommen, Sie verfügen über ein Dataset, das Personendatensätze aus Ihrem gesamten Unternehmen enthält. Wenn der Datensatztyp 'Person' Definitionen für einen Entitätstyp 'Person' und einen Entitätstyp 'Haushalt' enthält, können Sie den Abgleichalgorithmus 'Person' für Entitätsauflösung und Deduplizierung verwenden und den Abgleichalgorithmus 'Haushalt', um Entitäten zu erstellen, die aus Datensätzen des Typs 'Person' bestehen, die demselben Haushalt angehören.
Der Abgleichsprozess
Die Matching-Engine führt einen definierten Prozess aus, um Datensätze zu Entitäten zusammenzufassen. Dieser Abgleichsprozess umfasst die drei folgenden Hauptschritte:
Standardisierung In diesem Schritt standardisiert der Algorithmus das Format der Daten, damit sie von der Matching-Engine verarbeitet werden können.
Gruppierung (Bucketing) Der Algorithmus klassifiziert Daten in verschiedene Kategorien (Buckets), damit ähnliche Einzelinformationen verglichen werden können.
Vergleichen Der Algorithmus vergleicht Daten, um einen finalen Vergleichsscore zu ermitteln. Anschließend ermittelt der Algorithmus anhand des Vergleichsscores fest, ob die Datensätze als Übereinstimmungen einzustufen sind.
Jeder dieser Schritte wird durch den Abgleichalgorithmus definiert und konfiguriert.
Regeln für die Widerstandsfähigkeit
Sie können die IBM Match 360 API verwenden, um Ausfallsicherheitsregeln zu konfigurieren, die die Reaktion des Abgleichsalgorithmus auf Datensatzdatenänderungen begrenzen.
Ohne Ausfallsicherheitsregeln gibt es eine Reihe möglicher Änderungen der Entitätsverknüpfung, die auftreten können, wenn ein Stammdatensatz hinzugefügt, aktualisiert oder gelöscht wird:
Wenn ein neuer Datensatz hinzugefügt wird, kann er:
- Beitritt zu einem bestehenden Unternehmen.
- Zwei oder mehr bestehende Entitäten zusammenfügen, indem sie als Klebedatensatz fungieren.
- Bilden Sie eine neue Singleton-Entität.
Wenn ein Datensatz aktualisiert wird, kann er das:
- Sie gehören nicht mehr zu ihrer aktuellen Entität und werden zu einer neuen Singleton-Entität.
- Nicht mehr zu seiner derzeitigen Einheit gehören und sich einer anderen bestehenden Einheit anschließen.
- Seine aktuelle Entität in mehrere Entitäten aufspalten lassen.
- Veranlassen Sie andere Entitäten, sich der bestehenden Entität anzuschließen, indem Sie als "glue record" fungieren.
- Verursacht keine Änderungen in der Entitätszusammensetzung.
Wenn ein Datensatz gelöscht wird, kann er:
- Veranlassen Sie, dass seine Singleton-Entität ebenfalls gelöscht wird.
- Verursacht die Aufspaltung seiner aktuellen Entität.
Durch die Definition von Ausfallsicherheitsregeln können Datentechniker konfigurieren, wie die IBM Match 360 Matching Engine auf jedes dieser Szenarien reagiert. Die Matching Engine steuert ihr Verknüpfungsverhalten so, dass es mit den von Ihnen konfigurierten Ausfallsicherheitsregeln übereinstimmt. Durch die Konfiguration von Ausfallsicherheitsregeln können Sie die Zusammenführung und Aufteilung von Entitäten einschränken, was zu einer stabileren Zusammensetzung von Entitäten führt.
Definieren Sie Ausfallsicherheitsregeln mit Hilfe der API "
. Wenn eine bestimmte Regel auf " resiliency_rules
gesetzt wird, dann wird das entsprechende Entity-Linking-Szenario seine üblichen Entity-Linking-Änderungen nicht durchführen.FALSE
Führen Sie den folgenden API-Befehl aus, um den aktuellen Satz von Ausfallsicherheitsregeln abzurufen:
GET /mdm/v1/resiliency_rules
Um die Resiliency-Regeln zu aktualisieren, führen Sie den folgenden API-Befehl mit einer aktualisierten Nutzlast aus:
PUT /mdm/v1/resiliency_rules
{
"link_resiliency_rules": {
"records": {
"person": {
"add": {
"join_existing_entity": "true/false",
"merge_entities": "true/false"
},
"update": {
"record_becoming_singleton": "true/false",
"join_existing_entity": "true/false",
"original_entity_split": "true/false",
"merge_entities": "true/false"
},
"delete": {
"singleton_entity_deletion": "true",
"original_entity_split": "true/false"
}
}
},
"entities": {
}
}
}
Komponenten des Abgleichalgorithmus
Drei Haupttypen von Komponenten definieren einen IBM Match 360 -Abgleichalgorithmus:
Standardisierer
Wie der Name vermuten lässt, legen Standardisierer fest, wie Daten standardisiert werden. Die Standardisierung ermöglicht dem Abgleichalgorithmus, die Werte verschiedener Attribute in eine standardisierte Darstellung umzuwandeln, die von der Matching-Engine verarbeitet werden kann.
Der Abgleichalgorithmus verwendet mehrere Standardisierer. Jeder Standardisierer ist für die Verarbeitung bestimmter Attributtypen konzipiert, die in Datensatzdaten enthalten sind.
Standardisierer werden durch JSON-Objekte definiert. Die Definition des JSON-Objekts für jeden Standardisierer enthält drei Elemente:
- Eine Bezeichnung, die diesen Standardisierer identifiziert.label
- Die Listeinputs
enthält ein einzelnes Element, bei dem es sich um ein JSON-Objekt handelt. Dieses JSON-Objekt enthält die beiden Elementeinputs
undfields
:attributes
- Die Liste der Felder, die für die Standardisierung verwendet werden sollen.fields
- Die Liste der Attribute, die für die Standardisierung verwendet werden sollen.attributes
- Eine Liste mit JSON-Objekten. Dabei stellt jedes Objekt einen Schritt dar, der im Standardisierungsprozess des zugehörigen Standardisierers ausgeführt werden soll. Jedes Objekt in der Listestandardizer_recipe
besteht aus vier Hauptelementen:standardizer_recipe
- Eine Bezeichnung, die diesen Schritt im Konzept des Standardisierers identifiziert.label
- Die verwendete interne Methode. Dieses Element dient nur zu Referenzzwecken und darf nicht bearbeitet werden.method
-Ein einzelnes Element der Listeinputs
, das eine Ebene höher definiert ist.inputs
- Eine Liste der Felder, die für diesen Schritt verwendet werden sollen. Dies ist im Allgemeinen eine Untergruppe aller Felder, die in der Listefields
eine Ebene höher definiert sind. Nicht in jedem Schritt müssen alle Felder ausinputs
verarbeitet werden.inputs
- Der Name einer anpassbaren Ressource des Typsset_resource
, die für diesen Schritt verwendet wird.set
- Der Name einer anpassbaren Ressource des Typsmap_resource
, die für diesen Schritt verwendet wird.map
Je nach Ausführungsverhalten eines Schritts können weitere Konfigurationselemente vorhanden sein, die für das jeweilige JSON-Objekt erforderlich sind.
Vorkonfigurierte Standardisierer
Die folgenden Standardisierer können in IBM Match 360verwendet werden. Die vorkonfigurierten Standardisierer sind ebenfalls anpassbar.
Standardisierer für Personennamen
Dieser Standardisierer wird verwendet, um Attributwerte für den Personennamen zu standardisieren. Sie enthält nacheinander die folgenden Rezepte:
-Konvertiert die Eingabefeldwerte, um ihre Entsprechungen in Großbuchstaben zu verwenden.Upper case
-Konvertiert UNICODE-Eingabezeichen in äquivalente englische Alphabetzeichen. Definieren Sie optional die Map in den IBM Match 360 -Ressourcen.Map character
-Zerlegt den Eingabefeldwert basierend auf der definierten Liste der Begrenzer in mehrere Token.Tokenizer
-Parst die Eingabefeldwerte in verschiedene Tokens, abhängig von den vordefinierten Werten in den IBM Match 360 -Ressourcen. Sie können diese Anleitung beispielsweise verwenden, um Suffix-, Präfix-und Generierungswerte in entsprechende Felder zu parsen.Parse token
-Verwirft Tokens, die außerhalb eines bestimmten Längenbereichs liegen. Mindest-und Maximalwerte sind in den IBM Match 360 -Ressourcen definiert.Length
-Entfernt anonyme Eingabewerte wie konfiguriert.Stop token
-Wählt eine Untergruppe (oder alle) der Token als standardisierte Daten für Bucketing und Vergleich aus.Pick token
Der Standardisierer für Personennamen verwendet standardmäßig die folgenden Mapressourcen:
-Konvertiert UNICODE-Eingabezeichen in äquivalente englische Alphabetzeichen.map_character_general
-Parst Suffix-, Präfix-und Generierungswerte in geeignete Felder.person_map_name_alignments
Der Standardisierer für Personennamen verwendet standardmäßig die folgenden Set-Ressourcen:
-Entfernt anonyme Personennamenswerte.person_set_name_aname
Standardisierer für Organisationsnamen
Dieser Standardisierer wird verwendet, um Attributwerte für Organisationsnamen zu standardisieren. Sie enthält nacheinander die folgenden Rezepte:
-Konvertiert die Eingabefeldwerte, um ihre Entsprechungen in Großbuchstaben zu verwenden.Upper case
-Konvertiert UNICODE-Eingabezeichen in äquivalente englische Alphabetzeichen. Definieren Sie optional die Map in den IBM Match 360 -Ressourcen.Map character
-Entfernt unerwünschte Eingabezeichen aus den Namenswerten.Stop character
-Generiert Kurznamen oder alternative Namen für die angegebene Eingabe und speichert die Informationen in einem separaten neuen internen Feld.Map token
-Zerlegt den Eingabefeldwert basierend auf der definierten Liste der Begrenzer in mehrere Token.Tokenizer
-Entfernt anonyme Eingabewerte wie konfiguriert.Stop token
-Generiert ein Akronym für den angegebenen Organisationsnamen und speichert die Informationen in einem separaten neuen internen Feld. Dieser Akronymwert wird beim Vergleich verwendet, um abgekürzte Namen zu verarbeiten.Acronym
-Wählt eine Untergruppe (oder alle) der Token als standardisierte Daten für Bucketing und Vergleich aus.Pick token
Der Standardisierer für Organisationsnamen verwendet standardmäßig die folgenden Mapressourcen:
-Konvertiert UNICODE-Eingabezeichen in äquivalente englische Alphabetzeichen.map_character_general
-Generiert Kurznamen oder alternative Namen für die angegebene Eingabeorg_map_name_cnick_name
Der Standardisierer für Organisationsnamen verwendet standardmäßig die folgenden Set-Ressourcen:
-Entfernt anonyme Organisationsnamen.org_set_name_aname
Standardisierer für Datum
Dieser Standardisierer wird zum Standardisieren von Datumsattributwerten verwendet. Es unterstützt viele verschiedene Datumsformate und enthält die folgenden Rezepte, in der Reihenfolge:
-Konvertiert Schrägstriche (Map character
) in Gedankenstriche (/
).-
-Konvertiert Datumseingaben in verschiedenen Formaten in ein standardisiertes Format.Date function
-Entfernt anonyme Datumswerte wie konfiguriert.Stop token
-Parst die Eingabefeldwerte abhängig von bestimmten regulären Ausdrücken in verschiedene Tokens. Sie können dieses Rezept beispielsweise verwenden, um eine vollständige Datumseingabe in Tag-, Monats-und Jahrestoken zu analysieren.Parse token
-Wählt eine Untergruppe (oder alle) der Token als standardisierte Daten für Bucketing und Vergleich aus.Pick token
Der Datumsstandardisierer verwendet standardmäßig die folgenden Mapressourcen:
-Konvertiert Schrägstrich (map_character_date_separators
) oder andere Trennzeichen in Gedankenstriche (/
).-
-Parst den Eingabedatumswert in interne Felder, nämlichmap_date_tokens_year_month_day
,birth_year
undbirth_month
, basierend auf regulären Ausdrücken.birth_day
Der Datumsstandardisierer verwendet standardmäßig die folgenden Set-Ressourcen:
-Entfernt anonyme Datumswerte.set_date_date
Standardisierer für Geschlecht
Dieser Standardisierer wird verwendet, um die Werte von Geschlechtsattributen zu standardisieren. Sie enthält nacheinander die folgenden Rezepte:
-Konvertiert UNICODE-Eingabezeichen in äquivalente englische Alphabetzeichen. Definieren Sie optional die Map in den IBM Match 360 -Ressourcen.Map character
-Konvertiert die Eingabefeldwerte, um ihre Entsprechungen in Großbuchstaben zu verwenden.Upper case
-Entfernt gemäß Konfiguration anonyme Eingabewerte für das Geschlecht.Stop token
-Konvertiert Eingabetokenwerte in äquivalente Werte, wie in den IBM Match 360 -Ressourcen konfiguriert.Map token
-Parst verarbeitete Feldwerte in ein geeignetes internes Feld.Parse token
-Wählt eine Untergruppe (oder alle) der Token als standardisierte Daten für Bucketing und Vergleich aus.Pick token
Der Standardisierer für Geschlecht verwendet standardmäßig die folgenden Kartenressourcen:
-Konvertiert UNICODE-Eingabezeichen in äquivalente englische Alphabetzeichen.map_character_general
-Ordnet verschiedene Eingabewerte für das Geschlecht den Standardwerten zumap_gender_gender
-Parst den Eingabetokenwert für das interne Feldmap_gender_tokens_gender
auf der Basis eines regulären Ausdrucks.gender
Der Standardisierer für Geschlecht verwendet standardmäßig die folgenden Set-Ressourcen:
-Entfernt anonyme Eingabewerte für das Geschlecht.set_gender_anon_gender
Adressstandardisierer
Dieser Standardisierer wird verwendet, um Adressattributwerte zu standardisieren. Adressen können je nach Ländereinstellung verschiedene Formate haben. Diese Flexibilität erfordert eine komplexe Verarbeitung, um Adressen in eine standardisierte Form zu konvertieren. Der Adressstandardisierer enthält die folgenden Anleitungen in der Reihenfolge:
-Konvertiert die Eingabefeldwerte, um ihre Entsprechungen in Großbuchstaben zu verwenden.Upper case
-Konvertiert UNICODE-Eingabezeichen in äquivalente englische Alphabetzeichen. Definieren Sie optional die Map in den IBM Match 360 -Ressourcen.Map character
-Konvertiert Eingabetokenwerte in äquivalente Werte, wie in den IBM Match 360 -Ressourcen konfiguriert. Beispielsweise können "Vereinigte Staaten von Amerika", "Vereinigte Staaten" und "USA" allen "USA" zugeordnet werden. Diese Zuordnung gilt für Feldwerte für Land und Bundesland/Kanton. Darüber hinaus werden in der Ressource konfigurierte Begrenzungszeichen dem Leerzeichen zugeordnet.Map token
-Zerlegt den Eingabefeldwert basierend auf der definierten Liste der Begrenzer in mehrere Token.Tokenizer
-Entfernt anonyme Eingabewerte, wie z. B. Postleitzahlen, wie konfiguriert.Stop token
-Lässt nur die definierte Liste von Werten für ein bestimmtes Feld zu. Sie können beispielsweise eine Liste mit Postleitzahlen definieren, die während der Standardisierung zulässig sind. Eingabewerte, die nicht in der Liste der zulässigen Werte enthalten sind, werden entfernt.Keep token
-Parst die Eingabefeldwerte abhängig von bestimmten regulären Ausdrücken und vordefinierten Werten, die in den Ressourcen konfiguriert sind, in geeignete interne Felder. Sie können diese Anleitung verwenden, um ein bestimmtes Token mithilfe von regulären Ausdrücken auf eine bestimmte Länge abzuschneiden. Sie können auch verschiedene alphanumerische Mustergruppen in Form von regulären Ausdrücken definieren, um nur bestimmte Muster zuzulassen.Parse token
-verknüpft zwei oder mehr Felder miteinander, um einen neuen kombinierten Wert zu erstellen, der einem internen Feld zugeordnet ist Beispielsweise könnenJoin fields
-undlatitude
-Feldwerte miteinander verknüpft werden, um ein neues internes Feld namenslongitude
zu bilden.lat_long
-Wählt eine Untergruppe (oder alle) der Token als standardisierte Daten für Bucketing und Vergleich aus.Pick token
Der Adressstandardisierer verwendet standardmäßig die folgenden Mapressourcen:
-Konvertiert UNICODE-Eingabezeichen in äquivalente englische Alphabetzeichen.map_character_general
-Konvertiert die eingegebenen Landeswerte in äquivalente Werte.map_address_country
-Konvertiert Werte für Eingabeprovinz und Bundesstaat in äquivalente Werte.map_address_province_state
-Ordnet in der Ressource konfigurierte Begrenzungszeichen dem Leerzeichen zu.map_address_delimiter_removal
-Konvertiert die Tokenwerte der Eingabeadresse in äquivalente Werte.map_address_addr_tok
-Parst das Eingabefeldmap_address_tokens_unit_type_and_number
auf der Basis eines regulären Ausdrucks in interne Felder, nämlichresidence_number
undunit_type
.unit_number
-Parst das Eingabefeldmap_address_tokens_street_number_name_direction_type
basierend auf einem regulären Ausdruck für interne Felder, nämlichaddress_line1
,street_number
,street_name
unddirection
.street_type
-Parst das Eingabefeldmap_address_tokens_sub_division
basierend auf einem regulären Ausdruck für das interne Feldaddress_line2
.sub_division
-Parst das Eingabefeldmap_address_tokens_pobox_type_and_number
auf der Basis eines regulären Ausdrucks in interne Felder, nämlichaddress_line3
undpobox_type
.pobox
-Parst den Eingabewert des Feldsmap_address_tokens_city
auf der Basis eines regulären Ausdrucks.city
-Parst den Eingabewert des Feldsmap_address_tokens_province
auf der Basis eines regulären Ausdrucks für das interne Feldprovince_state
.province
-Parst den Eingabewert des Feldsmap_address_tokens_postal_code
auf der Basis eines regulären Ausdrucks für das interne Feldzip_postal_code
.postal_code
-Parst den Eingabewert des Feldsmap_address_tokens_country
auf der Basis eines regulären Ausdrucks.country
-Parst den Eingabewert des Feldsmap_address_tokens_latitude
auf der Basis eines regulären Ausdrucks im internen Feldlatitude_degrees
.latitude
-Parst den Eingabewert des Feldsmap_address_tokens_longtitude
auf der Basis eines regulären Ausdrucks für das interne Feldlongitude_degrees
.longitude
Der Adressstandardisierer verwendet standardmäßig die folgenden Set-Ressourcen:
-Entfernt anonyme Eingabewerte fürset_address_postal_code
.zip_postal_code
Standardisierer für Telefonanruf
Dieser Standardisierer wird verwendet, um Telefonattributwerte zu standardisieren. Sie enthält nacheinander die folgenden Rezepte:
-Entfernt unerwünschte Eingabezeichen aus Telefonwerten.Stop character
-Entfernt anonyme Telefonwerte wie konfiguriert.Stop token
-Parst eingegebene Telefonnummern mit unterschiedlichen Formaten aus verschiedenen Ländereinstellungen in ein einheitliches Format. Dieses Rezept kann so konfiguriert werden, dass Vorwahl und Landesvorwahl aus den Telefonnummern entfernt werden. Es kann auch eine bestimmte Anzahl von Ziffern in einer standardisierten Telefonnummer behalten.Phone
-Parst verarbeitete Feldwerte abhängig von bestimmten regulären Ausdrücken, die in den Ressourcen konfiguriert sind, in ein geeignetes internes Feld.Parse token
-Wählt eine Untergruppe (oder alle) der Token als standardisierte Daten für Bucketing und Vergleich aus.Pick token
Der Telefonstandardisierer verwendet standardmäßig die folgenden Kartenressourcen:
-Parst Telefonwerte auf der Basis von regulären Ausdrücken in ein internes Feld.map_phone_tokens_phone
Der Telefonstandardisierer verwendet standardmäßig die folgenden Set-Ressourcen:
-Ersetzt alle Zeichen, die nicht alphanumerisch sind Ermöglicht die Angabe regulärer Ausdrücke.set_character_phone
-Entfernt anonyme Telefonwerte.set_phone_anon_phone
Standardisierer für Identifikation
Dieser Standardisierer wird verwendet, um Identifikationsattributwerte zu standardisieren. Sie enthält nacheinander die folgenden Rezepte:
-Konvertiert UNICODE-Eingabezeichen in äquivalente englische Alphabetzeichen. Definieren Sie optional die Map in den IBM Match 360 -Ressourcen.Map character
-Konvertiert die Eingabefeldwerte, um ihre Entsprechungen in Großbuchstaben zu verwenden.Upper case
-Entfernt unerwünschte Eingabezeichen aus Identifikationswerten.Stop character
-Entfernt anonyme Eingabewerte wie konfiguriert.Stop token
-Konvertiert Eingabetokenwerte in äquivalente Werte, wie in den IBM Match 360 -Ressourcen konfiguriert.Map token
-Parst verarbeitete Feldwerte abhängig von bestimmten regulären Ausdrücken, die in den Ressourcen konfiguriert sind, in ein geeignetes internes Feld.Parse token
-Wählt eine Untergruppe (oder alle) der Token als standardisierte Daten für Bucketing und Vergleich aus.Pick token
Der Standardisierer für Identifikation verwendet standardmäßig die folgenden Mapressourcen:
-Konvertiert UNICODE-Eingabezeichen in äquivalente englische Alphabetzeichen.map_character_general
-Konvertiert Eingabetokenwerte in äquivalente Werte.map_identifier_equi_identifier
-Parst verarbeitete Feldwerte abhängig von bestimmten regulären Ausdrücken, die in den Ressourcen konfiguriert sind, in ein geeignetes internes Feld.map_identifier_tokens_identification_number
Der Standardisierer für die Identifikation verwendet standardmäßig die folgenden Set-Ressourcen:
-Entfernt nicht alphanumerische Eingabezeichen aus Identifikationswerten. Ermöglicht die Angabe regulärer Ausdrücke.set_character_identification_number
-Entfernt anonyme Identifikationswerte.set_identifier_anonymous
E-Mail-Standardisierer
Dieser Standardisierer wird verwendet, um E-Mail-Attributwerte zu standardisieren. Sie enthält nacheinander die folgenden Rezepte:
-Konvertiert UNICODE-Eingabezeichen in äquivalente englische Alphabetzeichen. Definieren Sie optional die Map in den IBM Match 360 -Ressourcen.Map character
-Konvertiert die Eingabefeldwerte, um ihre Entsprechungen in Großbuchstaben zu verwenden.Upper case
-Entfernt anonyme Eingabewerte wie konfiguriert.Stop token
-Konvertiert Eingabetokenwerte in äquivalente Werte, wie in den IBM Match 360 -Ressourcen konfiguriert.Map token
-Parst verarbeitete Feldwerte abhängig von bestimmten regulären Ausdrücken, die in den Ressourcen konfiguriert sind, in ein geeignetes internes Feld.Parse token
-Wählt eine Untergruppe (oder alle) der Token als standardisierte Daten für Bucketing und Vergleich aus.Pick token
Der E-Mail-Standardisierer verwendet standardmäßig die folgenden Mapressourcen:
-Konvertiert UNICODE-Eingabezeichen in äquivalente englische Alphabetzeichen.map_character_general
-Konvertiert Eingabetokenwerte in äquivalente Werte.map_non_phone_equi_non_phone
-Parst das Eingabefeldmap_non_phone_tokens_non_phone
auf der Basis eines regulären Ausdrucks für die internen Felderemail_id
undemail_local_part
.email_domain
Der E-Mail-Standardisierer verwendet standardmäßig die folgenden Set-Ressourcen:
-Entfernt anonyme E-Mail-Werte.set_non_phone_anon_non_phone
Entitätstypen (Bucketing)
In einem einzelnen Abgleichalgorithmus kann jeder Datensatztyp über mehrere Entitätstypdefinitionen (JSON-Objekte des Typs
) verfügen. Beispiel: In einem Algorithmus, der für einen Datensatztyp 'Person' definiert ist, müssen Sie möglicherweise mehr als eine Entitätstypdefinition erstellen (z. B. die Entitäten 'Person', 'Haushalt', 'Standort' und andere).entity_type
Jeder Entitätstyp kann verwendet werden, um Datensätze auf verschiedene Arten abzugleichen und zu verknüpfen. Ein Entitätstyp definiert, wie Datensätze beim Abgleichen gruppiert und verglichen werden.
Jede Entitätstypdefinition (
) im Abgleichalgorithmus hat mehrere JSON-Elemente:entity_type
- Datensätze, deren Vergleichsscore unter dem Schwellenwert für manuelle Überprüfung liegt, werden als Nichtübereinstimmungen eingestuft.clerical_review_threshold
- Datensätze, deren Vergleichsscore über dem Schwellenwert für automatische Verknüpfung (autolink) liegt, werden als starke Übereinstimmungen eingestuft und automatisch abgeglichen.auto_link_threshold
- Dieser Abschnitt enthält die Definition der für einen Entitätstyp konfigurierten Bucketgeneratoren. Es gibt zwei Typen von Bucketgeneratoren: Buckets und Bucketgruppen.bucket_generators
Buckets sind Gruppierungsklassen für ein einzelnes Attribut. Jede
-Definition enthält vier Elemente:bucket
- Eine Bezeichnung, die den Bucketgenerator identifiziert.label
- Ein Wert, der die Größe für umfangreiche Buckets definiert. Jeder Bucket-Hash mit einer Bucketgröße, die diesen Wert überschreitet, wird bei der Auswahl der Kandidaten für den Abgleich nicht berücksichtigt.maximum_bucket_size
- Für Buckets enthält die Listeinputs
nur ein einzelnes Element, das ein JSON-Objekt ist. Dieses JSON-Objekt enthält die beiden Elementeinputs
undfields
:attributes
- Die Liste der Felder, die für das Bucketing verwendet werden sollen.fields
- Die Liste der Attribute, die für das Bucketing verwendet werden sollen.attributes
-Eine Bucketkonzeptliste definiert die Schritte, die der Bucketgenerator während des Bucketing-Prozesses ausführen muss. Jedebucket_recipe
-Liste enthält eine Reihe von Unterelementen:bucket_recipe
- Eine Bezeichnung, die das Bucketkonzeptelement identifiziert.label
- Die verwendete interne Methode. Dieses Element dient nur zu Referenzzwecken und darf nicht bearbeitet werden.method
-Ein einzelnes Element der Listeinputs
, das eine Ebene höher definiert ist.inputs
- Eine Liste der Felder, die für dieses Bucket verwendet werden sollen. Dies ist im Allgemeinen eine Untergruppe aller Felder, die in der Listefields
eine Ebene höher definiert sind.inputs
- Die Mindestanzahl der Tokens, die verwendet werden sollen, wenn das Konzept einen Bucket-Hash bildet.min_tokens
- Die maximale Anzahl der Tokens, die zusammen verwendet werden sollen, wenn das Konzept einen Bucket-Hash bildet.max_tokens
- Ein Grenzwert für die Anzahl der Bucket-Hash-Elemente für einen einzelnen Datensatz, die aus einem Bucketgenerator generiert werden. Wenn ein Datensatz zahlreiche Bucket-Hash-Elemente generiert, wird nur die von diesem Element festgelegte Hash-Anzahl berücksichtigt.count
- Die Folgenummer für eine Bucketgruppe, die einen Bucket-Hash erzeugt. Zwischenschritten oder -konzepten wird keine Folgenummer zugewiesen.bucket_group
- Gibt an, ob die Tokens in lexikografischer Reihenfolge sortiert werden, wenn mehrere Tokens zu einem Bucket-Hash kombiniert werden.order
- Ein Wert, der die Größe für umfangreiche Buckets definiert. Dieses Element entspricht dem auf der Ebene des Bucketgenerators definierten Element. Durch das Vorhandensein dieses Elements auch auf der Bucketkonzeptebene können Sie umfangreiche einzelne Buckets differenzierter steuern.maximum_bucket_size
Bucketgruppen ermöglichen das Bucketing für mehr als ein Attribut. Jede
-Definition enthält fünf Elemente:bucket_group
- Eine Bezeichnung, die den Bucketgenerator identifiziert.label
- Ein Wert, der die Größe für umfangreiche Buckets definiert. Jeder Bucket-Hash mit einer Bucketgröße, die diesen Wert überschreitet, wird bei der Auswahl der Kandidaten für den Abgleich nicht berücksichtigt.maximum_bucket_size
- Die Listeinputs
für Bucketgruppen enthält mehr als ein JSON-Objektelement. Die JSON-Objekte verfügen jeweils die beiden Elementeinputs
undfields
:attributes
- Die Liste der Felder, die für das Bucketing verwendet werden sollen.fields
- Die Liste der Attribute, die für das Bucketing verwendet werden sollen.attributes
-Eine Bucketkonzeptliste definiert die Schritte, die der Bucketgenerator während des Bucketing-Prozesses ausführen muss. Jedebucket_recipe
-Liste enthält eine Reihe von Unterelementen:bucket_recipe
- Eine Bezeichnung, die das Bucketkonzeptelement identifiziert.label
- Die verwendete interne Methode. Dieses Element dient nur zu Referenzzwecken und darf nicht bearbeitet werden.method
-Ein einzelnes Element der Listeinputs
, das eine Ebene höher definiert ist.inputs
- Eine Liste der Felder, die für dieses Bucket verwendet werden sollen. Dies ist im Allgemeinen eine Untergruppe aller Felder, die in derfields
-Liste eine Ebene höher definiert sind.inputs
- Die Mindestanzahl der Tokens, die verwendet werden sollen, wenn das Konzept einen Bucket-Hash bildet.min_tokens
- Die maximale Anzahl der Tokens, die zusammen verwendet werden sollen, wenn das Konzept einen Bucket-Hash bildet.max_tokens
- Ein Grenzwert für die Anzahl der Bucket-Hash-Elemente für einen einzelnen Datensatz, die aus einem Bucketgenerator generiert werden. Wenn ein Datensatz zahlreiche Bucket-Hash-Elemente generiert, wird nur die von diesem Element festgelegte Hash-Anzahl berücksichtigt.count
- Die Folgenummer für eine Bucketgruppe, die einen Bucket-Hash erzeugt. Zwischenschritten oder -konzepten wird keine Folgenummer zugewiesen.bucket_group
- Gibt an, ob die Tokens in lexikografischer Reihenfolge sortiert werden, wenn mehrere Tokens zu einem Bucket-Hash kombiniert werden.order
- Ein Wert, der die Größe für umfangreiche Buckets definiert. Dieses Element entspricht dem Element, das auf der Ebene des Bucketgenerators definiert ist. Durch die Möglichkeit, dieses Element auf der Ebene des Bucketkonzepts zu definieren, können Sie umfangreiche einzelne Buckets differenzierter steuern.maximum_bucket_size
- Der Name einer Ressource des Typsset_resource
, die für ein Bucketkonzept verwendet wird.set
- Der Name einer Ressource des Typsmap_resource
, die für ein Bucketkonzept verwendet wird.map
- Wenn das Konzept nach dem Anwenden der Bucketing-Funktionen auf die Eingabefelder neue Felder erzeugt, enthält dieses Element eine Liste mit den Namen der generierten Felder.output_fields
- Ein Abschnitt in einem Bucketgruppenkonzept wird normalerweise zum Definieren von Buckets verwendet, die aus mehr als einem Attribut bestehen. Jedes Element in einer Listebucket_group_recipe
ist ein JSON-Objekt, in dem das Konstrukt für eine einzelne Bucketgruppe definiert wird.bucket_group_recipe
- Die Liste
ininputs
enthält mehr als ein Element, d. h., sie verweist auf mehr als ein Attribut, das imbucket_group_recipe
-Array eine Ebene höher definiert ist.inputs
- Das Element
ist eine Auflistung der Listen. Jede innere Feldliste ist der entsprechenden Listefields
zugeordnet.attributes
- Die Listen
undmin_tokens
enthalten mehrere Elemente. Dabei entspricht jedes dieser Elemente der jeweiligen Listemax_tokens
.attributes
- Die Liste
Hinweis:In einigen Definitionen für Bucketing-Rezepte gibt es eine Eigenschaft mit dem Namen
. Der Standardwert istsearch_only
. Wenn diese Eigenschaft auffalse
gesetzt ist, gibt sie an, dass ein Bucket oder eine Bucketgruppe nur für Szenarios mit probabilistischer Suche und nicht für Szenarios mit Entitätsauflösung (Abgleich) verwendet wird.true
- Definitionen der für einen Entitätstyp konfigurierten Vergleichsmethoden. Jedes JSON-Objektcompare_methods
besteht aus Definitionen für verschiedenecompare_methods
-Methoden. Der Abgleichalgorithmus addiert die Scores aus jedercompare
-Methodendefinition, um den finalen Vergleichsscore zu berechnen. Das JSON-Objekt für jedecompare
-Methode enthält drei Elemente:compare
- Eine Bezeichnung, die dielabel
-Methode angibt.compare
- Eine Liste der Vergleichsoperatoren, die eine Vergleichsgruppe bilden. Jedes Element in diesem Array stellt einen Vergleichsoperator dar, der für einen Abgleichattributtyp bestimmt ist. Der Abgleichalgorithmus stuft den Maximalwert der Scores aus allen Vergleichsoperatoren in einer Listemethods
als den finalen Score dieser Vergleichsgruppe ein. Jede Vergleichsoperatordefinition enthält zwei Elemente:methods
-Für Vergleichsoperatoren enthält die Listeinputs
nur ein einzelnes Element, das ein JSON-Objekt ist. Dieses JSON-Objekt enthält die beiden Elementeinputs
undfields
:attributes
- Die Liste der Felder, die für den Vergleich verwendet werden sollen.fields
- Die Liste der Attribute, die für den Vergleich verwendet werden sollen.attributes
- Diese Liste wird hauptsächlich zum Definieren der Vergleichsschritte verwendet. Dieses Array enthält in der Regel nur ein einzelnes JSON-Element, das nur einen einzigen zum Ausführen des Vergleichs darstellt. Dieser Schritt besteht aus fünf Elementen:compare_recipe
- Eine Bezeichnung, die den Vergleichsschritt identifiziert.label
- Die verwendete interne Methode. Dieses Element dient nur zu Referenzzwecken und darf nicht bearbeitet werden.method
-Ein einzelnes Element der Listeinputs
, das eine Ebene höher definiert ist.inputs
-Die Felder, die für diesen Vergleich verwendet werden sollen, aus allen Feldern, die in derfields
-Liste eine Ebene höher definiert sind.inputs
- Der Name einer anpassbaren Vergleichsressource, die für diesen Vergleichsschritt verwendet wird.comparison_resource
- Jeder von einem Vergleichsoperator durchgeführte Vergleich, ergibt einen Zahlenwert von 0 bis 10. Diese Zahl wird als Distanz- oder Unähnlichkeitsmaß bezeichnet. Der Distanzwert 0 bedeutet, dass die verglichenen Werte genau gleich sind. Der Distanzwert 10 bedeutet, dass sie vollständig verschieden sind. Entsprechend den 11 verschiedenen Werten (0 - 10), werden für jeden Vergleichsoperator 11 Gewichtungen definiert. Nach dem Berechnen des Distanzwerts ermittelt die Vergleichsmethode den entsprechenden Gewichtungswert aus der Liste der Gewichtungen und damit den Gesamtvergleichsscore. Datenentwickler können die Gewichtungen nach Bedarf anpassen, basierend auf Datenqualität, Verteilung oder anderen Faktoren.weights
-Das Datensatzfilterelement ermöglicht es der Abgleichsfunktion, Datensätze für den Abgleich auf der Basis ihrer Entitätstypen auszuwählen. Jede Datensatzfilterdefinition enthält ein Element:record_filter
-Schließt Datensätze auf der Basis bestimmter Bedingungen von der Berücksichtigung ein oder aus. Dieses Element enthält ein JSON-Objekt mit einem Schlüssel/Wert-Paar.criteria
Der Schlüssel des JSON-Objekts
ist ein Attributname. Es kann sich um eine der folgenden handeln:criteria
- Das Systemattribut
.record_source
- Ein benutzerdefiniertes angepasstes Attribut eines einfachen Attributtyps (Zeichenfolge)
- Das Systemattribut
Der Wert des JSON-Objekts
ist ein weiteres JSON-Objekt, das ein Element enthält. Folgende Elemente sind möglich:criteria
-Ein Array von Zeichenfolgewerten. Datensätze, die einen dieser Werte enthalten, werden beim Abgleich berücksichtigt.allowed
-Ein Array von Zeichenfolgewerten. Datensätze, die einen dieser Werte enthalten, werden beim Abgleich nicht berücksichtigt.disallowed
-Schwellenwerte auf Quellenebene ermöglichen es Ihnen, Schwellenwerte für automatische und manuelle Überprüfung auf der Basis von Quelle zu Quelle zu definieren. Schwellenwerte auf Quellenebene überschreiben die globalen Standardschwellenwerte. Jede Schwellenwertkonfiguration auf Quellenebene enthält eine Sammlung von Quellen mit optionalen quellenspezifischen Standardschwellenwerten oder eine Sammlung von Quellen-Quellen-Schwellenwertpaaren, mit denen Sie unterschiedliche Schwellenwerte für jede Quelle definieren können. Weitere Informationen finden Sie unter Quellenspezifische übereinstimmende Schwellenwerte konfigurieren im Abschnitt Erweiterte Abgleichalgorithmusoptimierung .source_level_thresholds
Bucketing-Ressourcen
Die Bucketing-Definitionen verwenden standardmäßig die folgenden Mapressourcen:
-Generiert Kurznamen oder alternative Namen für die Eingabe eines bestimmten Personennamensperson_map_name_nickname
-Generiert Kurznamen oder alternative Namen für die Eingabe eines bestimmten Organisationsnamens.org_map_name_cnick_name
Die Bucketing-Definitionen verwenden standardmäßig die folgenden Set-Ressourcen:
-Entfernt anonyme Personennamenswerte.person_set_name_bkt_anon
-Entfernt anonyme Organisationsnamen.org_set_name_acname
Vergleichsfunktionen
Vergleichsfunktionen, manchmal auch als Vergleichsoperatorenbezeichnet, sind eine der Schlüsselkomponenten des Abgleichalgorithmus. Vergleichsfunktionen werden von der Abgleichengine verwendet, um Datensatzdaten während des Abgleichprozesses zu vergleichen. Der Datensatzabgleich umfasst im Wesentlichen den Vergleich verschiedener Attributtypen zwischen den Daten verschiedener Datensätze.
Für viele der häufig verwendeten Attributtypen in Personen-, Organisations-und Standortdomänen enthält die IBM Match 360 -Abgleichsengine vorkonfigurierte Vergleichsmethoden.
In IBM Match 360verwenden Vergleichsfunktionen einen Ansatz zum Vergleich, der als Featurevektorenbezeichnet wird. Es gibt verschiedene anpassbare Featuredefinitionen in IBM Match 360 , die für verschiedene Vergleichsfunktionen verwendet werden. Jeder Vergleich ergibt ein Distanzmaß (einen Vektor), das zeigt, wie unterschiedlich zwei gegebene Attributwerte sind.
Im Abgleichalgorithmus erhält jeder diskrete Abstandswert eine Gewichtung, die bestimmt, wie stark dieser Wert berücksichtigt werden soll. Die Gewichtung wird mit der Entfernung kombiniert, um eine Vergleichsbewertung zu erzeugen. Der Abgleichalgorithmus addiert alle Vergleichsscores, um eine endgültige Vergleichsbewertung für den Gesamtvergleich von Datensatz zu Datensatz zu erhalten.
Informationen zu Features
Ein Feature stellt die Feindetails einer Vergleichsfunktion dar. Verschiedene Typen von Attributen verwenden unterschiedliche Typen von Ähnlichkeitsprüfungen, d. h., ihre Funktionen variieren ebenfalls.
Funktionsdefinitionen geben die Typen interner Funktionen vor, die für die einzelnen Vergleichsfunktionen verwendet werden. Beispiele für interne Funktionen sind exakte Übereinstimmung, Bearbeitungsabstand, Kurzname, phonetische Entsprechung oder anfängliche Übereinstimmung.
Vergleichsressourcen
Jede Vergleichsmethode enthält Ressourcen, die die Details ihrer internen Vergleichsoperationen enthalten.
Jeder der Standardvergleichstypen verfügt über eigene Ressourcen. Details zu den zugehörigen Ressourcen finden Sie in den einzelnen Vergleichstypen.
Für Vergleiche für angepasste Attributtypen mit dem übereinstimmenden Typ
enthält die generische Vergleichsmethode die folgenden Ressourcen:generic
-Im generierten Algorithmus ist das Namensformat dieser Ressourcecompare_spec_generic
.recordType_entityType_compare_spec_generic
Personennamensvergleiche
Unterschiedliche Felder in einem Personennamensattribut werden unterschiedlich behandelt. Für Felder wie Präfix, Suffix und Generierungswerte wird die Genauigkeit oder Nichtübereinstimmung geprüft. Andere Felder wie Vorname, Nachname und zweiter Vorname verwenden in erster Linie die folgenden Funktionen:
- Exakte Übereinstimmung
- Kurznamenübereinstimmung
- Bearbeitungsabstand
- Übereinstimmung mit Initialen
- Phonetische Übereinstimmung
- Falsche Platzierung von Tokens
- Zusätzliche Token
- Fehlende Werte
Die Vergleichsmethode für Personennamen umfasst die folgenden Ressourcen:
-Im generierten Algorithmus ist das Namensformat dieser Ressourceperson_compare_spec_name
. Beispiel:recordType_entityType_ compare_spec_name
.person_person_entity_compare_spec_name
Organisationsnamensvergleiche
Für Organisationsnamen gibt es typischerweise ein Feld, das den gesamten Geschäftsnamen enthält. Dieses Feld wird hauptsächlich mit den folgenden Merkmalen verglichen:
- Exakte Übereinstimmung
- Kurznamenübereinstimmung
- Bearbeitungsabstand
- Übereinstimmung mit Initialen
- Phonetische Übereinstimmung
- Falsche Platzierung von Tokens
- Zusätzliche Token
- Fehlende Werte
Bei Organisationsnamen werden die Akronyme und Kurznamen ebenfalls auf Genauigkeit verglichen.
Die Vergleichsmethode für Organisationsnamen umfasst die folgenden Ressourcen:
-Im generierten Algorithmus ist das Namensformat dieser Ressourceorg_compare_spec_name
.recordType_entityType_ compare_spec_name
Datumsvergleiche
Für Datumsangaben gibt es normalerweise drei zu vergleichende Felder: Tag, Monat und Jahr.
Das Feld
wird mithilfe der folgenden Funktionen verglichen:year
- Genauigkeit
- Bearbeitungsabstand
- Nicht übereinstimmend
- Nicht vorhanden
Die Felder
und day
werden mithilfe der folgenden Funktionen verglichen:month
- Genauigkeit
- Nicht übereinstimmend
- Nicht vorhanden
Der Datumsvergleichsoperator prüft auch, ob die Felder
und day
aufgrund von Unterschieden bei der Ländereinstellung im Datumsformat transponiert wurden.month
Die Datumsvergleichsmethode umfasst die folgenden Ressourcen:
-Im generierten Algorithmus ist das Namensformat dieser Ressourcecompare_spec_date
.recordType_entityType_ compare_spec_date
Geschlechtervergleiche
Das Attribut "gender" wird mithilfe der folgenden Funktionen verglichen:
- Genauigkeit
- Nicht übereinstimmend
Die Methode zum Vergleich des Geschlechts umfasst die folgenden Ressourcen:
-Im generierten Algorithmus ist das Namensformat dieser Ressourcecompare_spec_gender
.recordType_entityType_ compare_spec_gender
Adressvergleiche
Unterschiedliche Felder in einem Adressattribut werden unterschiedlich behandelt.
Felder wie "country", "city", "province" und "subdivision" werden mithilfe der folgenden Funktionen verglichen:
- Genauigkeit
- Äquivalenz
- Bearbeitungsabstand
- Nicht übereinstimmend
- Nicht vorhanden
Postleitzahlfelder werden mithilfe der folgenden Funktionen verglichen:
- Genauigkeit
- Bearbeitungsabstand
- Nicht übereinstimmend
- Nicht vorhanden
Felder wie Straßennummer, Straßenname, Straßentyp, Einheitennummer und Richtung werden mithilfe der folgenden Funktionen verglichen:
- Genauigkeit
- Äquivalenz
- Übereinstimmung mit Initialen
- Bearbeitungsabstand
- Nicht übereinstimmend
- Falsche Platzierung von Tokens
- Nicht vorhanden
Die Adressvergleichsmethode umfasst die folgenden Ressourcen:
-Im generierten Algorithmus ist das Namensformat dieser Ressourcecompare_spec_address
.recordType_entityType_ compare_spec_address
Telefonvergleiche
Telefonnummernattribute werden mithilfe der folgenden Funktionen verglichen:
- Exakte Übereinstimmung
- Bearbeitungsabstand
- Nicht übereinstimmend
Die Telefonvergleichsmethode enthält die folgenden Ressourcen:
-Im generierten Algorithmus wäre das Namensformat dieser Ressourcecompare_spec_phone
.recordType_entityType_ compare_spec_phone
Kennungsvergleiche
Identifikationsnummernattribute werden mithilfe der folgenden Funktionen verglichen:
- Exakte Übereinstimmung
- Bearbeitungsabstand
- Nicht übereinstimmend
Die ID-Vergleichsmethode enthält die folgenden Ressourcen:
-Im generierten Algorithmus ist das Namensformat dieser Ressourcecompare_spec_identifier
.recordType_entityType_ compare_spec_identifier
E-Mail-Vergleiche
E-Mail-Attribute bestehen aus zwei Teilen: der eindeutigen ID (vor dem Symbol @) und der E-Mail-Domäne (nach dem Symbol @). Sowohl die ID-als auch die Domänenkomponenten werden separat mit den folgenden Funktionen verglichen:
- Exakte Übereinstimmung
- Bearbeitungsabstand
- Nicht übereinstimmend
Das Ergebnis der beiden Vergleiche wird gewichtet kombiniert, um einen Gesamtvergleichsscore zu erhalten.
Die E-Mail-Vergleichsmethode umfasst die folgenden Ressourcen:
-Im generierten Algorithmus ist das Namensformat dieser Ressourcecompare_spec_email
.recordType_entityType_ compare_spec_email
Bearbeitungsabstand
Die Matching-Engine von IBM Match 360 berechnet den Bearbeitungsabstand als eine der internen Funktionen beim Vergleich und Abgleich verschiedener Attribute. Der Bearbeitungsabstand ist ein Maß dafür, wie unähnlich zwei Zeichenfolgen voneinander sind. Beim Berechnen dieses Werts wird ermittelt, wie viele Änderungen erforderlich sind, um eine Zeichenfolge in die andere umzuwandeln.
Es gibt verschiedene Verfahren, den Bearbeitungsabstand mithilfe verschiedener Gruppen von Zeichenfolgeoperationen zu definieren. In IBM Match 360 wird eine Standardfunktion für den Bearbeitungsabstand verwendet, die in der Literatur öffentlich zugänglich ist. Alternativ können Sie eine spezielle IBM Match 360-Funktion für den Bearbeitungsabstand verwenden.
Standardfunktion für den Bearbeitungsabstand ermöglicht eine bessere Leistung der Matching-Engine. Darum wird diese Standardvergleichskonfiguration für alle Attribute verwendet (mit Ausnahme des Attributtyps für Telefonnummern).
Spezialisierte Funktion für den Bearbeitungsabstand wurde für Anwendungsfälle entwickelt, die eine besonders hohe Genauigkeit erfordern. Diese Option berücksichtigt Schreibfehler oder ähnlich aussehende Zeichen wie 8 und B, 0 und O, 5 und S oder 1 und I. Wenn bei zwei verglichenen Werten eine Abweichung durch ähnlich aussehende Zeichen auftritt, ist das zugewiesene Unähnlichkeitsmaß kleiner als bei einer Standardfunktion für den Bearbeitungsabstand. Abweichungen dieser Art werden von der spezialisierten Funktion weniger stark abgewertet.
Wichtig: Die spezialisierte Funktion für den Bearbeitungsabstand umfasst einige komplexe Berechnungen. Dies hat zur Folge, dass sich die Verwendung dieser Option beim Abgleichsprozess auf die Systemleistung auswirkt.
Informationen zum Anpassen Ihres Abgleichsalgorithmus, einschließlich der Verwendung der API zum Anpassen der Bearbeitungsdistanz, finden Sie unter Abgleichsalgorithmus anpassen und stärken.
Weitere Informationen
- Datenkonzepte
- Daten zum Erstellen von Stammdatenentitäten abgleichen
- Abgleichalgorithmus anpassen und stärken
Übergeordnetes Thema: Stammdaten verwalten
War das Thema hilfreich?
0/1000