0 / 0
Torna alla versione inglese della documentazione
Algoritmi di corrispondenza in IBM Match 360
Ultimo aggiornamento: 22 nov 2024
Algoritmi di corrispondenza in IBM Match 360

IBM Match 360 utilizza algoritmi di corrispondenza per risolvere i record di dati in entità di dati master. I data engineer possono definire diversi algoritmi di corrispondenza per ogni tipo di entità nei propri dati. Gli algoritmo di corrispondenza possono quindi analizzare i dati per valutare e confrontare i record, quindi raccogliere i record corrispondenti in entità.

Esistono due motivi comuni per eseguire la corrispondenza sui tuoi dati:

  • Per deduplicazione record e risoluzione entità, il processo di corrispondenza analizza i dati per determinare se esistono record duplicati nei dati. I record duplicati sospetti vengono uniti in entità di dati master per stabilire un'unica vista affidabile a 360 gradi dei dati.
  • Per creare altri tipi di associazioni di entità, il processo di corrispondenza analizza i dati per raccogliere i record in entità che rappresentano diversi tipi di raggruppamenti, come ad esempio un nucleo familiare.

Guarda il seguente video per scoprire come utilizzare IBM Match 360 per impostare un algoritmo di corrispondenza per un modello di dati personalizzato.

Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.

In questo argomento:

Corrispondenza per creare più di un tipo di entità

Gli algoritmi di corrispondenza IBM Match 360 sono basati sul tipo di entità dei dati associati. È possibile definire più di un tipo di entità per ogni tipo di record nel modello dati. Per ogni tipo di entit ..., configurare e ottimizzare il corrispondente algoritmo di corrispondenza per garantire che IBM Match 360 crei le entit ... che soddisfano i requisiti della propria organizzazione.

Un singolo record può far parte di più di un'entità separata. Se il modello di dati include più di un tipo di entità, è possibile eseguire diversi tipi di corrispondenza nello stesso dataset. Ad esempio, si consideri un dataset che include i record persona dell'azienda. Se il tipo di record Persona include definizioni per un tipo di entità Persona e un tipo di entità Nucleo familiare, è possibile eseguire l'algoritmo di corrispondenza Persona per la deduplicazione e la risoluzione dell'entità ed eseguire anche l'algoritmo di corrispondenza Nucleo familiare per creare entità composte da record persona che appartengono allo stesso nucleo familiare.

Il processo di corrispondenza

Il motore corrispondente passa attraverso un processo definito per mettere in corrispondenza i record in entità. Il processo di corrispondenza include tre fasi principali:

  1. Standardizzazione. Durante questo passaggio, l'algoritmo standardizza il formato dei dati in modo che possano essere elaborati dal motore corrispondente.

  2. Bucketing. L'algoritmo ordina i dati in varie categorie o "bucket" in modo che possano confrontare informazioni simili.

  3. Confronto. L'algoritmo confronta i dati per stabilire un punteggio di confronto finale. L'algoritmo utilizza quindi il punteggio di confronto per determinare se i record sono una corrispondenza.

Ognuno di questi passi è definito e configurato dall'algoritmo di corrispondenza.

Regole di resilienza

È possibile utilizzare l'API IBM Match 360 per configurare regole di resilienza che limitano il modo in cui l'algoritmo di corrispondenza risponde alle modifiche dei dati del record.

In assenza di regole di resilienza, è possibile che si verifichino numerose modifiche ai collegamenti tra le entità quando un record di dati master viene aggiunto, aggiornato o eliminato:

  • Se viene aggiunto un nuovo record, può:

    • Unirsi a un'entità esistente.
    • Fa sì che due o più entità esistenti si uniscano agendo da record collante.
    • Forma una nuova entità singleton.
  • Se un record viene aggiornato, può:

    • Non appartiene più all'entità corrente e diventa una nuova entità singleton.
    • Non appartiene più alla sua entità attuale e si unisce a un'altra entità esistente.
    • Fa sì che l'entità corrente si divida in più entità.
    • Fa sì che altre entità si uniscano all'entità esistente, agendo come un record collante.
    • Non causa modifiche alla composizione dell'entità.
  • Se un record viene cancellato, può:

    • Fa sì che anche la sua entità singleton venga eliminata.
    • Fa sì che la sua entità corrente venga divisa.

Definendo le regole di resilienza, i data engineer possono configurare il modo in cui il motore di matching IBM Match 360 risponde a ciascuno di questi scenari. Il motore di corrispondenza controlla il suo comportamento di collegamento per allinearsi alle regole di resilienza configurate. Configurando le regole di resilienza, è possibile limitare le fusioni e le separazioni delle entità, ottenendo così una composizione più stabile delle entità.

Definire le regole di resilienza utilizzando l'API " resiliency_rules. Se una determinata regola è impostata su " FALSE, lo scenario di collegamento delle entità corrispondente non completerà le consuete modifiche di collegamento delle entità.

Per ottenere il set attuale di regole di resilienza, eseguire il seguente comando API:

GET /mdm/v1/resiliency_rules

Per aggiornare le regole di resilienza, eseguire il seguente comando API con un payload aggiornato:

PUT /mdm/v1/resiliency_rules

{
"link_resiliency_rules": {
  "records": {
     "person": {
        "add": {
           "join_existing_entity": "true/false",
           "merge_entities": "true/false"
        },
        "update": {                                                                                    
            "record_becoming_singleton": "true/false",
            "join_existing_entity": "true/false",
            "original_entity_split": "true/false",
            "merge_entities": "true/false"
        },
        "delete": {
            "singleton_entity_deletion": "true",
            "original_entity_split": "true/false"
        }
     }
   },
   "entities": {
   }
 }
}

Componenti dell'algoritmo di corrispondenza

Tre tipi principali di componenti definiscono un algoritmo di corrispondenza IBM Match 360 :

Standardizzatori

Come suggerisce il nome, gli standardizzatori definiscono il modo in cui i dati vengono standardizzati. La standardizzazione consente all'algoritmo di corrispondenza di convertire i valori di attributi differenti in una rappresentazione standardizzata che può essere elaborata dal motore corrispondente.

L'algoritmo di corrispondenza utilizza più standardizzatori. Ogni standardizzatore è adatto per elaborare tipi di attributi specifici trovati nei dati dei record.

I standardizzatori sono definiti da oggetti JSON. Ogni definizione di oggetto JSON del programma di standardizzazione contiene tre elementi:

  • label - Un'etichetta che identifica questo programma di standardizzazione.

  • inputs - L'elenco inputs ha un elemento, che è un oggetto JSON. Tale oggetto JSON ha due elementi: fields e attributes:

    • fields - L'elenco di campi da utilizzare per la normalizzazione.
    • attributes - L'elenco di attributi da utilizzare per la standardizzazione.
  • standardizer_recipe - Un elenco di oggetti JSON in cui ciascun oggetto rappresenta un passo da eseguire durante il processo di normalizzazione del programma di standardizzazione associato. Ciascun oggetto nell'elenco standardizer_recipe è costituito da quattro elementi principali:

    • label - Un'etichetta che identifica questo passo nella ricetta del standardizzatore.
    • method - Il metodo interno utilizzato. Questo elemento è solo per riferimento e non deve essere modificato.
    • inputs - Un singolo elemento dell'elenco inputs definito un livello superiore.
    • fields - Un elenco dei campi da utilizzare per questo passo. Si tratta generalmente di un sottoinsieme di tutti i campi definiti all'interno dell'elenco inputs di un livello superiore. Non tutti i passi devono elaborare tutti i campi inputs .
    • set_resource - Il nome di una risorsa personalizzabile di tipo set utilizzata per questo passo.
    • map_resource - Il nome di una risorsa personalizzabile di tipo map utilizzata per questo passo.

    A seconda del funzionamento di un passo, potrebbero essere richiesti più elementi di configurazione nell'oggetto JSON corrispondente.

Standardizzatori preconfigurati

I seguenti standardizzatori sono pronti per essere utilizzati in IBM Match 360. Anche gli standardizzatori preconfigurati sono personalizzabili.

Standardizzatore nome persona

Questo programma di standardizzazione viene utilizzato per standardizzare i valori degli attributi Nome persona. Contiene le seguenti ricette, in sequenza:

  1. Upper case - Converte i valori del campo di immissione per utilizzare i loro equivalenti maiuscoli.
  2. Map character - Converte i caratteri di input UNICODE in caratteri alfabetici inglesi equivalenti. Facoltativamente, definire la mappa nelle risorse IBM Match 360 .
  3. Tokenizer - Tokenizza il valore del campo di input in più token, in base all'elenco definito di delimitatori.
  4. Parse token - Analizza i valori del campo di immissione in token differenti, a seconda dei valori predefiniti nelle risorse IBM Match 360 . Ad esempio, è possibile utilizzare questa ricetta per analizzare i valori di suffisso, prefisso e generazione nei campi appropriati.
  5. Length - Scarta i token che non rientrano in un determinato intervallo di lunghezza. I valori minimi e massimi sono definiti nelle risorse IBM Match 360 .
  6. Stop token - Rimuove i valori di input anonimi, come configurati.
  7. Pick token - Seleziona un sottoinsieme (o tutti) dei token come dati standardizzati da utilizzare nel bucketing e nel confronto.

Il programma di standardizzazione Nome persona utilizza le seguenti risorse di mappa per impostazione predefinita:

  • map_character_general - Converte i caratteri di input UNICODE in caratteri alfabetici inglesi equivalenti.
  • person_map_name_alignments - Analizza i valori di suffisso, prefisso e generazione nei campi appropriati.

Il programma di standardizzazione Nome persona utilizza le seguenti risorse Imposta per impostazione predefinita:

  • person_set_name_aname - Rimuove i valori del nome della persona anonima.
Standardizzatore nome organizzazione

Questo standardizer viene utilizzato per standardizzare i valori degli attributi Nome organizzazione. Contiene le seguenti ricette, in sequenza:

  1. Upper case - Converte i valori del campo di immissione per utilizzare i loro equivalenti maiuscoli.
  2. Map character - Converte i caratteri di input UNICODE in caratteri alfabetici inglesi equivalenti. Facoltativamente, definire la mappa nelle risorse IBM Match 360 .
  3. Stop character - Rimuove i caratteri di input indesiderati dai valori del nome.
  4. Map token - Genera nickname o nomi alternativi per l'input fornito e memorizza le informazioni in un nuovo campo interno separato.
  5. Tokenizer - Tokenizza il valore del campo di input in più token, in base all'elenco definito di delimitatori.
  6. Stop token - Rimuove i valori di input anonimi, come configurati.
  7. Acronym - Genera un acronimo per il nome organizzazione fornito e memorizza le informazioni in un nuovo campo interno separato. Questo valore di acronimo viene utilizzato durante il confronto per gestire i nomi abbreviati.
  8. Pick token - Seleziona un sottoinsieme (o tutti) dei token come dati standardizzati da utilizzare nel bucketing e nel confronto.

Per impostazione predefinita, il programma di standardizzazione del nome dell'organizzazione utilizza le seguenti risorse di mappa:

  • map_character_general - Converte i caratteri di input UNICODE in caratteri alfabetici inglesi equivalenti.
  • org_map_name_cnick_name - Genera nickname o nomi alternativi per l'input fornito.

Per impostazione predefinita, il programma di standardizzazione del nome dell'organizzazione utilizza le seguenti risorse Set:

  • org_set_name_aname - Rimuove i valori anonimi del nome dell'organizzazione.
Standardizzatore data

Questo programma di standardizzazione viene utilizzato per standardizzare i valori degli attributi Data. Supporta molti formati di data differenti e contiene le seguenti ricette, in sequenza:

  1. Map character - Converte i caratteri barra (/) in caratteri trattino (-).
  2. Date function - Converte gli input di data in formati differenti in un formato standard.
  3. Stop token - Rimuove i valori di data anonimi, come configurati.
  4. Parse token - Analizza i valori del campo di input in token differenti, in base ad alcune espressioni regolari. Ad esempio, è possibile utilizzare questa ricetta per analizzare un input di data completo nei token giorno, mese e anno.
  5. Pick token - Seleziona un sottoinsieme (o tutti) dei token come dati standardizzati da utilizzare nel bucketing e nel confronto.

Il programma di standardizzazione della data utilizza le seguenti risorse di mappa per impostazione predefinita:

  • map_character_date_separators- Converte le barre (/) o qualsiasi altro carattere separatore in caratteri trattino (-).
  • map_date_tokens_year_month_day - Analizza il valore della data di input per i campi interni, ovvero birth_year, birth_month e birth_day, in base alle espressioni regolari.

Il programma di standardizzazione della data utilizza le seguenti risorse Set per impostazione predefinita:

  • set_date_date - Rimuove i valori di data anonimi.
Standardizzatore di genere

Questo standardizzatore viene utilizzato per standardizzare i valori degli attributi Sesso. Contiene le seguenti ricette, in sequenza:

  1. Map character - Converte i caratteri di input UNICODE in caratteri alfabetici inglesi equivalenti. Facoltativamente, definire la mappa nelle risorse IBM Match 360 .
  2. Upper case - Converte i valori del campo di immissione per utilizzare i loro equivalenti maiuscoli.
  3. Stop token - Rimuove i valori di sesso di input anonimi, come configurati.
  4. Map token - Converte i valori dei token di immissione in valori equivalenti, come configurato nelle risorse IBM Match 360 .
  5. Parse token - Analizza i valori dei campi elaborati in un campo interno appropriato.
  6. Pick token - Seleziona un sottoinsieme (o tutti) dei token come dati standardizzati da utilizzare nel bucketing e nel confronto.

Il programma di standardizzazione Sesso utilizza le seguenti risorse di mappa per impostazione predefinita:

  • map_character_general - Converte i caratteri di input UNICODE in caratteri alfabetici inglesi equivalenti.
  • map_gender_gender - Maps diversi valori di sesso di input a valori standard.
  • map_gender_tokens_gender - Analizza il valore del token di input nel campo gender interno basato sull'espressione regolare.

Il programma di standardizzazione Sesso utilizza le seguenti risorse Set per impostazione predefinita:

  • set_gender_anon_gender - Rimuove i valori di sesso di input anonimi.
Standardizzatore indirizzo

Questo standardizzatore viene utilizzato per standardizzare i valori degli attributi Address. Gli indirizzi possono avere diversi formati, a seconda delle locali. Questa flessibilità richiede un'elaborazione complessa per convertire gli indirizzi in un formato standardizzato. Il programma di standardizzazione dell'indirizzo contiene le seguenti ricette, in sequenza:

  1. Upper case - Converte i valori del campo di immissione per utilizzare i loro equivalenti maiuscoli.
  2. Map character - Converte i caratteri di input UNICODE in caratteri alfabetici inglesi equivalenti. Facoltativamente, definire la mappa nelle risorse IBM Match 360 .
  3. Map token - Converte i valori dei token di immissione in valori equivalenti, come configurato nelle risorse IBM Match 360 . Ad esempio, "Stati Uniti", "Stati Uniti" e "Stati Uniti" possono essere tutti associati a "Stati Uniti". Questa associazione è comune per i valori del campo paese e provincia / stato. Inoltre, i caratteri delimitatori configurati nella risorsa vengono associati al carattere spazio.
  4. Tokenizer - Tokenizza il valore del campo di input in più token, in base all'elenco definito di delimitatori.
  5. Stop token - Rimuove i valori di input anonimi, ad esempio i codici postali, come configurati.
  6. Keep token - Consente solo l'elenco definito di valori per un determinato campo. Ad esempio, è possibile definire un elenco di codici postali consentiti durante la standardizzazione. I valori di immissione che non sono nell'elenco consentiti verranno rimossi.
  7. Parse token - Analizza i valori dei campi di input nei campi interni appropriati in base a determinate espressioni regolari e ai valori predefiniti, come configurati nelle risorse. È possibile utilizzare questa ricetta per troncare un dato token ad una certa lunghezza utilizzando le espressioni regolari. È inoltre possibile definire diverse serie di modelli alfanumerici sotto forma di espressioni regolari per consentire solo determinati modelli.
  8. Join fields - Unisce due o più campi per creare un nuovo valore combinato, assegnato a un campo interno. Ad esempio, i valori dei campi latitude e longitude possono essere uniti per formare un nuovo campo interno denominato lat_long.
  9. Pick token - Seleziona un sottoinsieme (o tutti) dei token come dati standardizzati da utilizzare nel bucketing e nel confronto.

Il programma di standardizzazione degli indirizzi utilizza le seguenti risorse di mappa per impostazione predefinita:

  • map_character_general - Converte i caratteri di input UNICODE in caratteri alfabetici inglesi equivalenti.
  • map_address_country - Converte i valori paese di input in valori equivalenti.
  • map_address_province_state - Converte i valori di provincia e stato di input in valori equivalenti.
  • map_address_delimiter_removal - Maps i caratteri delimitatori configurati nella risorsa al carattere spazio.
  • map_address_addr_tok - Converte i valori token dell'indirizzo di input in valori equivalenti.
  • map_address_tokens_unit_type_and_number - Analizza il campo di immissione residence_number basato sull'espressione regolare in campi interni, vale a dire unit_type e unit_number.
  • map_address_tokens_street_number_name_direction_type - Analizza il campo di immissione address_line1 basato sull'espressione regolare in campi interni, vale a dire street_number, street_name, directione street_type.
  • map_address_tokens_sub_division - Analizza il campo di immissione address_line2 basato sull'espressione regolare nel campo interno sub_division.
  • map_address_tokens_pobox_type_and_number - Analizza il campo di immissione address_line3 basato sull'espressione regolare in campi interni, vale a dire pobox_type e pobox.
  • map_address_tokens_city - Analizza il valore di input del campo city in base all'espressione regolare.
  • map_address_tokens_province - Analizza il valore di input del campo province_state basato sull'espressione regolare nel campo interno province.
  • map_address_tokens_postal_code - Analizza il valore di input del campo zip_postal_code in base all'espressione regolare nel campo interno postal_code.
  • map_address_tokens_country - Analizza il valore di input del campo country basato sull'espressione regolare.
  • map_address_tokens_latitude - Analizza il valore di input del campo latitude_degrees basato sull'espressione regolare nel campo interno latitude.
  • map_address_tokens_longtitude - Analizza il valore di input del campo longitude_degrees in base all'espressione regolare nel campo interno longitude.

Il programma di standardizzazione degli indirizzi utilizza le seguenti risorse Set per impostazione predefinita:

  • set_address_postal_code - Rimuove i valori di input anonimi per zip_postal_code.
Standardizzatore telefono

Questo standardizzatore viene utilizzato per standardizzare i valori dell'attributo Telefono. Contiene le seguenti ricette, in sequenza:

  1. Stop character - Rimuove i caratteri di input indesiderati dai valori telefonici.
  2. Stop token - Rimuove i valori telefonici anonimi, come configurati.
  3. Phone - Analizza i numeri di telefono di input con formati diversi da diverse locali in un formato comune. Questa ricetta può essere configurata per rimuovere i codici area e i codici paese dai numeri di telefono. Può anche conservare un determinato numero di cifre in un numero di telefono standardizzato.
  4. Parse token - Analizza i valori dei campi elaborati in un campo interno appropriato in base a determinate espressioni regolari, come configurato nelle risorse.
  5. Pick token - Seleziona un sottoinsieme (o tutti) dei token come dati standardizzati da utilizzare nel bucketing e nel confronto.

Il programma di standardizzazione del telefono utilizza le seguenti risorse di mappa per impostazione predefinita:

  • map_phone_tokens_phone - Analizza i valori telefonici in un campo interno basato sulle espressioni regolari.

Il programma di standardizzazione del telefono utilizza le seguenti risorse Set per impostazione predefinita:

  • set_character_phone - Sostituisce tutti i caratteri non alfanumerici. Consente di specificare espressioni regolari.
  • set_phone_anon_phone - Rimuove i valori telefonici anonimi.
Standardizzatore di identificazione

Questo standardizzatore viene utilizzato per standardizzare i valori degli attributi di identificazione. Contiene le seguenti ricette, in sequenza:

  1. Map character - Converte i caratteri di input UNICODE in caratteri alfabetici inglesi equivalenti. Facoltativamente, definire la mappa nelle risorse IBM Match 360 .
  2. Upper case - Converte i valori del campo di immissione per utilizzare i loro equivalenti maiuscoli.
  3. Stop character - Rimuove i caratteri di input indesiderati dai valori di identificazione.
  4. Stop token - Rimuove i valori di input anonimi, come configurati.
  5. Map token - Converte i valori dei token di immissione in valori equivalenti, come configurato nelle risorse IBM Match 360 .
  6. Parse token - Analizza i valori dei campi elaborati in un campo interno appropriato in base a determinate espressioni regolari, come configurato nelle risorse.
  7. Pick token - Seleziona un sottoinsieme (o tutti) dei token come dati standardizzati da utilizzare nel bucketing e nel confronto.

Il programma di standardizzazione di identificazione utilizza le seguenti risorse di mappa per impostazione predefinita:

  • map_character_general - Converte i caratteri di input UNICODE in caratteri alfabetici inglesi equivalenti.
  • map_identifier_equi_identifier - Converte i valori del token di input in valori equivalenti.
  • map_identifier_tokens_identification_number - Analizza i valori dei campi elaborati in un campo interno appropriato in base a determinate espressioni regolari, come configurato nelle risorse.

Il programma di standardizzazione di identificazione utilizza le seguenti risorse Set per impostazione predefinita:

  • set_character_identification_number - Rimuove i caratteri di input non alfanumerici dai valori di identificazione. Consente di specificare espressioni regolari.
  • set_identifier_anonymous - Rimuove i valori di identificazione anonimi.
Standardizzatore email

Questo programma di standardizzazione viene utilizzato per standardizzare i valori degli attributi email. Contiene le seguenti ricette, in sequenza:

  1. Map character - Converte i caratteri di input UNICODE in caratteri alfabetici inglesi equivalenti. Facoltativamente, definire la mappa nelle risorse IBM Match 360 .
  2. Upper case - Converte i valori del campo di immissione per utilizzare i loro equivalenti maiuscoli.
  3. Stop token - Rimuove i valori di input anonimi, come configurati.
  4. Map token - Converte i valori dei token di immissione in valori equivalenti, come configurato nelle risorse IBM Match 360 .
  5. Parse token - Analizza i valori dei campi elaborati in un campo interno appropriato in base a determinate espressioni regolari, come configurato nelle risorse.
  6. Pick token - Seleziona un sottoinsieme (o tutti) dei token come dati standardizzati da utilizzare nel bucketing e nel confronto.

Il programma di standardizzazione email utilizza le seguenti risorse di mappa per impostazione predefinita:

  • map_character_general - Converte i caratteri di input UNICODE in caratteri alfabetici inglesi equivalenti.
  • map_non_phone_equi_non_phone - Converte i valori del token di input in valori equivalenti.
  • map_non_phone_tokens_non_phone - Analizza il campo di input email_id basato sull'espressione regolare nei campi interni email_local_part e email_domain.

Il programma di standardizzazione Email utilizza le seguenti risorse Set per impostazione predefinita:

  • set_non_phone_anon_non_phone - Rimuove i valori email anonimi.
Standardizzatore social media

Questo standardizzatore viene utilizzato per standardizzare i valori degli attributi Social Media. Contiene le seguenti ricette, in sequenza:

  1. Map character - Converte i caratteri di input UNICODE in caratteri alfabetici inglesi equivalenti. Facoltativamente, definire la mappa nelle risorse IBM Match 360 .
  2. Upper case - Converte i valori del campo di immissione per utilizzare i loro equivalenti maiuscoli.
  3. Stop token - Rimuove i valori di input anonimi, come configurati.
  4. Map token - Converte i valori dei token di immissione in valori equivalenti, come configurato nelle risorse IBM Match 360 .
  5. Parse token - Analizza i valori dei campi elaborati in un campo interno appropriato in base a determinate espressioni regolari, come configurato nelle risorse.
  6. Pick token - Seleziona un sottoinsieme (o tutti) dei token come dati standardizzati da utilizzare nel bucketing e nel confronto.

Il programma di standardizzazione Social Media utilizza le seguenti risorse di mappa per impostazione predefinita:

  • map_character_general - Converte i caratteri di input UNICODE in caratteri alfabetici inglesi equivalenti.
  • map_non_phone_equi_non_phone - Converte i valori del token di input in valori equivalenti.
  • map_non_phone_tokens_non_phone - Analizza il campo di input social_media_handle nel campo interno social_media_id in base alle espressioni regolari.

Il programma di standardizzazione Social Media utilizza le seguenti risorse Set per impostazione predefinita:

  • set_non_phone_anon_non_phone - Rimuove i valori social_media_id anonimi.

Tipi di entit ... (bucketing)

All'interno di un singolo algoritmo corrispondente, ogni tipo di record può avere più definizioni di tipi di entità (oggetti JSONentity_type ). Ad esempio, in un algoritmo definito per un tipo di record persona, potrebbe essere necessario creare più di una definizione di tipo entità, ad esempio entità persona, entità nucleo familiare, entità ubicazione e altri.

Ogni tipo di entità può essere utilizzato per associare e collegare i record in modi diversi. Un tipo di entità definisce il modo in cui i record vengono intascati e confrontati durante il processo di corrispondenza.

Ogni definizione di tipo di entità (entity_type) nell'algoritmo corrispondente ha diversi elementi JSON:

  • clerical_review_threshold - I record che hanno un punteggio di confronto inferiore alla soglia di revisione di base vengono considerati come non corrispondenze.

  • auto_link_threshold - I record che hanno un punteggio di confronto superiore alla soglia di collegamento automatico sono considerati abbastanza forti da corrispondere automaticamente.

  • bucket_generators - Questa sezione contiene la definizione dei generatori bucket configurati per un tipo entità. Esistono due tipi di generatori di bucket: bucket e gruppi di bucket.

    • I bucket implicano il bucketing solo per un attributo. Ogni bucket definizione include quattro elementi:

      • label - Un'etichetta che identifica il generatore di bucket.
      • maximum_bucket_size - Un valore che definisce la dimensione dei bucket grandi. Qualsiasi hash del bucket con una dimensione del bucket maggiore di questo valore non viene considerato per la selezione del candidato durante la corrispondenza.
      • inputs - Per i bucket, l'elenco inputs ha solo un elemento, che è un oggetto JSON. Tale oggetto JSON ha due elementi: fields e attributes:
        • fields - L'elenco di campi da utilizzare per il bucketing.
        • attributes - L'elenco di attributi da utilizzare per il bucketing.
      • bucket_recipe - Un elenco di ricette bucket definisce la procedura per il completamento del generatore di bucket durante il processo di creazione del bucket. Ogni elenco bucket_recipe ha un numero di elementi secondari:
        • label - Un'etichetta che identifica l'elemento ricetta del bucket.
        • method - Il metodo interno utilizzato. Questo elemento è solo per riferimento e non deve essere modificato.
        • inputs - Un singolo elemento dell'elenco inputs definito un livello superiore.
        • fields - Un elenco dei campi da utilizzare per questo bucket. Si tratta generalmente di un sottoinsieme di tutti i campi definiti all'interno dell'elenco inputs di un livello superiore.
        • min_tokens - Il numero minimo di token da utilizzare quando la ricetta sta formando un hash bucket.
        • max_tokens - Il numero massimo di token da utilizzare insieme quando la ricetta sta formando un hash bucket.
        • count - Un limite sul numero di hash del bucket per un singolo record generato da un generatore di bucket. Se un record genera un sacco di hash bucket, solo il numero di hash impostato da questo elemento viene raccolto.
        • bucket_group - Il numero di sequenza per un gruppo di bucket che produce un hash bucket. Ai passi intermedi o alle ricette non verrà assegnato un numero di sequenza.
        • order - Specifica se i token sono ordinati in ordine lessicografico quando più token sono combinati per formare un hash bucket.
        • maximum_bucket_size - Un valore che definisce la dimensione dei bucket grandi. Questo elemento è lo stesso di quello definito a livello del generatore di bucket; anche averlo a livello della ricetta del bucket ti dà un controllo più preciso su singoli bucket di grandi dimensioni.
    • I gruppi di bucket implicano il bucketing per più di un attributo. Ogni bucket_group definizione include cinque elementi:

      • label - Un'etichetta che identifica il generatore di bucket.
      • maximum_bucket_size - Un valore che definisce la dimensione dei bucket grandi. Qualsiasi hash del bucket con una dimensione del bucket maggiore di questo valore non viene considerato per la selezione del candidato durante la corrispondenza.
      • inputs - Per i gruppi di bucket, l'elenco inputs ha più di un elemento oggetto JSON. Gli oggetti JSON hanno ognuno due elementi: fields e attributes:
        • fields - L'elenco di campi da utilizzare per il bucketing.
        • attributes - L'elenco di attributi da utilizzare per il bucketing.
      • bucket_recipe - Un elenco di ricette bucket definisce la procedura per il completamento del generatore di bucket durante il processo di creazione del bucket. Ogni elenco bucket_recipe ha un numero di elementi secondari:
        • label - Un'etichetta che identifica l'elemento ricetta del bucket.
        • method - Il metodo interno utilizzato. Questo elemento è solo per riferimento e non deve essere modificato.
        • inputs - Un singolo elemento dell'elenco inputs definito un livello superiore.
        • fields - Un elenco dei campi da utilizzare per questo bucket. Si tratta generalmente di un sottoinsieme di tutti i campi definiti all'interno dell'elenco inputs di un livello superiore.
        • min_tokens - Il numero minimo di token da utilizzare quando la ricetta sta formando un hash bucket.
        • max_tokens - Il numero massimo di token da utilizzare insieme quando la ricetta sta formando un hash bucket.
        • count - Un limite sul numero di hash del bucket per un singolo record generato da un generatore di bucket. Se un record genera molti hash bucket, solo il numero di hash impostato da questo elemento viene raccolto.
        • bucket_group - Il numero di sequenza per un gruppo di bucket che produce un hash bucket. Ai passi intermedi o alle ricette non verrà assegnato un numero di sequenza.
        • order - Specifica se i token sono ordinati in ordine lessicografico quando più token sono combinati per formare un hash bucket.
        • maximum_bucket_size - Un valore che definisce la dimensione dei bucket grandi. Questo elemento è uguale a quello definito a livello di generatore bucket. Essere in grado di definirlo a livello di ricetta del secchio ti dà un controllo più fine su grandi secchi individuali.
        • set_resource - Il nome di una risorsa di tipo set utilizzata per una ricetta del bucket.
        • map_resource - Il nome di una risorsa di tipo map utilizzata per una ricetta del bucket.
        • output_fields - Se questa ricetta produce nuovi campi dopo che ha completato le funzioni di bucketing sui campi di input, questo elemento contiene un elenco dei nomi dei campi generati.
      • bucket_group_recipe - Una sezione della ricetta del gruppo di bucket viene generalmente utilizzata per definire i bucket costituiti da più di un attributo. Ogni elemento di un elenco bucket_group_recipe è un oggetto JSON che definisce il costrutto per un singolo gruppo di bucket.
        • L'elenco inputs in bucket_group_recipe ha più di un elemento, il che significa che fa riferimento a più di un attributo definito nell'array inputs di un livello superiore.
        • L'elemento fields è un elenco di elenchi. Ogni elenco interno di campi è associato al rispettivo elenco attributes .
        • Gli elenchi min_tokens e max_tokens hanno più di un elemento, con ciascun elemento corrispondente al rispettivo elenco attributes .
      Nota:

      In alcune definizioni di ricetta di bucketing, è presente una proprietà denominata search_only. Per impostazione predefinita, il valore è false. Se impostata su true, questa proprietà indica che un bucket o un gruppo di bucket viene utilizzato solo per gli scenari di ricerca probabilistici e non viene utilizzato per gli scenari di risoluzione entità (corrispondenti).

  • compare_methods - Definizioni dei metodi di confronto configurati per un tipo entità. Ogni oggetto JSON compare_methods è formato da definizioni di vari metodi compare . L'algoritmo di corrispondenza somma i punteggi di ogni definizione del metodo compare per ottenere il punteggio di confronto finale. Ogni oggetto JSON del metodo compare contiene tre elementi:

    • label - Un'etichetta che identifica il metodo compare .
    • methods - Un elenco di comparatori che formano un gruppo di confronto. Ogni elemento in questo array rappresenta un comparatore, inteso per un tipo di attributo corrispondente. L'algoritmo di corrispondenza considera il massimo dei punteggi di tutti i comparatori in un elenco methods come punteggio finale di questo gruppo di confronto. Ciascuna definizione del comparatore include due elementi:
      • inputs - Per i comparatori, l'elenco inputs contiene solo un elemento, che è un oggetto JSON. Tale oggetto JSON ha due elementi: fields e attributes:
        • fields - L'elenco dei campi da utilizzare per il confronto.
        • attributes - L'elenco di attributi da utilizzare per il confronto.
      • compare_recipe - Questo elenco viene utilizzato principalmente per definire le fasi di confronto. In genere, c'è solo un elemento JSON in questo array, che rappresenta solo un passo per eseguire il confronto. Questa fase ha cinque elementi:
        • label - Un'etichetta che identifica il passo di confronto.
        • method - Il metodo interno utilizzato. Questo elemento è solo per riferimento e non deve essere modificato.
        • inputs - Un singolo elemento dell'elenco inputs definito un livello superiore.
        • fields - I campi da utilizzare per questo confronto rispetto a tutti i campi definiti nell'elenco inputs di un livello superiore.
        • comparison_resource - Il nome di una risorsa di confronto personalizzabile utilizzata per questo passo di confronto.
    • weights - Ogni confronto eseguito da un comparatore risulta in un punteggio numerico compreso tra 0 e 10. Questo numero è chiamato misura di distanza o di dissimilarità. Una distanza di 0 indica che i valori confrontati sono esattamente gli stessi. Una distanza di 10 indica che sono completamente diversi. Corrispondenti agli 11 valori distinti (0 - 10), per ciascun comparatore vengono definiti 11 pesi. Dopo il calcolo della distanza, il metodo di confronto determina il valore di peso corrispondente dall'elenco dei pesi, ottenendo il punteggio di confronto totale. Gli ingegneri dei dati possono personalizzare i pesi in base alle esigenze, in base alla qualità dei dati, alla distribuzione o ad altri fattori.
  • record_filter - L'elemento di filtro dei record consente al motore di corrispondenza di selezionare i record per la corrispondenza in base al tipo di entità. Ogni definizione di filtro di record contiene un elemento:

    • criteria - Include o esclude i record dalla considerazione di corrispondenza in base a specifiche condizioni. Questo elemento contiene un oggetto JSON con una coppia chiave - valore.

      La chiave dell'oggetto JSON di criteria è un nome attributo. Può essere uno dei seguenti:

      • L'attributo di sistema record_source .
      • Un attributo personalizzato definito dall'utente di un tipo di attributo semplice (stringa).

    Il valore dell'oggetto JSON di criteria è un altro oggetto JSON che contiene un elemento, che può essere uno dei seguenti:

    • allowed - Un array di valori stringa. I record che includono uno di questi valori verranno considerati durante la corrispondenza.
    • disallowed - Un array di valori stringa. I record che includono uno di questi valori non verranno considerati durante la corrispondenza.
  • source_level_thresholds - Le soglie di livello origine consentono di definire le soglie di revisione di base e di collegamento automatico su una base origine - origine. Le soglie del livello di origine sovrascrivono i valori di soglia globali predefiniti. Ogni configurazione di soglia a livello di origine contiene una raccolta di origini con soglie predefinite facoltative specifiche per l'origine o una raccolta di coppie di soglie origine - origine che consentono di definire soglie differenti per ciascuna origine. Per ulteriori informazioni, consultare Configurazione delle soglie di corrispondenza specifiche dell'origine nell'argomento Ottimizzazione algoritmo di corrispondenza avanzata .

Risorse di Bucketing

Per impostazione predefinita, le definizioni di bucketing utilizzano le seguenti risorse di mappa:

  • person_map_name_nickname - Genera nickname o nomi alternativi per un determinato input di nome persona.
  • org_map_name_cnick_name - Genera nickname o nomi alternativi per un determinato input di nome organizzazione.

Le definizioni di bucketing utilizzano le seguenti risorse Set per impostazione predefinita:

  • person_set_name_bkt_anon - Rimuove i valori del nome della persona anonima.
  • org_set_name_acname - Rimuove i valori anonimi del nome dell'organizzazione.

funzioni di confronto

Le funzioni di confronto, talvolta denominate comparatori, sono uno dei principali componenti dell'algoritmo di corrispondenza. Le funzioni di confronto vengono utilizzate dal motore di corrispondenza per confrontare i dati dei record durante il processo di corrispondenza. Essenzialmente, la corrispondenza dei record implica il confronto di diversi tipi di attributi tra dati di record differenti.

Per molti dei tipi di attributo comunemente utilizzati nei domini di persona, organizzazione e ubicazione, il motore di corrispondenza IBM Match 360 include metodi di confronto preconfigurati.

In IBM Match 360, le funzioni di confronto utilizzano un approccio al confronto noto come vettori di funzioni. Esistono diverse definizioni di funzioni personalizzabili in IBM Match 360 utilizzate per diverse funzioni di confronto. Ogni confronto risulta in una misura di distanza (un vettore) che mostra quanto siano dissimili due valori di attributo dati.

Nell'algoritmo di corrispondenza, a ciascun valore di distanza discreto viene assegnato un peso che determina la forza con cui considerare tale valore. Il peso si combina con la distanza per produrre un punteggio di confronto. L'algoritmo di corrispondenza aggiunge tutti i punteggi di confronto insieme per ottenere un punteggio di confronto finale per il confronto record - a - record complessivo.

Informazioni sulle funzioni

Una funzione rappresenta i dettagli di livello fine di una funzione di confronto. Diversi tipi di attributi utilizzano diversi tipi di controlli di similarità, il che significa che anche le relative caratteristiche variano.

Le definizioni delle funzioni determinano i tipi di funzioni interne utilizzate per ciascuna funzione di confronto. Esempi di funzioni interne includono la corrispondenza esatta, la distanza di modifica, il nickname, l'equivalente fonetico o la corrispondenza iniziale.

Risorse di confronto

Ogni metodo di confronto include risorse che contengono i dettagli delle relative operazioni di confronto interne.

Ciascuno dei tipi di comparazione predefiniti ha le proprie risorse. Consultare ciascun tipo di confronto per i dettagli delle risorse associate.

Per i confronti su tipi di attributi personalizzati che hanno un tipo corrispondente generic, il metodo di confronto generico include le seguenti risorse:

  • compare_spec_generic - Nell'algoritmo generato, il formato del nome di questa risorsa è recordType_entityType_compare_spec_generic.

Confronti nome persona

I diversi campi all'interno di un attributo nome persona vengono gestiti in maniera diversa. Per i campi come prefisso, suffisso e valori di generazione, viene selezionata l'esattezza o la non corrispondenza. Altri campi come nome, cognome e secondo nome utilizzano principalmente le seguenti funzioni:

  • Corrispondenza esatta
  • Corrispondenza nickname
  • Modifica distanza
  • Corrispondenza iniziali
  • Corrispondenza fonetica
  • Smarrimento dei token
  • Token aggiuntivi
  • Valori mancanti

Il metodo di confronto dei nomi della persona include le risorse seguenti:

  • person_compare_spec_name - Nell'algoritmo generato, il formato del nome di questa risorsa è recordType_entityType_ compare_spec_name. Ad esempio: person_person_entity_compare_spec_name.

Confronti dei nomi delle organizzazioni

Per i nomi delle organizzazioni, è presente un campo che contiene l'intero nome aziendale. Tale campo viene confrontato utilizzando principalmente le seguenti funzioni:

  • Corrispondenza esatta
  • Corrispondenza nickname
  • Modifica distanza
  • Corrispondenza iniziali
  • Corrispondenza fonetica
  • Smarrimento dei token
  • Token aggiuntivi
  • Valori mancanti

Per i nomi delle organizzazioni, anche gli acronimi e i nickname vengono confrontati per precisione.

Il metodo di confronto dei nomi delle organizzazioni include le seguenti risorse:

  • org_compare_spec_name - Nell'algoritmo generato, il formato del nome di questa risorsa è recordType_entityType_ compare_spec_name.

Confronti di date

Per le date, ci sono generalmente tre campi da confrontare: giorno, mese e anno.

Il campo year viene confrontato utilizzando le seguenti funzioni:

  • Esattezza
  • Modifica distanza
  • Non corrispondente
  • Mancante

I campi day e month vengono confrontati utilizzando le funzioni riportate di seguito:

  • Esattezza
  • Non corrispondente
  • Mancante

Il comparatore di date controlla anche se i campi day e month sono stati trasposti a causa delle differenze di locale nella formattazione della data.

Il metodo di confronto delle date include le seguenti risorse:

  • compare_spec_date - Nell'algoritmo generato, il formato del nome di questa risorsa è recordType_entityType_ compare_spec_date.

Confronti di genere

L'attributo gender viene confrontato utilizzando le funzioni riportate di seguito:

  • Esattezza
  • Non corrispondente

Il metodo di confronto tra i sessi include le seguenti risorse:

  • compare_spec_gender - Nell'algoritmo generato, il formato del nome di questa risorsa è recordType_entityType_ compare_spec_gender.

Confronti di indirizzi

I diversi campi all'interno di un attributo indirizzo vengono gestiti in maniera diversa.

I campi come paese, città, provincia / stato e suddivisione vengono confrontati utilizzando le seguenti caratteristiche:

  • Esattezza
  • Equivalenza
  • Modifica distanza
  • Non corrispondente
  • Mancante

I campi del codice postale vengono confrontati utilizzando le seguenti funzioni:

  • Esattezza
  • Modifica distanza
  • Non corrispondente
  • Mancante

I campi come numero di strada, nome della via, tipo di strada, numero unità e direzione vengono confrontati utilizzando le seguenti funzioni:

  • Esattezza
  • Equivalenza
  • Corrispondenza iniziali
  • Modifica distanza
  • Non corrispondente
  • Smarrimento dei token
  • Mancante

Il metodo di confronto degli indirizzi include le seguenti risorse:

  • compare_spec_address - Nell'algoritmo generato, il formato del nome di questa risorsa è recordType_entityType_ compare_spec_address.

Confronti telefonici

Gli attributi del numero di telefono vengono confrontati utilizzando le seguenti funzioni:

  • Corrispondenza esatta
  • Modifica distanza
  • Non corrispondente

Il metodo di confronto telefonico include le seguenti risorse:

  • compare_spec_phone - Nell'algoritmo generato, il formato del nome di questa risorsa è recordType_entityType_ compare_spec_phone.

Confronti identificativi

Gli attributi del numero di identificazione vengono confrontati utilizzando le funzioni seguenti:

  • Corrispondenza esatta
  • Modifica distanza
  • Non corrispondente

Il metodo di confronto identificativi include le seguenti risorse:

  • compare_spec_identifier - Nell'algoritmo generato, il formato del nome di questa risorsa è recordType_entityType_ compare_spec_identifier.

Confronti email

Gli attributi email sono composti da due parti: l'ID univoco (prima del simbolo @) e il dominio email (dopo il simbolo @). Sia l'ID che le parti del dominio vengono confrontati, separatamente, utilizzando le seguenti caratteristiche:

  • Corrispondenza esatta
  • Modifica distanza
  • Non corrispondente

Il risultato dei due confronti viene combinato in maniera ponderata per produrre un punteggio di confronto globale.

Il metodo di confronto email include le seguenti risorse:

  • compare_spec_email - Nell'algoritmo generato, il formato del nome di questa risorsa è recordType_entityType_ compare_spec_email.

Confronti sui social media

Gli attributi di gestione dei social media vengono confrontati utilizzando le funzioni riportate di seguito:

  • Corrispondenza esatta
  • Modifica distanza
  • Non corrispondente

Il metodo di confronto dei social media comprende le seguenti risorse:

  • compare_spec_non_phone - Nell'algoritmo generato, il formato del nome di questa risorsa è recordType_entityType_ compare_spec_non_phone.

Modifica distanza

Il motore di corrispondenza IBM Match 360 calcola la modifica della distanza come una delle funzioni interne durante il confronto e la corrispondenza di vari attributi. La distanza di modifica è una misurazione del modo in cui due stringhe sono diverse l'una dall'altra. Viene calcolato contando il numero di modifiche richieste per trasformare una stringa in un'altra.

Esistono diversi modi per definire la distanza di modifica utilizzando diverse serie di operazioni di stringa. Per impostazione predefinita, IBM Match 360 utilizza una funzione di modifica della distanza standard disponibile pubblicamente in letteratura. In alternativa, è possibile scegliere di utilizzare una funzione di modifica della distanza IBM Match 360 .

  • La funzione di modifica della distanza standard fornisce migliori prestazioni del motore corrispondente. Per questo motivo, è la configurazione di comparazione predefinita per tutti gli attributi ad eccezione del tipo di attributo Telefono.

  • La funzione di modifica della distanza specializzata viene creata per i casi di utilizzo con precisione elevata. Questa opzione prende in considerazione errori di battitura o caratteri simili, come 8 e B, 0 e O, 5 e S o 1 e I. Quando vi è una mancata corrispondenza in due valori confrontati basati su caratteri simili, la misura di dissimilarità assegnata è inferiore a quella assegnata da una funzione di modifica della distanza standard. Di conseguenza, questi tipi di mancate corrispondenze non sono penalizzati così fortemente dalla funzione specializzata.

    Importante: la funzione di modifica della distanza include alcuni calcoli complessi. Di conseguenza, la scelta di questa opzione influisce sulle prestazioni del sistema durante il processo di corrispondenza.

Per informazioni sulla personalizzazione dell'algoritmo di corrispondenza, incluso l'utilizzo dell'API per personalizzare la distanza di modifica, consultare Personalizzazione e rafforzamento dell'algoritmo di corrispondenza.

Ulteriori informazioni

Argomento principale Gestione dei dati master

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni