IBM Match 360 with Watson include strumenti che gli utenti di data engineer possono utilizzare per ottimizzare e personalizzare l'algoritmo di corrispondenza. Ottimizzando l'algoritmo, è possibile controllare il modo in cui IBM Match 360 corrisponde ai dati per creare entità di dati master.
- Autorizzazioni richieste
- Per configurare un'istanza di dati master, è necessario essere un membro del gruppo utenti DataEngineer per il servizio IBM Match 360 .
Esistono quattro parti chiave di configurazione e ottimizzazione dell'algoritmo:
Selezione di attributi corrispondenti. Scegliendo gli attributi del modello di dati che vengono confrontati durante il processo di corrispondenza, puoi indicare a IBM Match 360 with Watson quali sono i punti di dati più importanti per il tuo algoritmo. È importante scegliere attributi che siano forti differenziatori. Identificatori univoci come i numeri di patente di guida sono eccellenti attributi di corrispondenza. È necessario selezionare gli attributi corrispondenti prima di eseguire la prima corrispondenza.
Richiesta e completamento delle revisioni delle coppie. Richiedere una revisione di coppia per generare suggerimenti di ottimizzazione intelligenti che ottimizzino i pesi e le soglie di corrispondenza dell'algoritmo. Durante una revisione della coppia, uno steward di dati confronta le coppie di record per determinare se sono una corrispondenza, forse una corrispondenza o meno. Le risposte dello steward dei dati informano i suggerimenti di ottimizzazione risultanti.
Applicazione dei suggerimenti per l'ottimizzazione Una volta completata un'attività di revisione della coppia, un data engineer può decidere se applicare i suggerimenti di ottimizzazione.
Definizione delle soglie di revisione di base e di collegamento automatico. Se si accettano i suggerimenti di ottimizzazione dalle revisioni delle coppie, le soglie di collegamento automatico e di base vengono determinate automaticamente, ma è sempre possibile sovrascrivere le soglie manualmente, se necessario. Ogni confronto di corrispondenza record - record completato da IBM Match 360 genera un punteggio di corrispondenza. Questo punteggio può essere preso come un valore percentuale da 0 a 100, con 0 che è una non - corrispondenza definita e 100 che è una corrispondenza definita. Come parte della configurazione dell'algoritmo di corrispondenza, un data engineer può definire due valori di soglia:
La soglia di collegamento automatico definisce il punteggio di corrispondenza minimo per l'algoritmo per prendere una decisione di corrispondenza automatica tra due record.
- Se la soglia di collegamento automatico è bassa, si avranno più corrispondenze complessive, con più probabili corrispondenze di falsi positivi.
- Se la soglia di collegamento automatico è elevata, si avranno meno corrispondenze complessive e più entità singleton (composte solo da un singolo record membro), con probabilmente più non corrispondenze false negative.
La soglia di revisione di base definisce il punteggio minimo di corrispondenza per una potenziale corrispondenza. I punteggi al di sotto della soglia di revisione di base sono considerati non corrispondenze. I punteggi che rientrano nell'intervallo tra la soglia di revisione di base e la soglia di collegamento automatico possono essere inviati attraverso il flusso di lavoro delle potenziali corrispondenze per essere corretti da un utente steward di dati.
Importante: se l'intervallo di base non è abilitato nelle impostazioni di corrispondenza, il flusso di lavoro delle potenziali corrispondenze non può generare alcuna attività. Per informazioni sul flusso di lavoro delle potenziali corrispondenze, consultare [ Configurazione dei flussi di lavoro dei dati master] (m360-config-workflow.html).
Per informazioni sulle procedure di ottimizzazione dell'algoritmo avanzate che utilizzano l'API REST IBM Match 360 , consultare Ottimizzazione dell'algoritmo di corrispondenza avanzata.
In questo argomento:
- Preparazione dell'ottimizzazione dell'algoritmo di corrispondenza
- Selezione di attributi corrispondenti
- Richiesta di revisioni di coppie e applicazione di suggerimenti per l'ottimizzazione
- Modifica manuale delle soglie di revisione di base e di collegamento automatico
Preparazione per l'ottimizzazione dell'algoritmo di corrispondenza
Se non è stata ancora eseguita la corrispondenza sui dati, è necessario selezionare gli attributi corrispondenti prima di eseguire la corrispondenza. Se necessario, è possibile modificare le selezioni in un secondo momento.
Non è possibile modificare la sensibilità della soglia di link automatico o richiedere revisioni di coppie fino a quando non si esegue la corrispondenza almeno una volta. Questa limitazione garantisce che si disponga di una base di confronto per modificare la propria soglia dalla sensibilità predefinita. Ad esempio, se si notano troppe corrispondenze di falsi positivi nei dati, è possibile aumentare la sensibilità. Se ci sono troppi record singleton, è possibile diminuire la sensibilità.
Prima di modificare le impostazioni dell'algoritmo corrispondente, creare una nuova istantanea di configurazione per salvare le impostazioni correnti. Avere un'istantanea renderà più facile tornare alla configurazione precedente in un secondo momento se non si è soddisfatti dei risultati delle modifiche. Per informazioni sulla creazione di istantanee, consultare Salvataggio e caricamento delle impostazioni di configurazione dei dati master utilizzando le istantanee.
Selezione di attributi corrispondenti
Per selezionare gli attributi utilizzati da IBM Match 360 nell'algoritmo di corrispondenza:
Dal menu di navigazione Dati anagrafici, fare clic su Impostazione partita '.
Selezionare il tipo di entità di cui si vuole sintonizzare l'algoritmo di corrispondenza.
Andare nella scheda Impostazioni di corrispondenza e selezionare Selezione attributo nella barra laterale per selezionare gli attributi da utilizzare nei dati corrispondenti. La prima volta che si accede a questa scheda, IBM Match 360 genera automaticamente alcuni attributi suggeriti dal modello di dati da utilizzare nella corrispondenza.
Rivedere l'elenco degli attributi corrispondenti e i relativi campi componente. Questi attributi e campi verranno utilizzati come base di confronto per confrontare i record e creare entità di dati master. Per aggiungere o rimuovere attributi dall'elenco, fare clic su Modifica attributi quindi selezionare o deselezionare gli attributi e i relativi campi del componente in base alle esigenze.
Quando si scelgono gli attributi corrispondenti, utilizzare l'indicatore Corrispondenza per visualizzare una stima di come le modifiche influenzano l'algoritmo di corrispondenza.
Se sono stati aggiunti attributi personalizzati al modello di dati, non vengono selezionati per la considerazione nella corrispondenza per impostazione predefinita. Se si desidera utilizzare un tipo di attributo personalizzato nella corrispondenza, è necessario selezionarlo e specificare quale dei suoi campi considerare. Se non si specifica alcun campo, l'algoritmo di corrispondenza non può utilizzare l'attributo.
Per tipi di attributi non personalizzati (predefiniti), se non si specificano i campi da considerare, l'algoritmo di corrispondenza utilizza un insieme di campi predefinito.
Quando si è soddisfatti delle modifiche dell'attributo corrispondente, fare clic su Salva.
Rigenerare le entità corrispondenti in base alle impostazioni aggiornate. Fare clic sull'icona di corrispondenza di esecuzione " nella barra delle azioni.
Il completamento del processo di corrispondenza richiede del tempo. Viene eseguito in background in modo da poter continuare a lavorare. Riceverai una notifica quando sarà completo e potrai esaminare i dettagli dei risultati nella scheda Risultati di corrispondenza .
Richiesta di revisioni di coppie e applicazione di consigli di ottimizzazione
Utilizzare le revisioni di coppia per ottimizzare l'algoritmo di corrispondenza. Ogni organizzazione ha diversi livelli di tolleranza al rischio per le false corrispondenze e le revisioni delle coppie possono aiutare a determinare le giuste impostazioni di corrispondenza per te.
Gli ingegneri dei dati possono richiedere che le revisioni delle coppie vengano completate da uno steward di dati e quindi decidere se accettare i consigli di ottimizzazione risultanti.
Per richiedere una revisione di coppia:
Dal menu di navigazione Dati anagrafici, fare clic su Impostazione partita '.
Selezionare il tipo di entità di cui si vuole sintonizzare l'algoritmo di corrispondenza.
Selezionare Ottimizzazione algoritmo nella barra laterale per accedere agli strumenti di ottimizzazione dell'algoritmo.
Nella sezione Revisione coppia , fare clic su Richiedi revisione coppia.
Scegliere il numero di coppie di record che devono essere riesaminate come parte di questa attività. La revisione di più coppie determinerà una migliore ottimizzazione dei suggerimenti. Se viene esaminato un numero troppo basso di coppie, IBM Match 360 non sarà in grado di generare suggerimenti.
Nota: il numero effettivo di coppie generate potrebbe non corrispondere al numero definito in questa fase. Il numero di coppie di record generate dipende dalla disponibilità di dati nel sistema e da altri fattori.Fai clic su Invia richiesta.
IBM Match 360 inizia a generare le coppie di record e a creare l'attività di revisione delle coppie. La sezione Ottimizzazione dell'algoritmo consente di ricevere una notifica dello stato della revisione (Generazione di coppie o Revisione in corso) e tiene traccia dell'avanzamento dell'attività di revisione corrente.
Per informazioni sul completamento di un'attività di revisione della coppia come utente steward di dati, consultare Completamento delle revisioni della coppia.
Per esaminare e applicare i suggerimenti di ottimizzazione generati da una revisione di coppia:
Dal menu di navigazione Dati anagrafici, fare clic su Impostazione partita '.
Selezionare il tipo di entità di cui si vuole sintonizzare l'algoritmo di corrispondenza.
Selezionare Ottimizzazione algoritmo nella barra laterale per accedere agli strumenti di ottimizzazione dell'algoritmo.
Nella sezione Revisione coppia , esaminare l'avanzamento dell'attività di revisione della coppia più recente. È possibile visualizzare il numero totale di coppie esaminate e il numero di coppie che sono state determinate come corrispondenze, non corrispondenze o corrispondenze incerte.
Nella sezione Soglie , esaminare le impostazioni dell'algoritmo di corrispondenza corrente e le stime delle percentuali di falsi positivi e falsi negativi correnti.
Se è stato completato un numero troppo basso di revisioni della coppia o se la corrispondenza non è stata ancora eseguita, non è possibile visualizzare le percentuali di falsi positivi e falsi negativi.
Espandere la sezione Consiglio soglia .
Esaminare gli aggiornamenti consigliati per le impostazioni dell'algoritmo corrispondente. Il consiglio rappresenta la soglia con i tassi di falsi positivi e falsi negativi più bassi, in base alle coppie esaminate.
Se si desidera utilizzare le impostazioni consigliate, fare clic su Applica consiglio. L'applicazione del suggerimento modificherà la sensibilità del collegamento automatico e i pesi corrispondenti associati di ogni attributo.
Rigenerare le entità corrispondenti in base alle impostazioni aggiornate. Passare alla scheda Risultati della corrispondenza, quindi fare clic sull'icona di corrispondenza di esecuzione " nella barra delle azioni.
Il completamento del processo di corrispondenza richiede del tempo. Viene eseguito in background in modo da poter continuare a lavorare. Riceverai una notifica quando sarà completo e potrai esaminare i dettagli dei risultati nella scheda Risultati di corrispondenza .
Modifica manuale delle soglie di revisione di base e di collegamento automatico
Se non si utilizzano le revisioni di coppia per generare i consigli, trovare il corretto collegamento automatico e la sensibilità di revisione di base per le proprie necessità potrebbe richiedere alcuni tentativi. A seconda dei particolari requisiti della propria organizzazione, potrebbe essere necessario ripetere il processo di regolazione della sensibilità e riassociare i dati più di una volta.
La soglia di collegamento automatico totale viene calcolata moltiplicando la sensibilità di collegamento automatico (0-100) per il punteggio di corrispondenza massimo possibile, che viene determinato in base agli attributi di corrispondenza selezionati e ai relativi pesi massimi nell'algoritmo.
Per modificare manualmente la sensibilità delle soglie di revisione di base e di collegamento automatico dell'algoritmo corrispondente:
- Dal menu di navigazione Dati anagrafici, fare clic su Impostazione partita '.
- Selezionare il tipo di entità di cui si vuole sintonizzare l'algoritmo di corrispondenza.
- Selezionare Ottimizzazione algoritmo nella barra laterale per accedere agli strumenti di ottimizzazione dell'algoritmo.
- Esaminare le impostazioni correnti nella sezione Soglie .
- Utilizzare il dispositivo di scorrimento o i valori del numero di tipo per aggiornare le soglie di revisione di base e di collegamento automatico, quindi fare clic su Applica soglia. Verrà richiesto di eseguire la corrispondenza per applicare le proprie modifiche di algoritmo.
- Facoltativamente, è possibile disabilitare l'intervallo di revisione di base utilizzando l'interruttore di attivazione / disattivazione Intervallo di clonazione . Se l'intervallo di base è disabilitato, l'algoritmo può solo prendere decisioni di corrispondenza o di mancata corrispondenza e non può accodare attività di corrispondenza potenziali per gli steward di dati da correggere.
- Rigenerare le entità corrispondenti in base alle impostazioni aggiornate. Passare alla scheda Risultati della corrispondenza, quindi fare clic sull'icona di corrispondenza di esecuzione " nella barra delle azioni.
Il completamento del processo di corrispondenza richiede del tempo. Viene eseguito in background in modo da poter continuare a lavorare. Riceverai una notifica quando sarà completo e potrai esaminare i dettagli dei risultati nella scheda Risultati di corrispondenza .
Passi successivi
Ulteriori informazioni
- IBM Match 360 with Watson algoritmi di corrispondenza
- Esplorazione dei dati master
- Gestione dei dati master
Argomento principale Configurazione dei dati master