Assegnazione termine automatica
L'assegnazione automatica dei termini è il processo di associazione automatica dei termini di business agli asset di dati e alle colonne di asset come parte dell'arricchimento dei metadati.
Oltre ai termini di business assegnati automaticamente, è anche possibile assegnare i termini manualmente modificando le proprietà dell'asset di dati in un progetto o in un catalogo o quando si utilizzano i risultati dell'arricchimento.
Se l'assegnazione termine automatica è configurata come parte dell'arricchimento dei metadati, tali assegnazioni vengono generate da diversi metodi. Questi metodi generano anche suggerimenti per i termini da assegnare.
I termini vengono assegnati in base al livello di confidenza. Inizialmente, queste associazioni sono rappresentate come candidati che gli esperti di dominio e gli steward possono esaminare e assegnare manualmente. La confidenza per un termine assegnato o suggerito viene visualizzata come valore percentuale. Questo valore rappresenta la confidenza generale. Consultare Come viene calcolata la confidenza generale. Il livello di sicurezza per quando un termine viene suggerito o assegnato automaticamente è determinato dalle impostazioni di arricchimento del progetto. Il livello di affidabilità predefinito da superare è il 75% per i suggerimenti dei termini e il 90% per l'assegnazione automatica dei termini candidati. Vedi Impostazioni di arricchimento predefinite. Un amministratore del progetto può personalizzarle.
È possibile assegnare solo termini di business pubblicati. I termini assegnati non influenzano l'assegnazione della classe dati.
Qualità delle assegnazioni dei termini
Per ottenere assegnazioni di termini di alta qualità, considerare i seguenti suggerimenti:
Assicurati che le categorie che vuoi utilizzare nell'arricchimento dei metadati includano solo le risorse di governance pertinenti. È possibile che si desideri considerare questo aspetto già quando si imposta il vocabolario di business.
Provare con le soglie di assegnazione termine. La modifica delle soglie può avere un impatto enorme sul numero di termini assegnati. Trovare la soglia in cui il numero di falsi positivi è basso e non vengono persi troppi veri positivi.
Analizzare alcuni dei falsi positivi per trovare un modello o un motivo valido per cui questi termini sono stati suggeriti o assegnati. Se la maggior parte dei falsi positivi può essere attribuita a un algoritmo specifico, considerare la disabilitazione di tale algoritmo nelle impostazioni di arricchimento e rieseguire l'assegnazione del termine. Verificare se ciò riduce il numero di falsi positivi.
Assicurarsi di preparare il modello ML su un catalogo in cui si pubblicano solo le assegnazioni dei termini attentamente esaminate. Preferibilmente, dedicare un catalogo all'addestramento del modello.
Per l'assegnazione dei termini in base ai metadati o ai dati delle colonne, creare relazioni tra termini e classi di dati. Assicurarsi che le classi di dati utilizzate non producano falsi positivi.
Metodi di assegnazione dei termini
È possibile utilizzare tutti o un sottoinsieme dei metodi di assegnazione termine disponibili.
Corrispondenza nome
Il metodo di corrispondenza dei nomi basa il suo risultato sulla similarità tra il nome o le abbreviazioni del termine e il nome dell'asset o della colonna di dati. Ad esempio, una colonna CREDNUM potrebbe essere associata a un termine Numero carta di credito a causa della somiglianza tra i due nomi. La corrispondenza dei nomi corrisponde solo ai nomi degli asset di dati e delle colonne con i nomi dei termini e le abbreviazioni. Le descrizioni non vengono considerate. L'assegnazione dei termini basata su ML gestisce nomi e descrizioni.
Basato sull'assegnazione della classe di dati
Il metodo di assegnazione basato sulla classe genera assegnazioni basate sulla classificazione dei dati. Se una classe di dati è stata selezionata per una colonna di asset come risultato dell'analisi della colonna o manualmente, e se questa classe di dati è collegata a uno o più termini di business, tali termini vengono suggeriti o assegnati se superano le rispettive soglie. Il livello di confidenza del termine è uguale alla confidenza della classe di dati a cui è collegato il termine. Ad esempio, è probabile che una colonna COL1 classificata come un indirizzo email con una confidenza del 90% venga assegnata al termine Indirizzo e-mail se la classe di dati e il termine sono collegati. Poiché non esiste alcuna similarità tra il nome della colonna e il termine, il metodo di corrispondenza del nome non è in grado di creare questa associazione.
Per abilitare il metodo di assegnazione basato sulla classe, è importante esaminare il collegamento da classe di dati a termine prima di eseguire l'assegnazione del termine, poiché il collegamento appropriato è un prerequisito importante per risultati di alta qualità.
Machine learning
Il metodo di machine learning (ML) per la generazione di assegnazioni termine utilizza i modelli di machine learning supervisionati integrati. Questi modelli comprendono un modello per le assegnazioni termine e uno per le rimozioni termine.
I modelli ML vengono addestrati in base ai termini pubblicati e alle assegnazioni dei termini presenti nei dati di addestramento in un progetto o in un catalogo. Vedi Training data for machine learning models. Se non sono disponibili assegnazioni di termini, la formazione per il modello di assegnazione di termini si concentra sulla somiglianza linguistica delle parole nei nomi e nelle descrizioni dei termini e delle colonne o degli asset di dati. I termini possono essere assegnati in base a tale somiglianza. Con un numero crescente di assegnazioni revisionate, i termini possono essere assegnati indipendentemente dalla similarità linguistica perché le assegnazioni dei termini sulle colonne con caratteristiche simili diventano disponibili.
Assegnazione dei termini basata sull'AI generativa
Questo metodo utilizza un modello di fondazione IBM Slate ottimizzato per assegnare e suggerire termini aziendali specifici del dominio. Il modello prende in considerazione i nomi e le descrizioni degli asset e delle colonne e corrisponde semanticamente i termini con tali metadati. Pertanto, i termini possono essere assegnati anche se non sono corrispondenze esatte.
Termini rifiutatati
Quando si esaminano le assegnazioni dei termini nei risultati dell'arricchimento dei metadati, è possibile che si trovino termini che non si ritengono accurati per un asset di dati. È possibile rimuovere tali termini fornendo un feedback negativo. Tali termini sono considerati rifiutati. Se l'ambito di formazione è il progetto, i punteggi di affidabilità delle assegnazioni termine possono essere adattati in base a questi termini rifiutati quando si riesegue l'assegnazione termine automatica. I singoli valori di confidenza restituiti da ciascun metodo di assegnazione termine selezionato vengono corretti da questo valore di confidenza negativo per calcolare il punteggio di confidenza globale di un termine. Consultare Come viene calcolato il punteggio di confidenza generale.
Dati di addestramento per i modelli di machine learning
Per ciascun progetto, è possibile definire nelle impostazioni di arricchimento predefinite se il modello ML integrato utilizzato per l'assegnazione automatica dei termini viene addestrato con gli asset del progetto o con gli asset di un catalogo di propria scelta. La regolazione dei punteggi di confidenza in base ai rifiuti è disponibile solo se l'ambito di formazione è il progetto.
L'impostazione predefinita è di addestrare i modelli all'interno del progetto. In questo caso, i modelli vengono addestrati con qualsiasi termine di business pubblicato e con eventuali assegnazioni o rifiuti di termini disponibili sulle colonne contrassegnate come revisionate nel progetto.
Quando si seleziona un catalogo come ambito di formazione, il modello per le assegnazioni termine viene addestrato con i termini di business pubblicati e le assegnazioni termine disponibili nel catalogo selezionato. Il modello per i rifiuti di termini non può essere addestrato con asset da un catalogo.
Quando vengono addestrate le modelle?
Il training del modello per i modelli ML integrati viene attivato quando viene avviato un lavoro di arricchimento dei metadati e si verifica una delle seguenti condizioni:
Nessun modello è ancora disponibile.
È stato creato un nuovo termine di business o è stato aggiornato un termine esistente dall'ultimo training del modello. Il termine non deve essere assegnato ad alcun asset o colonna.
Progetto di ambito di addestramento: almeno 21 colonne sono state contrassegnate come revisionate dall'ultimo addestramento del modello.
Catalogo dell'ambito di addestramento: le assegnazioni su almeno 21 colonne nel catalogo selezionato sono state modificate perché i termini sono stati assegnati o rimossi dall'ultimo addestramento del modello.
L'ultimo addestramento non è stato completato con successo o entro un periodo di tempo ragionevole.
Se non sono disponibili informazioni sui rifiuti dei termini sul primo utilizzo del modello per le regolazioni del punteggio di affidabilità, l'addestramento iniziale per questo modello avviene in seguito, il che significa che viene inizialmente addestrato quando le informazioni sui termini rifiutati sono disponibili su un ciclo di addestramento del modello successivo.
Come viene calcolata la confidenza generale
Un metodo che associa un termine a un asset di dati calcola una confidenza, che è un valore numerico compreso tra un minimo configurabile e 1. Il valore minimo è definito dalla soglia di suggerimento per l'assegnazione del termine che può essere configurato nelle impostazioni di arricchimento predefinite.
La confidenza per un termine assegnato o suggerito viene visualizzata come valore percentuale. Questo valore rappresenta la confidenza generale. La confidenza globale è il massimo dei valori di confidenza restituiti dai metodi di assegnazione dei termini selezionati e potrebbe essere regolata da qualsiasi valore di confidenza negativo restituito dal modello ML per le rimozioni dei termini.
È possibile scegliere se i valori di confidenza restituiti dai metodi di assegnazione dei termini selezionati vengono modificati in base ai termini di business precedentemente rifiutati.
Esempio:
Supponendo che tutti i metodi siano abilitati, i valori di confidenza per una colonna ADDRESS e il termine Home Address:
Name matching: 0.5
Class-based assignment: 0.4
ML-based assignment: 0.3
Semantic assignment: 0.5
ML model for rejections: -0.4
Il valore di confidenza effettivo per ogni metodo viene calcolato sottraendo il valore di confidenza restituito per i termini rifiutati:
Name matching: 0.5 - 0.4 = 0.1
Class-based assignment: 0.4 - 0.4 = 0
ML-based assignment: 0.3 - 0.4 = -0.1
Semantic assignment: 0.5 - 0.4 = 0.1
La confidenza complessiva è 0.1 perché è il valore più alto calcolato per un metodo.
Se lo stesso valore di confidenza per un termine viene calcolato per diversi metodi, solo uno viene assegnato automaticamente. L'ordine in cui viene selezionato tale termine è il seguente:
- Termine trovato dal metodo di assegnazione basato sulla classe di dati
- Termine trovato dal metodo di assegnazione del termine semantico
- Termine trovato dal metodo ML
- Termine trovato dal metodo di corrispondenza nome
Come i nuovi risultati dell'analisi aggiornano le assegnazioni termine esistenti
Quando si riesegue un arricchimento, un nuovo risultato dell'analisi aggiorna le assegnazioni termine nel modo seguente:
Tipo di assegnazione termine | La colonna o l'asset di dati è stato revisionato | La colonna o l'asset di dati non viene revisionato |
---|---|---|
Termini assegnati manualmente | I termini rimangono invariati. | I termini rimangono invariati. |
Termini rifiutatati | I termini rimangono invariati. | I termini rimangono invariati. |
Termini suggeriti | I termini vengono eliminati e sostituiti con i nuovi termini suggeriti. | I termini vengono eliminati e sostituiti con i nuovi termini suggeriti. |
Termini assegnati automaticamente | I termini esistenti rimangono invariati. I termini appena rilevati vengono aggiunti come termini suggeriti. | Le assegnazioni termine esistenti vengono aggiornate. |
Ulteriori informazioni
Argomento principale Risultati dell'arricchimento dei metadati