Quando si arricchiscono i metadati delle risorse, è necessario decidere quali risorse di dati arricchire, quale tipo di metadati aggiungere e se pianificare i lavori di arricchimento.
In genere, l'arricchimento dei metadati fa parte di un piano di gestione dati più ampio. Ad esempio, dopo aver importato i metadati per gli asset di dati, è possibile aggiungere metadati aziendali agli asset di dati importati, identificare le relazioni tra gli asset ed è possibile eseguire l'analisi della qualità dei dati di questi asset. Infine, è possibile pubblicare gli asset di dati completati in un catalogo da condividere con l'organizzazione. Prima di progettare il tuo arricchimento dei metadati, assicurati di capire le implicazioni delle tue scelte per il tuo piano di cura generale. Vedere Pianificazione della cura.
- Configurazione del progetto
- Ambito dell'arricchimento
- Obiettivi di arricchimento
- Selezione categorie
- Campionamento
- Pianificazione arricchimento
Configurazione del progetto
Selezionare o creare il progetto in cui si desidera lavorare. Ricordate che i progetti contrassegnati come sensibili non consentono la pubblicazione nei cataloghi o il download dei dati. Pertanto, non sono adatti se si desidera condividere le risorse arricchite o scaricare i risultati per rivederli in un foglio di calcolo.
L'amministratore del progetto può definire le impostazioni di arricchimento predefinite che si applicano a tutti gli arricchimenti di metadati nel progetto selezionato. Puoi sovrascrivere alcune di queste impostazioni quando crei o modifichi il tuo arricchimento dei metadati.
Campo di applicazione dell'arricchimento
Di solito, il primo passo per arricchire i metadati è selezionare i dati che si desidera arricchire. È possibile arricchire gli asset di dati relazionali e strutturati.
L'arricchimento dei metadati viene eseguito sugli asset che sono disponibili nel progetto. Pertanto, l'elenco degli asset arricchiti nei risultati dell'arricchimento potrebbe non corrispondere all'ambito configurato degli asset di importazione dei metadati inclusi nei seguenti casi:
- Metadata import non era ancora completa quando è stato avviato l'arricchimento.
- Metadata import non riuscita per una serie di asset o non riuscita completamente.
Ambito dati iniziale
L'elenco Asset di dati mostra tutti gli asset dei formati supportati. È possibile arricchire gli asset di dati relazionali e strutturati. È possibile selezionare singoli asset, ma è anche possibile selezionare asset di importazione metadati per arricchire l'intera serie di asset di dati da tali importazioni di metadati. Tuttavia, non puoi selezionare gli asset di dati o le importazioni di metadati già inclusi in un arricchimento dei metadati. Per i singoli asset di dati, è possibile passare il puntatore del mouse sul nome dell'asset per vedere in quale arricchimento dei metadati è incluso l'asset.
Un asset di importazione dei metadati viene automaticamente escluso dall'ambito di selezione nei seguenti casi:
Ha un catalogo come destinazione di importazione.
È stato eseguito su una connessione che non supporta l'accesso ai dati effettivi.
Consultare la sezione Importazione di metadati.
Nota: ogni asset di dati o importazione di metadati può essere incluso in un solo arricchimento di metadati per progetto. Se si desidera arricchire un asset di dati più volte con opzioni di arricchimento differenti, è necessario farlo in progetti separati.
Se una delle connessioni per gli asset di dati selezionati è configurata per utilizzare le credenziali personali anziché condivise, è necessario sbloccare tale connessione prima di poter continuare.
È anche possibile creare un asset di arricchimento metadati vuoto e impostare l'ambito in un secondo momento.
Portata delle rierune dell'arricchimento
Per le riesecuzioni dell'arricchimento, sia pianificate che eseguite manualmente, l'ambito dati può essere costituito da tutti gli asset dell'ambito dati inizialmente selezionato o da un sottoinsieme di asset. L'opzione predefinita è Asset nuovi e modificati e asset non arricchiti nell'esecuzione precedente. Con questa opzione, gli asset vengono selezionati per l'arricchimento come segue:
- Asset aggiunti dopo l'ultima esecuzione dell'arricchimento
- Asset in cui le colonne sono state aggiunte o rimosse dopo l'ultima esecuzione dell'arricchimento
- Asset in cui le descrizioni di asset o colonne sono state modificate dopo l'ultima esecuzione dell'arricchimento
- Asset per cui l'arricchimento precedente non è riuscito o è stato annullato
L'arricchimento viene sempre eseguito sull'intero asset di dati indipendentemente dal fatto che un asset sia nuovo o modificato.
Il registro delle esecuzioni dei lavori mostra le ripetizioni degli arricchimenti di metadati configurati con l'ambito di dati limitato come esecuzioni di lavori di arricchimento di metadati delta.
Obiettivi di arricchimento
È possibile scegliere tra questi obiettivi di arricchimento:
- Dati del profilo
- Espandi metadati
- Assegna termini e classificazioni
- Esegui analisi della qualità di base
- Imposta relazioni
Dati del profilo
Genera statistiche di base sul contenuto dell'asset, assegna e suggerisce classi di dati.
Questo tipo di profilazione è veloce, ma fa alcune approssimazioni per alcune metriche come la distribuzione della frequenza e l'unicità. Per ottenere risultati più esatti senza approssimazioni, eseguire la creazione di profili avanzata sugli asset di dati selezionati. Vedere Advanced data profiling. Per ulteriori informazioni sulle statistiche, consultare Risultati dettagliati della creazione profili.
Le classi di dati descrivono il contenuto dei dati nella colonna: ad esempio, la città, il numero di conto o il numero della carta di credito. Le classi di dati possono essere utilizzate per mascherare i dati con le regole di protezione dei dati o per limitare l'accesso agli asset di dati con le politiche. Inoltre, possono contribuire alle assegnazioni termine se esiste una classe di dati corrispondente al collegamento termine.
La confidenza di una classe di dati è la percentuale di valori non null che corrispondono alla classe di dati. Il punteggio di confidenza per una classe di dati da assegnare o consigliare deve essere almeno uguale alla soglia impostata. Vedere Impostazioni assegnazione classe dati. Se una soglia è impostata direttamente su una classe di dati, questa soglia ha la precedenza quando vengono assegnate le classi di dati. Non è considerato per suggerimenti. Oltre al punteggio di affidabilità, viene presa in considerazione la priorità di una classe di dati.
Diverse classi di dati sono identificativi più generici che vengono rilevati e assegnati a livello di colonna. Queste classi di dati vengono assegnate quando non è stato possibile identificare una classe di dati più specifica a un livello di valore. Gli identificatori generici hanno sempre una confidenza del 100% e comprendono le seguenti classi di dati: codice, identificatore, indicatore, quantità e testo.
Le chiavi primarie a colonna singola sono suggerite in base alle statistiche di creazione profili. Se i vincoli della chiave primaria e della chiave esterna sono già definiti nei dati e queste informazioni sono incluse nell'importazione dei metadati, queste chiavi vengono assegnate automaticamente.
Dai risultati dell'arricchimento, puoi eseguire un'analisi della chiave primaria a più colonne in cui vengono controllati i dati effettivi. Per ulteriori informazioni, vedi Identificazione delle chiavi primarie.
Espandi metadati
Generare nomi e descrizioni semantiche per le risorse e le colonne di dati. I nomi esistenti nella fonte vengono ampliati in base ai metadati raccolti e a un glossario predefinito, utilizzando il fuzzy matching e confrontando i nomi con le abbreviazioni dei termini commerciali nelle categorie selezionate per l'arricchimento. Se il nome dell'asset o della colonna nell'origine può essere abbinato a un'abbreviazione del termine commerciale, il termine commerciale corrispondente viene utilizzato come nome visualizzato. L'intelligenza artificiale generativa viene utilizzata per fornire descrizioni basate sui nomi espansi, sulle colonne circostanti e sul contesto delle risorse di dati. Utilizzare questa opzione per fornire nomi alternativi più semplici da utilizzare rispetto ai nomi originali, spesso molto tecnici. Le descrizioni generate dall'intelligenza artificiale possono aiutare a capire il contenuto, specialmente quando le descrizioni delle colonne o degli asset di dati mancano nell'origine dati. Le soglie di assegnazione e suggerimento sono definite nelle impostazioni di arricchimento predefinite.
Assegna termini e classificazioni
Assegnate automaticamente i termini aziendali alle colonne e agli interi asset, oppure suggerite i termini aziendali da assegnare manualmente. Tali assegnazioni o suggerimenti vengono generati da una serie di servizi. Vedere Assegnazione automatica dei termini.
A seconda dei servizi di assegnazione dei termini attivi per il proprio progetto, l'assegnazione dei termini potrebbe richiedere la creazione di profili.
Inoltre, è possibile assegnare classificazioni alle risorse e alle colonne di dati in base a termini e classi di dati assegnati automaticamente. L'assegnazione della classificazione deve essere abilitata nelle impostazioni di arricchimento predefinite. L'assegnazione della classificazione in base alle classi di dati richiede anche la profilazione.
Esegui analisi della qualità di base
Eseguire controlli di qualità dei dati predefiniti sulle colonne di un asset di dati. La serie di controlli applicata è definita nelle impostazioni di arricchimento. Vedere Impostazioni di analisi di base della qualità. Ogni controllo può contribuire ai core di qualità dei dati complessivi dell'asset. Questo tipo di analisi della qualità dei dati può essere eseguito solo in combinazione con la creazione profili. Pertanto, l'opzione Dati profilo viene automaticamente selezionata quando si sceglie di analizzare la qualità dei dati.
È possibile scegliere se si desidera scrivere l'output di questi controlli in un database. Se le impostazioni predefinite esistono, le sezioni vengono popolate di conseguenza. È possibile sovrascrivere le impostazioni. Se non esistono impostazioni predefinite, configurare l'emissione e l'ubicazione di emissione. Per informazioni su quali origini dati sono supportate come destinazione di output, consultare la colonna Tabelle di output in Origini dati supportate. I nomi di schema e tabella devono seguire questa convenzione:
- Il primo carattere del nome deve essere un carattere alfabetico.
- Il resto del nome può essere costituito da caratteri alfabetici, numerici o di sottolineatura.
- Il nome non deve contenere spazi.
Se si sceglie di scrivere le eccezioni o le righe in cui sono stati rilevati i problemi (record di eccezioni) nelle tabelle esistenti, assicurarsi che queste tabelle abbiano il formato richiesto. Vedere Output di qualità dei dati.
Se la connessione scelta è bloccata, viene richiesto di immettere le credenziali personali. Questo è un passo da eseguire una sola volta che sblocca in modo permanente la connessione.
Imposta relazioni
Utilizza le statistiche di creazione profili e le similitudini di nomi tra le colonne per fornire chiavi primarie ed esterne e per suggerire o assegnare relazioni tra asset e colonne. Vengono applicate le impostazioni di arricchimento predefinite per le relazioni chiave. Questo tipo di analisi di relazione richiede la creazione di profili.
Valutare la qualità dei dati con le regole SLA
Verifica se la qualità dei dati è conforme agli accordi sul livello di servizio della qualità dei dati definiti. Le regole SLA sulla qualità dei dati definiscono le soglie di qualità dei dati per gli asset di dati o le colonne all'interno degli asset di dati. Con questa opzione di arricchimento, gli asset di dati all'interno dell'arricchimento dei metadati vengono verificati rispetto ai criteri di selezione delle regole SLA sulla qualità dei dati. Se gli asset di dati o le singole colonne corrispondono ai criteri di selezione di una regola SLA sulla qualità dei dati, la loro qualità viene verificata in base alle soglie di qualità definite in quella regola SLA.
Come risultato di un arricchimento eseguito con questa opzione, viene generato un rapporto di conformità agli SLA per ogni asset di dati nell'arricchimento, indipendentemente dalla violazione delle condizioni delle regole SLA sulla qualità dei dati. I rapporti di conformità agli SLA fanno parte delle informazioni sulla qualità di un asset di dati, disponibili nei risultati dell'arricchimento o nella pagina Qualità dei dati dell'asset in un progetto.
A seconda della configurazione di una regola SLA di qualità dei dati, potrebbe essere avviato un workflow di correzione della qualità dei dati se una risorsa di dati viola tale regola.
Se si combina questo obiettivo con altri obiettivi, si applicano le seguenti considerazioni:
- Se è stato selezionato anche l'obiettivo Profilo dei dati, la valutazione SLA della qualità dei dati viene eseguita solo se la profilazione è stata completata con successo.
- Se è stato selezionato anche l'obiettivo Assegnazione di termini e classificazioni, la valutazione SLA della qualità dei dati viene eseguita solo se l'assegnazione dei termini è stata completata con successo. Poiché l'incarico a termine richiede la profilazione dei dati, anche la profilazione deve essere stata completata con successo.
È possibile eseguire l'arricchimento dei metadati con l'unico obiettivo di valutare la qualità dei dati SLA. Tuttavia, prima di fare ciò, confermate che le risorse di dati o le colonne nell'ambito di arricchimento abbiano termini assegnati e un punteggio di qualità dei dati. Inoltre, in questo caso l'ambito dei dati delle repliche deve essere impostato su Tutti gli asset di dati.
Selezione categorie
Selezionare le categorie per determinare le classi di dati e i termini di business che possono essere applicati durante l'arricchimento. Un amministratore del progetto potrebbe aver limitato la serie di categorie tra cui scegliere quando si crea un arricchimento. Questa limitazione non si applica quando modifichi l'arricchimento. In ogni caso, è possibile scegliere solo tra le categorie in cui si è un collaboratore con almeno il ruolo Visualizzatore .
Selezionare solo le categorie con risorse utente di governance rilevanti per il proprio caso d'uso.
Questa selezione si applica solo alle assegnazioni e ai suggerimenti automatici. Quando si assegnano manualmente termini o classi di dati, è possibile scegliere tra tutte le categorie a cui si ha accesso.
Le modifiche alla serie di categorie da cui scegliere o la selezione della categoria effettiva diventano effettive con la successiva esecuzione dell'arricchimento. Tuttavia, le assegnazioni esistenti rimangono invariate.
Se il tuo accesso a una delle categorie selezionate viene revocato dopo aver eseguito l'arricchimento dei metadati e non apporta alcuna modifica all'arricchimento, qualsiasi riesecuzione considera ancora tutte le categorie selezionate per le assegnazioni di classe dati e termine.
Campionamento
È possibile scegliere tra questi tipi di campionamento:
- Base
Il campionamento di base funziona con la dimensione del campione più piccola possibile per velocizzare il processo: vengono analizzate 1.000 righe per tabella e la classificazione viene eseguita in base ai 100 valori più frequenti per colonna.
- Moderato
Il campionamento moderato funziona con una dimensione del campione di medie dimensioni per fornire risultati ragionevolmente precisi senza richiedere troppo tempo: vengono analizzate 10.000 righe per tabella e la classificazione viene eseguita in base ai 100 valori più frequenti per colonna.
- Completo
Il campionamento completo funziona con una grande dimensione del campione per fornire risultati più accurati: vengono analizzate 100.000 righe per tabella e la classificazione tiene conto di tutti i valori per colonna. Tuttavia, questo metodo è dispendioso in termini di tempo e risorse.
- Personalizzato
Definire il metodo di campionamento, la dimensione del campione e la base per la classificazione:
Scegliere tra campionamento sequenziale e casuale. Con il campionamento sequenziale, le prime righe di un dataset vengono selezionate in ordine sequenziale. Con il campionamento casuale, le righe da includere sono selezionate casualmente. Per entrambi i metodi, il numero massimo di righe da selezionare è determinato dalla dimensione del campione definito.
Il campionamento casuale è disponibile solo per gli asset di dati dalle origini dati che supportano questo tipo di campionamento. Per ulteriori informazioni, vedere Concetti di campionamento casuale.
Definire la dimensione massima del campione. È possibile impostare un numero fisso di righe o specificare la percentuale di righe nel dataset che si desidera analizzare. Se si definisce la dimensione del campione come un valore percentuale, è possibile facoltativamente impostare il numero minimo e massimo di righe che il campione può includere. È possibile impostare questi valori quando non si conosce la dimensione dei dataset da analizzare. Il numero o la percentuale di righe selezionate per l'esempio può solo approssimare il valore specificato.
Selezionare se si desidera che una classe di dati venga assegnata in base a tutti i valori in una colonna o ai valori più frequenti in una colonna in cui è possibile specificare il numero di valori da prendere in considerazione.
Il campionamento di base, moderato o completo è sequenziale e inizia nella parte superiore della tabella. Per sopprimere il campionamento, utilizzare il campionamento personalizzato configurato con il campionamento casuale e una dimensione del campionamento del 100%.
Opzioni di pianificazione
Se l'ambito dei dati include risorse di importazione dei metadati, la pagina Schedule fornisce informazioni sulle pianificazioni configurate dei rispettivi lavori di importazione dei metadati. Queste informazioni ti aiutano a coordinare la tua pianificazione dell'arricchimento con qualsiasi pianificazione di importazione.
Esegui definizione
Definire quando viene eseguito l'arricchimento dei metadati. È possibile selezionare nessuna, una o entrambe le opzioni:
- Esegui dopo la creazione del lavoro
Selezionare questa opzione per eseguire l'arricchimento di metadati quando si salva un arricchimento di metadati appena creato. Altrimenti, l'asset di arricchimento dei metadati viene salvato, ma non viene avviata l'esecuzione del lavoro.
- Esegui in base a una pianificazione
Selezionare questa opzione per eseguire l'arricchimento secondo una pianificazione. È possibile pianificare esecuzioni singole e ricorrenti. Definire la data e l'ora di inizio della pianificazione. Se si pianifica una singola esecuzione, il lavoro viene eseguito esattamente una volta al giorno e all'ora specificati.
Per pianificare esecuzioni ricorrenti, selezionare Ripeti il lavoro e la frequenza con cui si desidera eseguire il lavoro di arricchimento. Se si seleziona Minuto, Orario o Giornaliero, è possibile escludere alcuni giorni della settimana dalla pianificazione. Opzionalmente, è possibile impostare una data e un'ora di fine per la pianificazione del lavoro. Per le esecuzioni ricorrenti, il lavoro viene eseguito per la prima volta al timestamp calcolato in base alle impostazioni della sezione Ripeti il lavoro.
Indipendentemente dalla definizione della corsa, è possibile attivare manualmente una corsa del lavoro di arricchimento dei metadati in qualsiasi momento.
Se le finestre di esecuzione dei lavori sono configurate per un progetto, le esecuzioni dei lavori di arricchimento dei metadati sono limitate ai tempi configurati. Le esecuzioni dei lavori inizieranno come richiesto, cioè su richiesta, dopo la creazione dell'asset di arricchimento dei metadati, o in base alla pianificazione definita, ma verranno messe in pausa immediatamente se la data e l'ora di inizio sono al di fuori di una finestra di esecuzione e riprenderanno quando si aprirà la successiva finestra di esecuzione del lavoro. Gli arricchimenti di metadati di lunga durata possono essere messi in pausa e ripresi più volte.
Per ulteriori informazioni, vedere Gestione della pianificazione dei lavori di arricchimento.
Ulteriori informazioni
Passi successivi
Argomento principale: Gestione dell'arricchimento dei metadati