Quando si importano metadati, è necessario decidere quale tipo di metadati importare, la destinazione e l'ambito dell'importazione, se pianificare i job di importazione e come si desidera personalizzare il comportamento dell'importazione.
- Obiettivi di importazione
- Importa destinazione
- Origine dei dati
- Ambito dell'importazione
- Opzioni di pianificazione
- Fasi di importazione del lignaggio
- Opzioni di importazione avanzate
Obiettivi di importazione
Il primo passo per importare i metadati è definire gli obiettivi dell'importazione. È necessario decidere quale tipo di metadati importare e se si desidera lavorare con le risorse importate in un progetto o pubblicarle direttamente in un catalogo.
In genere, l'importazione dei metadati fa parte di un piano di gestione dati più ampio. Ad esempio, dopo aver importato i metadati per gli asset di dati, è possibile aggiungere metadati aziendali agli asset di dati importati eseguendo l'arricchimento dei metadati. È inoltre possibile eseguire le regole di qualità dei dati. Infine, è possibile pubblicare gli asset di dati completati in un catalogo da condividere con l'organizzazione. Prima di progettare l'importazione dei metadati, assicurati di comprendere le implicazioni delle tue scelte per il tuo piano di cura generale. Vedere Pianificazione della cura.
Ad esempio, un tipico processo di curation per gli asset di dati include le seguenti attività:
- Eseguire l'importazione dei metadati con l'opzione Importa metadati delle risorse per aggiungere le risorse di dati a un progetto.
- Eseguire l'arricchimento dei metadati sugli asset di dati per creare il profilo dei dati, per eseguire l'analisi della qualità dei dati di base e fornire il contesto di business tramite l'assegnazione dei termini.
- Eseguire le regole di qualità dei dati sugli asset.
- Pubblicare gli asset in catalogo.
- Eseguire l'importazione dei metadati per gli stessi asset di dati con l'opzione Importa metadati di lignaggio per aggiungere informazioni di lignaggio a questi asset nel catalogo.
È possibile aggiungere altri tipi di asset direttamente a un catalogo perché l'arricchimento dei metadati e la valutazione della qualità dei dati non sono applicabili. È possibile scegliere entrambe le opzioni Importa metadati delle risorse e Importa metadati del lignaggio per importare simultaneamente i metadati tecnici e del lignaggio delle risorse mentre si aggiungono tali risorse a un catalogo.
È possibile scegliere tra i seguenti modi di importazione:
- Importazione dei metadati delle risorse
- I metadati tecnici degli asset forniscono informazioni sui dettagli degli asset, sulle relazioni e sull'anteprima degli asset. È possibile aggiungerlo a un progetto per un'ulteriore elaborazione, oppure pubblicarlo in un catalogo subito dopo l'importazione.
- Importazione dei metadati del lignaggio
- I metadati di lineage forniscono informazioni sul flusso dei dati, da dove provengono, come cambiano e dove si spostano nel tempo. I metadati del lignaggio sono memorizzati nel repository del lignaggio.
Before you can import lineage metadata, you must configure data lineage. Per ulteriori informazioni, vedere Configurazione del lignaggio dei dati.
Importa destinazione
È possibile importare i metadati nel progetto in cui si sta lavorando o in qualsiasi catalogo in cui si ha un ruolo di editor o di amministratore.
Progetti
Nei progetti, è possibile eseguire regole di arricchimento dei metadati e di qualità dei dati sulle risorse di dati. Gli asset di dati importati vengono pubblicati in un catalogo una volta soddisfatti delle assegnazioni dei metadati di business e della qualità dei dati.
Le informazioni sulla discendenza sono disponibili nei cataloghi e nei progetti. Le informazioni sul lignaggio sono disponibili nei progetti solo se le risorse sono state importate con l'Metadata import
Se il progetto è contrassegnato come sensibile, è possibile importare i metadati solo nel progetto, non in un catalogo. Per ulteriori informazioni, vedere Contrassegno di un progetto come sensibile.
Cataloghi
Se si conosce bene il contenuto degli asset di dati e non si desidera eseguire l'arricchimento dei metadati o le regole di qualità dei dati, è possibile importare i metadati direttamente nel catalogo. Al termine dell'importazione, le risorse sono disponibili pubblicamente nel catalogo selezionato.
È possibile importare i metadati in qualsiasi catalogo per il quale si ha un ruolo di editor o di amministratore, tranne quando il catalogo fa parte di un progetto contrassegnato come sensibile.
Se si esegue l'importazione in un catalogo, assicurarsi che il catalogo di destinazione abbia la gestione degli asset duplicati impostata per aggiornare gli asset originali invece di consentire gli asset duplicati. Vedere Gestione di asset duplicati.
Se si desidera che le regole di protezione dei dati vengano applicate agli asset di dati importati, è necessario selezionare un catalogo gestito come destinazione di importazione.
Origine dati
Per l'elenco delle fonti di dati supportate, vedere Fonti di dati supportate per la cura e la qualità dei dati.
Per collegarsi all'origine dati, è necessario specificare i seguenti dettagli:
Definizione della fonte dei dati. È obbligatorio quando si importano i metadati del lignaggio e facoltativo quando si importano i metadati delle risorse. Viene utilizzato per identificare in modo univoco un'origine dati utilizzando gli endpoint. Gli endpoint includono informazioni quali il nome host o l'indirizzo IP, il numero di porta e il nome del database o l'identificatore dell'istanza. Ad esempio, se si dispone di diversi database Microsoft SQL Server, la definizione dell'origine dati identifica uno di essi. Oppure, quando il cluster Teradata contiene diversi nodi con vari nomi host, la definizione dell'origine dati identifica l'intero cluster come un'unica entità. Per ulteriori informazioni, vedere Creazione di una definizione di origine dati.
Scanner. Viene utilizzato per estrarre ed elaborare i metadati per creare il lignaggio. Si seleziona uno scanner quando l'origine dati da cui viene importato il lignaggio può ospitare metadati di più tecnologie. Ad esempio, Microsoft SQL Server può essere utilizzato come archivio di metadati per Microsoft SQL Server Integration Services. In questo caso, i metadati del lignaggio possono essere importati dal databaseMicrosoft SQL Server) o da lavori ETL (Microsoft SQL Server Integration Services). Si seleziona uno scanner per importare il tipo specifico di metadati del lignaggio.
connessione. I dettagli della connessione includono le credenziali. È possibile creare molte connessioni per un'unica origine dati, ad esempio per connettersi utilizzando diversi nomi di host o per connettersi a vari account utente con privilegi specifici. I dettagli necessari per connettersi a una specifica origine dati sono descritti in ogni argomento relativo alla connessione nella sezione Connettori. Quando si importano i metadati delle risorse, è necessario selezionare una definizione di origine dati o una connessione.
Portata dell'importazione
Decidere la portata dei dati che si desidera importare. A seconda delle dimensioni e dei contenuti dell'origine dati, è possibile che non si vogliano importare tutte le risorse, ma solo un sottoinsieme selezionato. È possibile includere schemi o cartelle complete, oppure eseguire il drill-down su singole tabelle o file. Quando si seleziona uno schema o una cartella, è possibile visualizzare immediatamente il numero di elementi che contiene. Pertanto, è possibile decidere se si desidera includere l'intero insieme o se un sottoinsieme soddisfa meglio il proprio scopo.
Non è possibile importare dati da schemi il cui nome contiene caratteri speciali.
Elenchi di inclusione ed esclusione per i metadati sul lignaggio
Quando si definisce un ambito per l'estrazione dei metadati di lignaggio, è possibile aggiungere un elenco di risorse da includere o escludere dall'estrazione. Questo elenco è solitamente un'espressione regolare e il suo formato è specifico per l'origine dati selezionata. Per i dettagli, vedere l'argomento specifico sui collegamenti nella sezione Connettori.
Input esterni
Quando si importano i metadati del lignaggio, è possibile fornire ulteriori input manuali per alcune fonti di dati, in modo che il lignaggio finale contenga dati più completi. Hai le seguenti opzioni:
- Aggiungere gli input dal file
- Di solito si aggiunge un file .zip con una struttura che soddisfa i requisiti di una specifica origine dati. I requisiti della struttura sono spiegati in dettaglio in ogni argomento relativo ai collegamenti nella sezione Connettori.
- Ingerire metadati da agenti esterni
- È possibile collegarsi manualmente a un file system dell'agente o a un repository Git. Gli asset vengono quindi scaricati e utilizzati per l'estrazione dei metadati.
Sostituzioni segnaposto
Quando si aggiungono input esterni per il lignaggio, è possibile sostituire valori segnaposto come le variabili d'ambiente con valori reali da utilizzare per l'analisi del lignaggio. La tabella seguente contiene esempi di come si può modificare la visualizzazione dei dati per l'analisi del lignaggio.
Ambito di sostituzione | Formato di elaborazione dell'ambito | Valore segnaposto | Valore di sostituzione |
---|---|---|---|
(L'espressione regolare non è selezionata, viene utilizzato il testo normale) | ${table_name} | clienti | |
.*bteq | Espressione regolare | ${db} | dwh |
Un altro modo per fornire sostituzioni di segnaposto è creare un file CSV e aggiungerlo al file .zip che si carica come input esterno. Questo file deve essere denominato replace.csv
e deve avere la seguente struttura:
"PLACEHOLDER","REPLACEMENT_VALUE"[,SCOPE]
dove:
PLACEHOLDER
is the value that you want to replace.REPLACEMENT_VALUE
is the new value that replaces the original value.SCOPE
is a filter to apply the replacement only on the selected assets. Questa colonna è facoltativa. Viene interpretata come un'espressione regolare. Il percorso di esempio che può essere utilizzato in questo file è\MyBD\MySchema\MyScript.sql
.
Ogni coppia di ricambio deve essere inserita in una riga separata. Ogni valore deve essere racchiuso tra virgolette doppie ("").
Opzioni di pianificazione
Se non si imposta una pianificazione, si esegue l'importazione quando si salva inizialmente l'asset di importazione metadati. È possibile rieseguire l'importazione manualmente in qualsiasi momento.
Se si seleziona di eseguire l'importazione in base a una pianificazione specifica, definire la data e l'ora in cui si desidera eseguire il lavoro. È possibile che si desideri coordinare l'importazione dei metadati pianificati e i corrispondenti lavori di arricchimento dei metadati per gli stessi asset.
Se si seleziona di eseguire l'importazione in base a una pianificazione specifica, definire la data e l'ora in cui si desidera eseguire il lavoro. È possibile pianificare esecuzioni singole e ricorrenti. Se si pianifica una singola esecuzione, il lavoro viene eseguito esattamente una volta al giorno e all'ora specificati. Se si pianificano esecuzioni ricorrenti, il lavoro viene eseguito per la prima volta alla data indicata nella sezione Ricorrenza.
Il nome predefinito del lavoro di importazione è il lavoro metadata_import_name . Quando si imposta l'importazione dei metadati, è possibile modificare il nome per adattarlo allo schema di denominazione. Tuttavia, non è possibile modificare il nome successivamente. È possibile accedere al lavoro di importazione creato dall'asset di importazione dei metadati o dalla pagina Lavori del progetto. Vedere Lavori.
È possibile aggiornare la pianificazione di un'importazione di metadati modificando l'asset di importazione dei metadati.
Fasi di importazione del lignaggio
L'importazione dei metadati del lignaggio è un processo che prevede varie fasi. Per ottimizzare l'importazione in base alle proprie esigenze, è possibile decidere quali fasi eseguire con ogni lavoro di importazione dei metadati. Ad esempio, è possibile eseguire solo la fase di estrazione sulle connessioni selezionate che sono state aggiornate di recente per migliorare le prestazioni. Al termine di questa fase, è possibile eseguire l'analisi su tutte le connessioni: quelle aggiornate e quelle precedentemente estratte.
L'elenco seguente fornisce una breve spiegazione dei processi eseguiti in ciascuna fase di importazione del lignaggio:
- Estrazione del dizionario
- Estrae e importa le risorse di lineage (tabelle, viste, sinonimi e altro) nel repository di lineage.
- Estrazione delle trasformazioni
- Estrae le definizioni delle trasformazioni dall'origine dei dati.
- Analisi degli input estratti
- Analizza il percorso dei dati per le trasformazioni estratte automaticamente.
- Ingestione di ingressi esterni
- Ingerisce input esterni da un file system agente o da un repository Git.
- Analisi degli input esterni
- Analizza il percorso dei dati per gli input esterni che sono stati ingeriti o caricati da un processo di importazione dei metadati.
Opzioni di importazione avanzate
È possibile personalizzare il comportamento generale dell'importazione e cosa accade agli asset importati quando si riesegue un'importazione di metadati.
Opzioni di importazione dei metadati delle risorse
- Impedisci l'aggiornamento di proprietà specifiche
- Per impostazione predefinita, tutte le proprietà dell'asset vengono aggiornate quando gli asset vengono reimportati. Se non si desidera che i nomi delle risorse, le descrizioni delle risorse o le descrizioni delle colonne vengano aggiornate alla reimportazione, deselezionare le rispettive caselle di controllo nell'elenco Aggiorna alla reimportazione.
- Eliminare asset esistenti non inclusi nella reimportazione
- Per impostazione predefinita, nessun asset viene eliminato dal progetto di destinazione o dal catalogo quando si riesegue l'importazione. Per ripulire il progetto o il catalogo di destinazione, selezionare le opzioni Elimina alla reimportazione .
- Attività non trovata nell'origine dati o esclusa dall'importazione: In questi casi, eliminare gli asset precedentemente importati dal target di importazione quando si esegue nuovamente l'importazione:
- La risorsa non è più disponibile nell'origine dati.
- L'impostazione Escludi dall'importazione è stata modificata per la riesecuzione, in modo che l'asset sia ora escluso dall'importazione (applicabile solo alle importazioni di metadati eseguite su database relazionali).
- Attività rimossa dall'ambito di importazione: Elimina le risorse che sono state rimosse dall'ambito di questi metadati dopo l'ultima esecuzione dal target di importazione quando l'importazione viene rieseguita.
- Attività non trovata nell'origine dati o esclusa dall'importazione: In questi casi, eliminare gli asset precedentemente importati dal target di importazione quando si esegue nuovamente l'importazione:
- Non importare specifici tipi di asset relazionali
Per le importazioni di metadati eseguite su database relazionali, nell'impostazione Escludi dall'importazione è possibile selezionare se importare tutti i tipi di risorse relazionali o se escludere tabelle, viste, alias e sinonimi. Queste opzioni si escludono reciprocamente.
- Importa proprietà asset aggiuntive
Per le importazioni di metadati eseguite su database relazionali, è possibile selezionare se importare le chiavi primarie e le chiavi esterne eventualmente definite nel database.
- Abilita opzioni di importazione aggiuntive
Abilitare le importazioni incrementali per importare solo gli asset di dati nuovi o modificati quando si riesegue l'importazione. Questa opzione è disponibile solo per le importazioni di metadati eseguite su database relazionali e se l'origine dati selezionata supporta le importazioni incrementali:
- Amazon RDS for Oracle
- IBM Db2
- IBM Db2 Big SQL
- IBM Db2 on Cloud
- IBM Netezza Performance Server
- IBM Data Virtualization
- Microsoft Azure SQL Database
- Microsoft SQL Server
- Oracle
- Teradata
L'aggiornamento o la rimozione della descrizione di un asset nell'origine dati non modifica la data di modifica dell'asset. La data di modifica, inoltre, non cambia per gli asset rimossi dall'elenco degli asset importati. Pertanto, tali attività non sono prese in considerazione per le importazioni incrementali. Inoltre, gli asset eliminati dall'origine dati o dall'ambito non vengono rilevati con le importazioni incrementali. Pertanto, tali asset non vengono contrassegnati come Rimosso o eliminati come specificato con le impostazioni Elimina alla reimportazione . Per visualizzare tali modifiche riflesse, disabilitare le importazioni incrementali per reimportare tutti gli asset nell'ambito dati.
Importante:Le importazioni incrementali potrebbero non funzionare se l'origine dati e la stazione di lavoro client Cloud Pak for Data si trovano in fusi orari differenti. Se il client si trova in un fuso orario che precede il fuso orario dell'origine dati, il lavoro di importazione dei metadati potrebbe non rilevare gli asset che sono stati aggiunti o modificati dopo l'ultima esecuzione dell'importazione. In questo caso, disattivare l'importazione incrementale in modo che tutti gli asset vengano inclusi quando si riesegue l'importazione.
Per il funzionamento delle importazioni incrementali, l'origine dati deve essere nel fuso orario GMT indipendentemente dal fuso orario del client.- Raccogli metadati dal catalogo del database
Per le importazioni di metadati eseguite su database relazionali, è possibile scegliere di importare i metadati dal catalogo del database. Pertanto, l'utente che esegue l'importazione deve accedere solo al catalogo del database ma non deve disporre dell'autorizzazione SELECT sui dati effettivi. Non è possibile creare il profilo degli asset importati o utilizzarli nell'arricchimento dei metadati.
- Importa data/ora asset
È possibile includere le informazioni relative all'ora in cui la risorsa è stata modificata per l'ultima volta. The
metadata_modification_token
attribute is added to theextended_metadata
property of an asset.
Opzioni di importazione dei metadati del lignaggio
Le opzioni avanzate per il lignaggio dipendono dall'origine dati selezionata. Per i dettagli, vedere l'argomento specifico sui collegamenti nella sezione Connettori.
Ulteriori informazioni
Argomento principale Importazione di metadati