Quando si importano i metadati, è necessario decidere il tipo di metadati da importare, la destinazione e l'ambito dell'importazione, se pianificare i lavori di importazione e come personalizzare il comportamento dell'importazione.
- Obiettivi di importazione
- Importa destinazione
- Origine dei dati
- Ambito di importazione
- Opzioni di pianificazione
- Fasi di importazione della derivazione
- Opzioni di importazione avanzate
Obiettivi di importazione
Il primo passo per importare i metadati è definire gli obiettivi dell'importazione. È necessario decidere quale tipo di metadati importare e se si desidera lavorare con le risorse importate in un progetto o pubblicarle direttamente in un catalogo.
In genere, l'importazione dei metadati fa parte di un piano di cura dei dati più ampio. Ad esempio, dopo aver importato i metadati per le risorse di dati, è possibile aggiungere metadati aziendali alle risorse di dati importate eseguendo l'arricchimento dei metadati. È inoltre possibile eseguire regole di qualità dei dati. Infine, è possibile pubblicare le risorse di dati completate in un catalogo da condividere con l'organizzazione. Prima di progettare l'importazione dei metadati, assicuratevi di comprendere le implicazioni delle vostre scelte per il vostro piano di curatela complessivo. Vedere Pianificazione della curatela.
Ad esempio, un tipico processo di curation per le risorse di dati comprende i seguenti compiti:
- Eseguire l'importazione dei metadati con l'opzione Importa metadati delle risorse per aggiungere le risorse di dati a un progetto.
- Eseguire l'arricchimento dei metadati sugli asset di dati per profilare i dati, eseguire analisi di base sulla qualità dei dati e fornire un contesto aziendale attraverso l'assegnazione di termini.
- Eseguire le regole di qualità dei dati sugli asset.
- Pubblicare le risorse in un catalogo.
- Eseguire l'importazione dei metadati per gli stessi asset di dati con l'opzione Importa metadati di lignaggio per aggiungere informazioni di lignaggio a questi asset nel catalogo.
È possibile aggiungere altri tipi di risorse direttamente a un catalogo, poiché l'arricchimento dei metadati e la valutazione della qualità dei dati non sono applicabili. È possibile scegliere entrambe le opzioni Importa metadati delle risorse e Importa metadati del lignaggio per importare simultaneamente i metadati tecnici e del lignaggio delle risorse mentre si aggiungono tali risorse a un catalogo.
È possibile scegliere tra i seguenti metodi di importazione:
- Importa metadati di asset
- I metadati tecnici degli asset forniscono informazioni sui dettagli degli asset, sulle relazioni e sull'anteprima degli asset. È possibile aggiungerlo a un progetto per un'ulteriore elaborazione, oppure pubblicarlo in un catalogo subito dopo l'importazione.
- Importa metadati di derivazione
- I metadati di lineage forniscono informazioni sul flusso dei dati, da dove provengono, come cambiano e dove si spostano nel tempo. I metadati del lignaggio sono memorizzati nel repository del lignaggio.
Importa destinazione
È possibile importare i metadati nel progetto in cui si sta lavorando o in qualsiasi catalogo in cui si ha un ruolo di editor o di amministratore.
Progetti
Nei progetti, è possibile eseguire regole di arricchimento dei metadati e di qualità dei dati sulle risorse di dati. Le risorse di dati importate vengono pubblicate in un catalogo dopo che si è soddisfatti dell'assegnazione dei metadati aziendali e della qualità dei dati.
Le informazioni sulla discendenza sono disponibili nei cataloghi e nei progetti. Le informazioni sul lignaggio sono disponibili nei progetti solo se le risorse sono state importate con l'importazione Metadata import.
Se il progetto è contrassegnato come sensibile, è possibile importare i metadati solo nel progetto, non in un catalogo. Per ulteriori informazioni, vedere Contrassegno di un progetto come sensibile.
Cataloghi
Se si conosce bene il contenuto degli asset di dati e non si desidera eseguire regole di arricchimento dei metadati o di qualità dei dati, è possibile importare i loro metadati direttamente nel catalogo. Al termine dell'importazione, le risorse sono disponibili pubblicamente nel catalogo selezionato.
È possibile importare i metadati in qualsiasi catalogo per il quale si ha un ruolo di editor o di amministratore, tranne quando il catalogo fa parte di un progetto contrassegnato come sensibile.
Se si importa in un catalogo, assicurarsi che nel catalogo di destinazione la gestione delle risorse duplicate sia impostata in modo da aggiornare le risorse originali invece di consentire le risorse duplicate. Vedere Gestione delle risorse duplicate.
Se si desidera che le regole di protezione dei dati vengano applicate alle risorse di dati importate, è necessario selezionare un catalogo governato come destinazione dell'importazione.
Origine dati
Per l'elenco delle fonti di dati supportate, vedere Fonti di dati supportate per la cura e la qualità dei dati.
Per collegarsi all'origine dati, è necessario specificare i seguenti dettagli:
Definizione della fonte dei dati. È obbligatorio quando si importano i metadati del lignaggio e facoltativo quando si importano i metadati delle risorse. Viene utilizzato per identificare in modo univoco un'origine dati utilizzando gli endpoint. Gli endpoint includono informazioni quali il nome host o l'indirizzo IP, il numero di porta e il nome del database o l'identificatore dell'istanza. Ad esempio, se si dispone di diversi database Microsoft SQL Server, la definizione dell'origine dati identifica uno di essi. Oppure, quando il cluster Teradata contiene diversi nodi con vari nomi host, la definizione dell'origine dati identifica l'intero cluster come un'unica entità. Per ulteriori informazioni, vedere Creazione di una definizione di origine dati. Creare una definizione di origine dati prima di iniziare a creare un'importazione di metadati.
Scanner. Viene utilizzato per estrarre ed elaborare i metadati per creare il lignaggio. Si seleziona uno scanner quando l'origine dati da cui viene importato il lignaggio può ospitare metadati di più tecnologie. Ad esempio, Microsoft SQL Server può essere utilizzato come archivio di metadati per Microsoft SQL Server Integration Services. In questo caso, i metadati del lignaggio possono essere importati dal databaseMicrosoft SQL Server) o da lavori ETL (Microsoft SQL Server Integration Services). Si seleziona uno scanner per importare il tipo specifico di metadati del lignaggio.
connessione. I dettagli della connessione includono le credenziali. È possibile creare molte connessioni per un'unica origine dati, ad esempio per connettersi utilizzando diversi nomi di host o per connettersi a vari account utente con privilegi specifici. I dettagli necessari per connettersi a una specifica origine dati sono descritti in ogni argomento relativo alla connessione nella sezione Connettori. Quando si importano i metadati delle risorse, è necessario selezionare una definizione di origine dati o una connessione. Creare una connessione prima di iniziare a creare un'importazione di metadati. È possibile creare una connessione in un progetto in cui si desidera importare i dati, oppure creare una connessione alla piattaforma e poi aggiungerla al progetto. Per ulteriori informazioni, vedere Aggiunta di connessioni alle fonti di dati in un progetto.
La connessione deve essere assegnata a una definizione di origine dati. Se si crea prima una definizione di origine dati e poi una connessione, creare l'assegnazione manualmente. Vedere Aggiunta di endpoint a una definizione di origine dati nuova o esistente.
Ambito di importazione
Decidere la portata dei dati che si desidera importare. A seconda delle dimensioni e dei contenuti dell'origine dati, è possibile che non si vogliano importare tutte le risorse, ma solo un sottoinsieme selezionato. È possibile includere schemi o cartelle complete, oppure eseguire il drill-down su singole tabelle o file. Quando si seleziona uno schema o una cartella, è possibile vedere immediatamente quanti elementi contiene. In questo modo, si può decidere se includere l'intero insieme o se un sottoinsieme è più adatto allo scopo.
Non è possibile importare dati da schemi il cui nome contiene caratteri speciali.
Elenchi di inclusione ed esclusione per i metadati sul lignaggio
Quando si definisce un ambito per estrarre i metadati del lignaggio, è possibile aggiungere un elenco di risorse da includere nell'estrazione o da escludere dall'estrazione. Questo elenco è solitamente un'espressione regolare e il suo formato è specifico per l'origine dati selezionata. Per i dettagli, vedere l'argomento specifico sui collegamenti nella sezione Connettori.
Input esterni
Quando si importano i metadati del lignaggio, è possibile fornire ulteriori input manuali per alcune fonti di dati, in modo che il lignaggio finale contenga dati più completi. Hai le seguenti opzioni:
- Aggiungi gli input dal file
- Di solito si aggiunge un file .zip con una struttura che soddisfa i requisiti di una specifica origine dati. I requisiti della struttura sono spiegati in dettaglio in ogni argomento relativo ai collegamenti nella sezione Connettori.
- Inserisci metadati da agenti esterni
- È possibile collegarsi manualmente a un file system dell'agente o a un repository Git. Gli asset vengono quindi scaricati e utilizzati per l'estrazione dei metadati.
Sostituzioni segnaposto
Quando si aggiungono input esterni per il lignaggio, è possibile sostituire valori segnaposto come le variabili d'ambiente con valori reali da usare per l'analisi del lignaggio. La tabella seguente contiene esempi di come si può modificare la visualizzazione dei dati per l'analisi del lignaggio.
Ambito di sostituzione | Formato di elaborazione dell'ambito | Valore segnaposto | Valore di sostituzione |
---|---|---|---|
(L'espressione regolare non è selezionata, viene utilizzato il testo normale) | ${table_name} | clienti | |
.*bteq | Espressione regolare | ${db} | dwh |
Un altro modo per fornire sostituzioni di segnaposto è creare un file CSV e aggiungerlo al file .zip caricato come input esterno. Questo file deve essere chiamato " replace.csv
e deve avere la seguente struttura:
"PLACEHOLDER","REPLACEMENT_VALUE"[,SCOPE]
dove:
PLACEHOLDER
è il valore che si vuole sostituire.REPLACEMENT_VALUE
è il nuovo valore che sostituisce il valore originale.SCOPE
è un filtro per applicare la sostituzione solo alle risorse selezionate. Questa colonna è facoltativa. Viene interpretata come un'espressione regolare. Il percorso di esempio che può essere utilizzato in questo file è '\MyBD\MySchema\MyScript.sql
.
Ogni coppia di ricambio deve essere inserita in una riga separata. Ogni valore deve essere racchiuso tra virgolette doppie ("").
Opzioni di pianificazione
Se non si imposta una pianificazione, l'importazione viene eseguita quando si salva inizialmente l'asset di importazione dei metadati. È possibile rieseguire l'importazione manualmente in qualsiasi momento.
Se si sceglie di eseguire l'importazione in base a una pianificazione specifica, definire la data e l'ora in cui si desidera eseguire il lavoro. Si potrebbe voler coordinare l'importazione programmata dei metadati e i corrispondenti lavori di arricchimento dei metadati per le stesse risorse.
Se si sceglie di eseguire l'importazione in base a una pianificazione specifica, definire la data e l'ora in cui si desidera eseguire il lavoro. È possibile programmare corse singole e ricorrenti. Se si pianifica una singola esecuzione, il lavoro viene eseguito esattamente una volta nel giorno e nell'ora specificati. Se si pianificano esecuzioni ricorrenti, il lavoro viene eseguito per la prima volta alla data indicata nella sezione Ricorrenza.
Il nome predefinito del lavoro di importazione è metadata_import_name job. Quando si imposta l'importazione dei metadati, è possibile modificare il nome per adattarlo al proprio schema di denominazione. Tuttavia, non è possibile cambiare il nome in un secondo momento. È possibile accedere al lavoro di importazione creato dall'asset di importazione dei metadati o dalla pagina Lavori del progetto. Vedi Offerte di lavoro.
È possibile aggiornare la pianificazione di un'importazione di metadati modificando la risorsa di importazione dei metadati.
Fasi di importazione della derivazione
L'importazione dei metadati del lignaggio è un processo che prevede varie fasi. Per ottimizzare l'importazione in base alle proprie esigenze, è possibile decidere quali fasi eseguire con ogni lavoro di importazione dei metadati. Ad esempio, è possibile eseguire solo la fase di estrazione sulle connessioni selezionate che sono state aggiornate di recente per migliorare le prestazioni. Al termine di questa fase, è possibile eseguire l'analisi su tutte le connessioni: quelle aggiornate e quelle precedentemente estratte.
L'elenco seguente fornisce una breve spiegazione dei processi eseguiti in ciascuna fase di importazione del lignaggio:
- Estrazione del dizionario
- Estrae e importa gli asset di derivazione (tabelle, viste, sinonimi e altro) nel repository di derivazione.
- Estrazione delle trasformazioni
- Estrae le definizioni delle trasformazioni dall'origine dei dati.
- Analisi degli input estratti
- Analizza la derivazione dei dati per le trasformazioni estratte automaticamente.
- Inserimento di input esterni
- Inserisce gli input esterni da un file system agente o da un repository Git.
- Analisi degli input esterni
- Analizza la derivazione dei dati per gli input esterni che sono stati inseriti o caricati da un processo di importazione dei metadati.
Opzioni di importazione avanzate
È possibile personalizzare il comportamento generale dell'importazione e ciò che accade alle risorse importate quando si riesegue un'importazione di metadati.
Opzioni di importazione dei metadati delle risorse
- Impedire l'aggiornamento di proprietà specifiche
- Per impostazione predefinita, tutte le proprietà delle risorse vengono aggiornate quando le risorse vengono reimportate. Se non si desidera che i nomi delle risorse, le descrizioni delle risorse o le descrizioni delle colonne vengano aggiornate alla reimportazione, deselezionare le rispettive caselle di controllo nell'elenco Aggiorna alla reimportazione.
- Eliminare gli asset esistenti che non sono inclusi nella reimportazione
- Per impostazione predefinita, nessun asset viene eliminato dal progetto o dal catalogo di destinazione quando si esegue nuovamente l'importazione. Per ripulire il progetto o il catalogo di destinazione, selezionare tra le opzioni Elimina alla reimportazione.
- Attività non trovata nell'origine dati o esclusa dall'importazione: In questi casi, eliminare gli asset precedentemente importati dal target di importazione quando si esegue nuovamente l'importazione:
- La risorsa non è più disponibile nell'origine dati.
- L'impostazione Escludi dall'importazione è stata modificata per la riesecuzione, in modo che l'asset sia ora escluso dall'importazione (applicabile solo alle importazioni di metadati eseguite su database relazionali).
- Attività rimossa dall'ambito di importazione: Elimina le risorse rimosse dall'ambito di questi metadati dopo l'ultima esecuzione dal target di importazione quando l'importazione viene rieseguita.
- Attività non trovata nell'origine dati o esclusa dall'importazione: In questi casi, eliminare gli asset precedentemente importati dal target di importazione quando si esegue nuovamente l'importazione:
- Non importare tipi specifici di risorse relazionali
Per le importazioni di metadati eseguite su database relazionali, nell'impostazione Escludi dall'importazione è possibile selezionare se importare tutti i tipi di risorse relazionali o se escludere tabelle, viste, alias e sinonimi. Queste opzioni si escludono a vicenda.
- Importazione di proprietà aggiuntive degli asset
Per le importazioni di metadati eseguite su database relazionali, è possibile selezionare se importare le chiavi primarie e le chiavi esterne eventualmente definite nel database.
- Abilitare le opzioni di importazione aggiuntive
Abilitare le importazioni incrementali per importare solo le risorse di dati nuove o modificate quando si riesegue l'importazione. Questa opzione è disponibile solo per le importazioni di metadati eseguite su database relazionali e se l'origine dati selezionata supporta le importazioni incrementali:
- Amazon RDS for Oracle
- IBM Db2
- IBM Db2 Big SQL
- IBM Db2 on Cloud
- IBM Netezza Performance Server
- IBM Data Virtualization
- Microsoft Azure SQL Database
- Microsoft SQL Server
- Oracle
- Teradata
L'aggiornamento o la rimozione della descrizione di una risorsa nell'origine dati non modifica la data di modifica della risorsa. La data di modifica non cambia nemmeno per le attività che vengono rimosse dall'elenco delle attività importate. Pertanto, tali attività non sono considerate per le importazioni incrementali. Inoltre, gli asset eliminati dall'origine dati o dall'ambito non vengono rilevati con le importazioni incrementali. Pertanto, tali risorse non sono contrassegnate come rimosse o eliminate come specificato nelle impostazioni di Eliminazione alla reimportazione. Per vedere riflesse tali modifiche, disattivare le importazioni incrementali per reimportare tutte le risorse nell'ambito dei dati.
Importante:Le importazioni incrementali potrebbero non funzionare se l'origine dati e la workstation client di Cloud Pak for Data si trovano in fusi orari diversi. Se il client si trova in un fuso orario superiore a quello dell'origine dati, il processo di importazione dei metadati potrebbe non rilevare le risorse aggiunte o modificate dopo l'ultima esecuzione dell'importazione. In questo caso, disattivare l'importazione incrementale in modo da includere tutte le risorse quando si esegue nuovamente l'importazione.
Affinché le importazioni incrementali funzionino, l'origine dei dati deve trovarsi nel fuso orario GMT, indipendentemente dal fuso orario del client.- Raccogli metadati dal catalogo del database
Per le importazioni di metadati eseguite su database relazionali, è possibile scegliere di importare i metadati dal catalogo del database. In questo modo, l'utente che esegue l'importazione deve accedere solo al catalogo del database, ma non deve avere il permesso di SELECT sui dati effettivi. Non è possibile creare il profilo degli asset importati o utilizzarli nell'arricchimento dei metadati.
- Importa data/ora asset
È possibile includere le informazioni relative all'ora in cui la risorsa è stata modificata per l'ultima volta. L'attributo '
metadata_modification_token
viene aggiunto alla proprietà 'extended_metadata
di una risorsa.
Opzioni di importazione dei metadati del lignaggio
Le opzioni avanzate per il lignaggio dipendono dall'origine dati selezionata. Per i dettagli, vedere l'argomento specifico sui collegamenti nella sezione Connettori.
Ulteriori informazioni
Argomento principale: Importazione di metadati