0 / 0
Torna alla versione inglese della documentazione
Pianificazione della gestione dei dati nei cataloghi
Ultimo aggiornamento: 19 dic 2024
Pianificazione della gestione dei dati nei cataloghi

Il processo di curation include la creazione di asset di dati, l'assegnazione di risorse utente di governance e altri metadati agli asset di dati, la pubblicazione degli asset di dati in un catalogo e quindi l'aggiornamento dei metadati di asset come i dati sottostanti o le modifiche del vocabolario di business. Dopo che gli steward di dati aggiungono asset di dati di alta qualità e arricchiti ai cataloghi, i consumatori di dati possono trovare e utilizzare tali asset di dati.

Anche se è possibile gestire gli asset di dati singolarmente, tale processo non è scalabile. Puoi automatizzare molte attività di cura con gli strumenti di Metadata import e di arricchimento dei metadati, con cui puoi rilevare, creare, arricchire e pubblicare serie di asset di dati.

Per automatizzare il più possibile la conservazione dei dati, completare queste attività per impostare un progetto di conservazione, aggiungere gli asset di dati curati a un catalogo e aggiornare gli asset di dati per mantenere aggiornati i metadati:

Attività Obbligatorio? Frequenza
Impostare un progetto Una tantum
Aggiungere connessioni alle origini dati Una tantum
Importare metadati per creare asset di dati Ricorrente
Arricchire gli asset di dati con metadati e altre informazioni Ricorrente
Risolvere i dati delle entità per creare una vista a 360 ° dei dati N Ricorrente
Personalizzare l'analisi della qualità dei dati N Ricorrente
Pubblicare asset di dati nei cataloghi Ricorrente

Il ciclo di dati curati include i passi elencati nella tabella.

Quando si creano gli asset di importazione dei metadati e di arricchimento dei metadati, è possibile pianificarli in modo che vengano eseguiti automaticamente o su richiesta. È possibile impostare le pianificazioni del lavoro nell'IU o con le API. Ad esempio, è possibile pianificare un'importazione di metadati per una data e ora specifiche. Quindi, è possibile pianificare l'arricchimento dei metadati per gli stessi asset da eseguire una volta completata l'importazione dei metadati. Una volta completato l'arricchimento dei metadati, esaminare i risultati, apportare le modifiche necessarie e pubblicare gli aggiornamenti agli asset di dati nel catalogo.

Configura un progetto per la cura

Un progetto è uno spazio di collaborazione in cui le persone lavorano con i dati per raggiungere un obiettivo condiviso.

Per migliorare la coerenza, è possibile creare convenzioni per i progetti, come:

  • Nomi progetto: identificare i progetti in modo coerente, ad esempio, per scopo, intervallo di date o team.
  • Requisiti del progetto: descrivere e collegare a requisiti e attività in sistemi esterni nel file Read me del progetto.
  • Nomi connessione: identificare le connessioni in modo congruente, ad esempio, per origine dati, nome tabella o scopo.

Un progetto di data curation di solito contiene i seguenti tipi di elementi che vengono aggiunti esplicitamente dagli steward di dati o che vengono creati come risultato di un processo:

  • Asset di connessione per origini dati che contengono i dati da curare
  • Asset di dati connessi creati dall'importazione dei metadati
  • Metadata import asset
  • Asset di arricchimento metadati
  • Definizione di qualità dei dati e asset di regola
  • Gli asset del flusso DataStage creati eseguendo le regole di qualità dei dati
  • Asset di dati che contengono tabelle di output delle regole di qualità dei dati
  • Asset di dati che contengono tabelle di distribuzione di frequenza create dall'arricchimento dei metadati
  • Lavori creati da asset in esecuzione

Ulteriori informazioni sulla creazione di progetti

Aggiungi connessioni alle origini dati

Prima che gli steward di dati possano importare metadati per creare gli asset di dati connessi, hanno bisogno degli asset di connessione per le relative origini dati. Le fonti di dati possono includere database, come Db2, o file system, come IBM Cloud Object Storage.

Di solito, le organizzazioni aggiungono le connessioni al Platform assets catalog in modo che tutti gli utenti possano trovarle e utilizzarle. Ad esempio, i tuoi data engineer possono creare gli asset di connessione nel Platform assets cataloge quindi tutti gli utenti possono facilmente aggiungere tali connessioni ai loro progetti. In alternativa, è possibile creare connessioni all'interno di un progetto.

Quando si creano connessioni, è necessario decidere come gestire le credenziali di connessione. Per impostazione predefinita, le credenziali di connessione sono contrassegnate come condivise, il che permette a tutti gli utenti di utilizzare le stesse credenziali per l'accesso ai dati. Se si desidera che ogni utente immetta le proprie credenziali personali, disabilitare le credenziali condivise quando si creano le connessioni. Tuttavia, se le tue connessioni richiedono credenziali personali, devi assicurarti che i tuoi steward di dati abbiano le credenziali per tutte le connessioni di cui hanno bisogno per la cura.

Cloud Pak for Data supporta molte connessioni, ma non tutte sono supportate per l'importazione dei metadati, l'arricchimento dei metadati e l'analisi della qualità dei dati.

Ulteriori informazioni sull'aggiunta di connessioni

Importa metadati per creare asset di dati

L' Metadata import rileva tutte le tabelle o i file accessibili da una connessione specificata a un'origine dati. È possibile scegliere di creare asset di dati connessi per tutte o una selezione di tabelle o file. Il processo di importazione dei metadati crea anche un asset di importazione dei metadati che è possibile rieseguire o specificare come input per l'arricchimento dei metadati.

Generalmente, le organizzazioni creano più asset di importazione metadati per una sola origine dati. Ogni importazione di metadati contiene tabelle o file che hanno una frequenza simile di modifiche alla struttura, allo schema o alle righe di dati. È quindi possibile eseguire ogni importazione di metadati in base a una pianificazione diversa. Ad esempio, è possibile creare importazioni di metadati con le seguenti caratteristiche:

  • Un'importazione di metadati per le tabelle che hanno aggiornamenti frequenti pianificati per l'esecuzione settimanale.
  • Un'importazione di metdati per tabelle con aggiornamenti non frequenti pianificati per l'esecuzione mensile.
  • Un'importazione di metadati per tabelle con aggiornamenti rari che vengono eseguiti manualmente quando necessario.

Eseguire nuovamente l'importazione dei metadati per rilevare i seguenti tipi di modifiche nell'origine dati:

  • Asset aggiunti o rimossi
  • Schemi di tabella modificati
  • Aggiornamenti ai metadati dell'asset, ad esempio, modifiche del nome o descrizioni aggiornate

Dopo aver rieseguito l'importazione dei metadati, eseguire nuovamente l'arricchimento dei metadati.

Ulteriori informazioni sull'importazione dei metadati

Arricchire gli asset di dati con metadati e altre informazioni

L'arricchimento dei metadati aggiunge informazioni agli asset di dati connessi. È possibile eseguire facilmente l'arricchimento dei metadati su tutte le tabelle o i file creati con l'importazione dei metadati impostando l'importazione dei metadati come ambito dei dati. Il processo di arricchimento dei metadati crea anche un lavoro di arricchimento dei metadati che puoi rieseguire.

Generalmente, le organizzazioni creano un arricchimento dei metadati per ciascuna importazione di metadati. È quindi possibile sincronizzare facilmente le pianificazioni di importazione e arricchimento dei metadati. Tuttavia, puoi creare arricchimenti di metadati per un singolo asset di dati connesso, come una tabella virtuale.

Quando si esegue l'arricchimento dei metadati sugli asset di dati, le informazioni vengono aggiunte in base alle opzioni di arricchimento selezionate:

  • Solo profilazione: Aggiunge classi di dati e statistiche e suggerisce chiavi primarie.
  • Espansione dei metadati: Genera nomi di visualizzazione e descrizioni.
  • Analisi della qualità e profilazione: aggiunge punteggi di qualità, classi di dati e statistiche.
  • Assegnazione dei termini: Assegna termini e classificazioni in base ai metodi selezionati. L'assegnazione dei termini in base alle relazioni con le classi di dati richiede la profilazione. Per i compiti a termine basati sull'intelligenza artificiale, anche i metadati devono essere ampliati. In ogni caso, i termini possono essere assegnati da un algoritmo di apprendimento automatico e dalla corrispondenza dei nomi.
  • Generazione di relazioni: Identifica le chiavi primarie e straniere e suggerisce le relazioni tra gli asset.
  • Monitoraggio della qualità dei dati: Controlla se la qualità dei dati è conforme agli accordi sul livello di servizio della qualità dei dati definiti e segnala le violazioni. Potrebbe essere attivato un flusso di lavoro di riparazione.

È possibile bilanciare precisione e velocità impostando la dimensione di campionamento dei dati. Maggiore è la dimensione di campionamento dei dati, più accurata è la classe di dati e le assegnazioni dei termini di business e l'analisi della qualità dei dati, ma più lungo è il lavoro di arricchimento dei metadati.

Sebbene sia possibile specificare di assegnare automaticamente classi di dati e termini di business, è necessario esaminare i risultati. L'assegnazione accurata di classi di dati e termini di business è fondamentale. In caso contrario, le informazioni sensibili potrebbero non essere mascherate o protette dalle regole di protezione dei dati. Più si esegue l'arricchimento dei metadati e si regolano le assegnazioni della classe di dati e dei termini di business, più accurato diventa l'algoritmo di assegnazione automatica.

Rieseguire l'arricchimento dei metadati e l'analisi della qualità dei dati standard in queste circostanze:

  • Dopo aver rieseguito l'importazione dei metadati. A seconda del numero di modifiche ai dati previsti, eseguire nuovamente l'arricchimento dei metadati sull'intero ambito dei dati dell'importazione o solo sui dati nuovi o modificati, ad esempio, per selezionare nuove tabelle o colonne. Le modifiche ai valori dei dati in una colonna potrebbero influire sui punteggi della qualità dei dati o sulla classe di dati e sulle assegnazioni dei termini di business.
  • Dopo le modifiche alle classi di dati e ai termini di business disponibili. Le modifiche alle classi di dati e ai termini di business potrebbero influire sulle relative assegnazioni alle colonne.

I lavori di arricchimento dei metadati possono richiedere notevoli quantità di tempo, a seconda delle dimensioni dei dati. Consumano anche risorse di elaborazione che vengono fatturate al tuo account.

Ulteriori informazioni sull'arricchimento dei metadati

Risolvi i dati di entità per creare una vista a 360 gradi dei tuoi dati

Per garantire che gli utenti e i sistemi dispongano di una vista completa, affidabile e unificata dei dati dei clienti, utilizzare IBM Match 360 per associare e consolidare i dati provenienti da origini diverse e stabilire una vista a 360 gradi dei dati, noti come dati master.

Definire il modello di dati per i dati master, quindi caricare gli asset di dati da tutta l'azienda e associarli al modello. Quindi, avviare la configurazione del sistema per soddisfare i requisiti univoci della propria organizzazione. Configurare l'algoritmo di corrispondenza ed eseguirlo per creare entità di dati master. Esaminare statistiche e grafici forniti per valutare i risultati della corrispondenza. A seconda dei risultati, è possibile ottimizzare ulteriormente l'algoritmo e migliorare i risultati di corrispondenza completando le revisioni delle coppie o modificando i pesi e le soglie di corrispondenza.

Una volta perfezionato l'algoritmo di corrispondenza, gli utenti aziendali possono ricercare ed esplorare i dati master per ottenere informazioni chiave. Gli steward di dati possono modificare, gestire e correggere i dati, quindi esportarli come dati connessi o in formato CSV da utilizzare altrove.

Ulteriori informazioni sulla risoluzione dei dati di entità

Personalizzazione dell'analisi della qualità dei dati

Per personalizzare l'analisi della qualità dei dati, è necessario creare e eseguire le regole di qualità dei dati. Ogni regola di qualità dei dati si applica agli asset di dati da una singola origine dati o a un singolo asset di dati da un file. Esegui le regole sulla qualità dei dati come DataStage flussi, che richiede il DataStage servizio. Con DataStage, puoi eseguire regole sulla qualità dei dati nelle regioni supportate. Con DataStage as a Service Anywhere, è possibile eseguire le regole di qualità dei dati al di fuori di IBM Cloud utilizzando motori remoti. Per ulteriori informazioni sull'impostazione dei motori remoti, vedere il documento ' documentazione DataStage as a Service Anywhere .

Il formato e il modo in cui si definiscono condizioni della regola di qualità dei dati dipendono dal tipo di risultati che si desidera ricevere.

Risultati Formato Metodo
Restituisce il grado di conformità delle colonne alle condizioni delle regole. Definizioni di qualità dei dati Creare gli asset di definizione della qualità dei dati a cui si fa riferimento in una o più regole di qualità dei dati. È possibile specificare la logica della regola disponendo gli elementi di blocco su un canvas o immettendo un'espressione in un editor in formato libero.
Restituisce le colonne che non riescono a soddisfare le condizioni della regola. Istruzioni SQL Immettere le istruzioni SQL in ogni regola di qualità dei dati.

Se si creano regole di qualità dei dati che contengono definizioni di qualità dei dati, sono disponibili le seguenti opzioni:

  • Riutilizzare la stessa definizione di qualità dei dati più volte in una regola di qualità dei dati.
  • Includere più definizioni di qualità dei dati in una regola di qualità dei dati.
  • Pubblicare definizioni di qualità dei dati in un catalogo e riutilizzarle in più progetti.
  • Creare semplici regole che collegano direttamente i dati e, facoltativamente, creare unioni per i bind.
  • Creare regole complesse in cui i dati vengono preelaborati nei flussi DataStage e l'output può essere instradato ai link di output DataStage .
  • Creare unioni per i collegamenti per utilizzare i dati da più tabelle nella tabella di output.
  • Creare serie di parametri in un progetto per la gestione dei valori letterali e delle colonne che si collegano alle variabili di regole. È inoltre possibile pubblicare la serie di parametri in un catalogo e riutilizzarlo in più progetti.
  • Impostare il numero massimo di record da valutare e il metodo di campionamento.

È possibile scegliere di inviare l'output della regola di qualità dei dati a un database esterno per conservare un record dettagliato dei risultati della regola. Ad esempio, è possibile eseguire i report o inviare le informazioni a un team di gestione dati per la correzione della qualità.

Ulteriori informazioni sull'analisi della qualità dei dati

Pubblicare gli asset di dati in un catalogo

Puoi pubblicare più asset di dati arricchiti in un catalogo in un'unica operazione dall'interno dell'asset di arricchimento dei metadati o dalla scheda Asset nel progetto.

Le differenze principali tra la pubblicazione dalla scheda Asset e da un asset di arricchimento dei metadati si trovano nella gestione degli asset duplicati. La seguente tabella confronta le scelte effettuate e i relativi effetti.

Metodo di pubblicazione Pubblicazione in massa? Scelte di gestione duplicati Assegnazioni termine di business
scheda Asset Sì, è possibile selezionare più asset da pubblicare insieme. Aggiorna asset originali
Sovrascrivi asset originali
Consenti duplicati (se le impostazioni del catalogo includono questa opzione)
Preserva gli asset originali e rifiuta i duplicati
Le assegnazioni di termini di business originali possono essere rimosse.
Asset di arricchimento metadati Sì, è possibile selezionare più asset da pubblicare insieme. Aggiorna asset originali I termini di business del nuovo asset vengono aggiunti all'asset originale. Non viene rimossa alcuna assegnazione di termini di business originale.

Ulteriori informazioni sulla pubblicazione in un catalogo

Importazione del lignaggio per le risorse di dati nel catalogo

Il lignaggio è l'informazione sulla provenienza dei dati, sulle loro variazioni e sui loro spostamenti nel tempo. È possibile importare informazioni sul lignaggio per le risorse di dati importate, arricchite e pubblicate in un catalogo. È necessario abilitare il lineage dei dati. Per importare il lineage, si crea un'importazione di metadati con l'opzione Importa metadati lineage. Il servizio di lineage esegue la scansione dell'origine dati di destinazione e analizza il flusso di dati. Questi metadati di lineage vengono importati con gli asset di dati e, se disponibili, con gli script di trasformazione.

In genere, le organizzazioni rieseguono l'importazione dei metadati per acquisire le informazioni di lineage dopo aver eseguito l'importazione e l'arricchimento dei metadati e aver pubblicato gli asset di dati aggiornati.

Per saperne di più sull'importazione del lignaggio

Attività di pianificazione precedenti

Attività di pianificazione successive

Argomento principale Pianificazione dell'implementazione della governance dei dati