La data curation è il processo di aggiunta di asset di dati a un progetto o a un catalogo, arricchendoli assegnando classificazioni, classi di dati e termini di business e analizzando e migliorando la qualità dei dati.
Prima di poter iniziare a curare i dati, è necessario aver configurato IBM Knowledge Catalog in modo da avere un quadro di governance e almeno un catalogo per la condivisione delle risorse curate (vedi Pianificazione dell'implementazione della governance dei dati).
La cura può essere un processo per lo più manuale in cui si curano gli asset di dati uno alla volta. La curazione avanzata è un processo più automatizzato in cui molte delle attività di curazione vengono completate automaticamente per più asset di dati contemporaneamente.
Requisiti e restrizioni
Per la cura dei dati, esistono i seguenti requisiti e restrizioni.
Strumenti di data curation
Si lavora con questi strumenti:
Servizio richiesto
La cura dei dati richiede IBM Knowledge Catalog, IBM Knowledge Catalog Standard o IBM Knowledge Catalog Premium. Anche l'analisi avanzata nel contesto dell'arricchimento dei metadati (profilazione avanzata e analisi approfondita di chiavi e relazioni) richiede il servizio DataStage.
Formati dei dati
Sono supportati i seguenti formati di dati:
- Tabelle da origini dati relazionali e non relazionali, Amazon S3 Tavoli Delta Lake
- Metadata import: qualsiasi formato dalle connessioni basate su file alle origini dati
- Arricchimento dei metadati: Tabulare: CSV, TSV, Avro, Parquet, Microsoft Excel
Per informazioni sui connettori supportati, consultare Supported data sources for curation and data quality.
Dimensione dati
La gestione dei dati funziona con dati di qualsiasi dimensione.
Autorizzazioni richieste
I ruoli determinano le attività di gestione che è possibile eseguire:
- È necessario disporre del ruolo CloudPak Data Steward o di un ruolo personalizzato con almeno la stessa serie di azioni. Vedere Ruoli predefiniti.
- Per utilizzare gli asset associati agli strumenti di curazione, è necessario disporre anche di ruoli specifici in progetti e cataloghi. Per i requisiti esatti, vedere i singoli strumenti.
Spazi di lavoro
È possibile eseguire attività di curation in questi spazi di lavoro:
- Progetti
- Cataloghi
A seconda delle attività di curazione che si desidera eseguire, è necessario lavorare sull'asset di dati in un progetto, un catalogo o entrambi prima che i dati siano pronti per l'uso da parte di altri utenti.
Un progetto è uno spazio di collaborazione in cui generalmente si preparano e si analizzano i dati prima di pubblicarli in un catalogo per rendere i dati disponibili ad altri utenti nella propria organizzazione. È anche possibile aggiungere dati direttamente a un catalogo se è possibile condividerli senza ulteriore preparazione. Alcuni tipi di dati possono essere aggiunti solo ai cataloghi.
Attività di cura
Queste attività di gestione consentono di sviluppare asset di dati di valore:
Aggiungere gli asset di dati a un progetto o a un catalogo:
- Aggiungere gli asset da una connessione a un'origine dati, manualmente uno per uno o più asset di dati automaticamente tramite importazione metadati. Lascia i tuoi dati dove si trovano nel cloud o in loco e aggiungi i metadati dell'asset e le informazioni di connessione per accedere ai dati all'interno di un progetto o di un catalogo.
- Caricare i singoli file nell'archiviazione associata al progetto o al catalogo.
- Aggiungere manualmente gli asset da un catalogo a un progetto per utilizzarli.
Analizza e arricchisci i tuoi dati:
Creare un profilo di singoli asset di dati per ottenere statistiche di base sul contenuto dell'asset e per assegnare classi di dati all'interno di un progetto o di un catalogo. Vedere Creazione di profili di asset di dati.
Crea ed esegue un arricchimento dei metadati in un progetto. Consultare Arricchimento degli asset di dati.
- Creare il profilo di più asset di dati in una singola esecuzione per assegnare automaticamente le classi di dati e identificare tipi di dati e formati di colonne.
- Eseguire l'analisi della qualità su più dataset in una singola esecuzione per ricercare problemi di qualità dei dati comuni, come valori mancanti o violazioni di classi di dati.
- Assegna automaticamente i termini di business agli asset e genera i suggerimenti dei termini in base alla classificazione dei dati o agli algoritmi di machine - learning.
Esaminare i risultati dell'arricchimento. Una vista globale dei punteggio di qualità per gli asset di dati è disponibile nell'asset di arricchimento dei metadati nel progetto. È possibile visualizzare i risultati dettagliati per ogni asset di dati o colonna facendo clic sul punteggio di qualità. In alternativa, è possibile accedere alle informazioni nella scheda Qualità dei dati di un asset, all'interno di un progetto o di un catalogo.
Eseguire nuovamente i lavori di importazione e arricchimento a intervalli per rilevare e valutare le modifiche agli asset di dati. Puoi eseguire questa operazione manualmente o configurare le pianificazioni per l'importazione e l'arricchimento.
Valutare la qualità dei dati eseguendo regole di qualità dei dati.
Perfezionare i dati per migliorarne la qualità e l'utilità in un progetto.
Pubblicare asset da un progetto in un catalogo.
Valutare ed esaminare gli asset di dati in un catalogo.
Creare tag e aggiungerli agli asset di dati all'interno di un catalogo.
Aggiungere classificazioni e termini di business a singoli asset di dati in un catalogo.
Attività | Dove puoi farlo manualmente? | Dove puoi farlo automaticamente? |
---|---|---|
Crea asset | Cataloghi progetti |
Cataloghi progetti |
Assegna classi di dati | Cataloghi progetti |
Cataloghi progetti |
Assegna classificazioni | Cataloghi | — |
Assegna termini di business | Cataloghi progetti |
Progetti |
Analizza la qualità dei dati (arricchimento metadati) |
Progetti | Progetti |
Valutazione della qualità dei dati (regole) | Progetti | Progetti |
Flusso del campione: curazione avanzata
Un flusso di curation potrebbe avere queste attività:
In un progetto, creare ed eseguire un'importazione di metadati con l'obiettivo Rileva per eseguire un'importazione di massa di metadati da una connessione nel progetto. È inoltre possibile configurare l'importazione dei metadati in modo che venga eseguita una sola volta o una pianificazione ripetuta.
Nello stesso progetto, creare ed eseguire un arricchimento metadati per completare queste attività per la serie di asset di dati importati in una singola esecuzione:
- Creare il profilo degli asset di dati.
- Eseguire l'analisi della qualità sugli asset di dati.
- Assegnare automaticamente i termini di business agli asset importati e generare i suggerimenti dei termini.
Puoi anche configurare una pianificazione singola o ripetuta per il tuo arricchimento dei metadati. È possibile allineare la pianificazione dell'arricchimento con la pianificazione configurata per l'importazione dei metadati.
Esaminare i risultati dell'arricchimento per gli asset di dati e le relative colonne.
Pubblicare gli asset di dati arricchiti nel catalogo.
È possibile eseguire la maggior parte delle attività di gestione con le API invece che con l'interfaccia utente. I link alle API IBM Knowledge Catalog sono elencati per ogni attività applicabile.
Ulteriori informazioni
- Asset del catalogo
- Progetti
- Data refining
- Importazione di metadati
- Arricchimento degli asset di dati
Argomento principale: Preparazione dei dati