Informazioni sui cookie del presente sito Per il corretto funzionamento, i nostri siti Web richiedono alcuni cookie (richiesto). Inoltre, con il suo consenso, potrebbero essere utilizzati altri cookie per l'analisi dell'utilizzo del sito, per migliorare l'esperienza utente e per scopi pubblicitari. Per ulteriori informazioni, consultare le. Visitando il nostro sito web, accettate il trattamento delle informazioni da parte nostra come descritto nelladichiarazione sulla privacy di IBM. Per consentire una corretta navigazione, le preferenze per i cookie dell'utente verranno condivise sui domini Web IBM qui elencati.
Data curation
Ultimo aggiornamento: 05 apr 2025
La data curation è il processo di aggiunta di asset di dati a un progetto o a un catalogo, arricchendoli assegnando classificazioni, classi di dati e termini di business e analizzando e migliorando la qualità dei dati.
Prima di poter iniziare a curare i dati, è necessario aver configurato IBM Knowledge Catalog in modo da avere un quadro di governance e almeno un catalogo per la condivisione delle risorse curate (vedi Pianificazione dell'implementazione della governance dei dati).
La cura può essere un processo per lo più manuale in cui si curano gli asset di dati uno alla volta. La curazione avanzata è un processo più automatizzato in cui molte delle attività di curazione vengono completate automaticamente per più asset di dati contemporaneamente.
Requisiti e restrizioni
Per la cura dei dati, esistono i seguenti requisiti e restrizioni.
Strumenti di data curation
Si lavora con questi strumenti:
Servizio richiesto
La cura dei dati richiede IBM Knowledge Catalog. Anche l'analisi avanzata nel contesto dell'arricchimento dei metadati (profilazione avanzata e analisi approfondita di chiavi e relazioni) richiede il servizio DataStage.
Formati dei dati
Sono supportati i seguenti formati di dati:
- Tabelle da fonti di dati relazionali e non relazionali, Amazon S3 Delta Lake tabelle
- Metadata import: qualsiasi formato dalle connessioni basate su file alle origini dati
- Arricchimento dei metadati: Tabulare: CSV, TSV, Avro, Parquet, Microsoft Excel
Per informazioni sui connettori supportati, consultare Supported data sources for curation and data quality.
Dimensione dati
La gestione dei dati funziona con dati di qualsiasi dimensione.
Autorizzazioni richieste
I ruoli determinano le attività di gestione che è possibile eseguire:
- È necessario disporre del ruolo CloudPak Data Steward o di un ruolo personalizzato con almeno la stessa serie di azioni. Vedere Ruoli predefiniti.
- Per utilizzare gli asset associati agli strumenti di curazione, è necessario disporre anche di ruoli specifici in progetti e cataloghi. Per i requisiti esatti, vedere i singoli strumenti.
Spazi di lavoro
È possibile eseguire attività di curation in questi spazi di lavoro:
- Progetti
- Cataloghi
A seconda delle attività di curazione che si desidera eseguire, è necessario lavorare sull'asset di dati in un progetto, un catalogo o entrambi prima che i dati siano pronti per l'uso da parte di altri utenti.
Un progetto è uno spazio di collaborazione in cui generalmente si preparano e si analizzano i dati prima di pubblicarli in un catalogo per rendere i dati disponibili ad altri utenti nella propria organizzazione. È anche possibile aggiungere dati direttamente a un catalogo se è possibile condividerli senza ulteriore preparazione. Alcuni tipi di dati possono essere aggiunti solo ai cataloghi.
Attività di cura
Queste attività di gestione consentono di sviluppare asset di dati di valore:
Aggiungere gli asset di dati a un progetto o a un catalogo:
- Aggiungere gli asset da una connessione a un'origine dati, manualmente uno per uno o più asset di dati automaticamente tramite importazione metadati. Lascia i tuoi dati dove si trovano nel cloud o in loco e aggiungi i metadati dell'asset e le informazioni di connessione per accedere ai dati all'interno di un progetto o di un catalogo.
- Caricare i singoli file nell'archiviazione associata al progetto o al catalogo.
- Aggiungere manualmente gli asset da un catalogo a un progetto per utilizzarli.
Analizza e arricchisci i tuoi dati:
Creare un profilo di singoli asset di dati per ottenere statistiche di base sul contenuto dell'asset e per assegnare classi di dati all'interno di un progetto o di un catalogo. Vedere Creazione di profili di asset di dati.
Crea ed esegue un arricchimento dei metadati in un progetto. Consultare Arricchimento degli asset di dati.
- Creare il profilo di più asset di dati in una singola esecuzione per assegnare automaticamente le classi di dati e identificare tipi di dati e formati di colonne.
- Eseguire l'analisi della qualità su più dataset in una singola esecuzione per ricercare problemi di qualità dei dati comuni, come valori mancanti o violazioni di classi di dati.
- Assegna automaticamente i termini di business agli asset e genera i suggerimenti dei termini in base alla classificazione dei dati o agli algoritmi di machine - learning.
- Fornire chiavi primarie e straniere e candidare le relazioni tra asset e colonne in base alle statistiche di profilazione e alle somiglianze dei nomi tra le colonne.
Esaminare i risultati dell'arricchimento. Una vista globale dei punteggio di qualità per gli asset di dati è disponibile nell'asset di arricchimento dei metadati nel progetto. È possibile visualizzare i risultati dettagliati per ogni asset di dati o colonna facendo clic sul punteggio di qualità. In alternativa, è possibile accedere alle informazioni nella scheda Qualità dei dati di un asset, all'interno di un progetto o di un catalogo.
Eseguire analisi più approfondite sui dati reali: analisi delle chiavi primarie, analisi delle relazioni tra chiavi, analisi delle sovrapposizioni o profilazione avanzata dei dati
Eseguire nuovamente i lavori di importazione e arricchimento a intervalli per rilevare e valutare le modifiche agli asset di dati. Puoi eseguire questa operazione manualmente o configurare le pianificazioni per l'importazione e l'arricchimento.
Valutare la qualità dei dati eseguendo regole di qualità dei dati.
Perfezionare i dati per migliorarne la qualità e l'utilità in un progetto.
Pubblicare asset da un progetto in un catalogo.
Valutare ed esaminare gli asset di dati in un catalogo.
Creare tag e aggiungerli agli asset di dati all'interno di un catalogo.
Aggiungere classificazioni e termini di business a singoli asset di dati in un catalogo.
Attività | Dove puoi farlo manualmente? | Dove puoi farlo automaticamente? |
---|---|---|
Crea asset | Cataloghi progetti |
Cataloghi progetti |
Assegna classi di dati | Cataloghi progetti |
Cataloghi progetti |
Assegna classificazioni | Cataloghi | — |
Assegna termini di business | Cataloghi progetti |
Progetti |
Analizza la qualità dei dati (arricchimento metadati) |
Progetti | Progetti |
Identificare le chiavi, le relazioni tra le chiavi e le sovrapposizioni di dati | Progetti | Progetti |
Valutazione della qualità dei dati (regole) | Progetti | Progetti |
Flusso del campione: curazione avanzata
Un flusso di curation potrebbe avere queste attività:
In un progetto, creare ed eseguire un'importazione di metadati con l'obiettivo Rileva per eseguire un'importazione di massa di metadati da una connessione nel progetto. È inoltre possibile configurare l'importazione dei metadati in modo che venga eseguita una sola volta o una pianificazione ripetuta.
Nello stesso progetto, creare ed eseguire un arricchimento metadati per completare queste attività per la serie di asset di dati importati in una singola esecuzione:
- Creare il profilo degli asset di dati.
- Eseguire l'analisi della qualità sugli asset di dati.
- Assegnare automaticamente i termini di business agli asset importati e generare i suggerimenti dei termini.
- Identificare le chiavi primarie e le chiavi esterne per generare relazioni candidate tra asset e colonne.
Puoi anche configurare una pianificazione singola o ripetuta per il tuo arricchimento dei metadati. È possibile allineare la pianificazione dell'arricchimento con la pianificazione configurata per l'importazione dei metadati.
Esaminare i risultati dell'arricchimento per gli asset di dati e le relative colonne.
Facoltativo: Eseguire ulteriori analisi sugli asset di dati nell'arricchimento dei metadati.
Pubblicare gli asset di dati arricchiti nel catalogo.
È possibile eseguire la maggior parte delle attività di gestione con le API invece che con l'interfaccia utente. I link alle API IBM Knowledge Catalog sono elencati per ogni attività applicabile.
Ulteriori informazioni
- Asset del catalogo
- Progetti
- Data refining
- Importazione di metadati
- Arricchimento degli asset di dati
Argomento principale: Preparazione dei dati
L'argomento è stato utile?
0/1000