Misurare, monitorare e mantenere la qualità dei dati per garantire che soddisfino le aspettative e gli standard per casi di utilizzo specifici.
I dati di buona qualità sono in uno stato che di solito può essere definito come adatto all'uso, privo di difettio conforme alle aspettative e ai requisiti. La qualità dei dati viene misurata rispetto alle dimensioni di qualità predefinite Accuratezza, Completezza, Congruenza, Tempestività, Univocitàe Validitàe qualsiasi dimensione di qualità personalizzata.
L'analisi della qualità dei dati fornisce risposte a queste domande:
- Qual è la qualità complessiva di un asset di dati?
- Quale degli asset di dati ha la migliore qualità?
- Come è cambiata la qualità di un asset di dati nel tempo?
Requisiti e restrizioni
Per la gestione della qualità dei dati, esistono i seguenti requisiti e limitazioni.
Servizi richiesti
La gestione della qualità dei dati richiede questi servizi:
- IBM Knowledge Catalog
- DataStage o DataStage as a Service Anywhere
Con DataStage, è possibile eseguire regole di qualità dei dati nelle regioni supportate. Con DataStage as a Service Anywhere, è possibile eseguire le regole di qualità dei dati al di fuori di IBM Cloud utilizzando motori remoti. Per ulteriori informazioni sull'impostazione dei motori remoti, vedere il documento ' documentazione DataStage as a Service Anywhere .
Strumenti di qualità dei dati
Si lavora con questi strumenti:
Formati dei dati
Sono supportati i seguenti formati di dati:
- Tabelle da origini dati relazionali e non relazionali
- Tabellari: Avro, CSV, Parquet, ORC; per le risorse di dati caricate dal file system locale, solo CSV
Per informazioni sui connettori supportati, consultare Supported data sources for curation and data quality.
Dimensione dati
Le attività di gestione della qualità dei dati possono essere eseguite su dati di qualsiasi dimensione.
Autorizzazioni richieste
I ruoli determinano le attività di gestione della qualità dei dati che è possibile eseguire:
- Per visualizzare le regole e le definizioni della qualità dei dati, è necessario disporre almeno del ruolo Visualizzatore nel progetto.
- Per creare, modificare o eliminare regole e definizioni di qualità dei dati, è necessario disporre del ruolo Admin o Editor nel progetto. Inoltre, è necessario disporre dell' autorizzazione utente Gestisci asset di qualità dei dati .
- Per eseguire le regole di qualità dei dati, è necessario disporre del ruolo Amministrazione o Editor nel progetto e in Esegui regole di qualità dei dati autorizzazione utente.
- Per visualizzare i dati che hanno causato problemi di qualità dei dati (la tabella di output) dalla cronologia di esecuzione delle regole o dalla pagina Qualità dei dati, è necessario disporre dell'autorizzazione Drill down to issue details dell'utente. Tuttavia, la risorsa dati del progetto creata per la tabella di output è accessibile a chiunque possa accedere alla connessione. Per limitare l'accesso a questa risorsa di dati, la connessione all'origine dati in cui è memorizzata la tabella di output deve essere impostata con credenziali personali.
- Per creare, modificare o eliminare le regole SLA sulla qualità dei dati, è necessario disporre di queste autorizzazioni utente :
- Accedi alle risorse utente di governance
- Gestire le regole SLA sulla qualità dei dati
Spazi di lavoro
È possibile eseguire attività di gestione della qualità dei dati nei progetti. Le informazioni sulla qualità dei dati di sola lettura sono disponibili nei cataloghi.
Analisi e monitoraggio della qualità dei dati
Utilizzare il monitoraggio e l'analisi della qualità dei dati per valutare i dati rispetto a specifici criteri. Utilizzare ripetutamente questi criteri di valutazione nel tempo per vedere importanti cambiamenti nella qualità dei dati in fase di convalida.
Una volta progettato un controllo di qualità dei dati, sono disponibili le seguenti opzioni:
Creare una definizione di qualità dei dati che definisca la logica del controllo dati indipendentemente dall'origine dati. La definizione contiene le variabili logiche o i riferimenti che si collegano o collegano ai dati effettivi (ad esempio, origine dati, tabella e colonna o tabelle unite) quando si crea una regola di qualità dei dati che può essere eseguita.
Dopo aver creato una regola di qualità dei dati con i collegamenti richiesti in base a una definizione di qualità dei dati selezionata, tale regola può essere eseguita. La regola produce statistiche rilevanti e può generare una tabella di output, a seconda della configurazione della regola.
Creare una regola di qualità dei dati basata su SQL.
La funzionalità di una regola di qualità dei dati può variare da un semplice test di una singola colonna alla valutazione di più colonne all'interno e tra origini dati.
Valutazione della qualità dei dati
Per determinare se i dati sono di buona qualità, verificare in che misura i dati soddisfano le aspettative e identificare le anomalie nei dati. Valutare la qualità dei dati aiuta anche a comprendere la struttura e il contenuto dei dati.
Monitoraggio della qualità dei dati
Per garantire che i dati importanti soddisfino le aspettative di qualità della vostra organizzazione, implementate regole SLA di qualità dei dati che monitorino la conformità dei dati agli standard e che prevedano la correzione dei problemi di qualità dei dati rilevati.
Ulteriori informazioni
- Asset di qualità dei dati
- Gestione delle definizioni di qualità dei dati
- Gestione delle regole di qualità dei dati
- Valutazione della qualità dei dati
- Conformità alle regole SLA della qualità dei dati e correzione dei problemi
Argomento principale Preparazione dei dati