Progettare asset di qualità dei dati per analizzare e monitorare la qualità dei dati in un progetto.
È possibile avere i seguenti asset di qualità dei dati nel progetto:
Prima di iniziare a creare le definizioni e le regole di qualità dei dati, è necessario riflettere sui seguenti argomenti:
- Cosa si desidera analizzare e monitorare?
- Quali elementi è necessario valutare?
- Qual è l'obiettivo dell'analisi, ad esempio la verifica della completezza, della validità e così via?
- Autorizzazioni richieste
- Per creare, modificare o eliminare gli asset di qualità dei dati, è necessario disporre del Gestisci asset di qualità dei dati autorizzazione utente e del ruolo Amministrazione o Editor nel progetto.
Definizioni di qualità dei dati
Una definizione di qualità dei dati rappresenta un formato generico di una regola di qualità dei dati. Descrive la valutazione della regola o la condizione utilizzando variabili logiche che non sono collegate ad alcun dato effettivo. Pertanto, può essere utilizzato in qualsiasi numero di regole di qualità dei dati. Se si modifica la definizione della qualità dei dati, si modifica anche la logica di convalida per tutte le regole derivate dalla definizione.
Creare e gestire definizioni di qualità dei dati nei progetti. Per rendere una definizione di qualità dei dati disponibile per il riutilizzo in altri progetti, è possibile pubblicarla in catalogo.
Proprietà per le definizioni di qualità dei dati
Oltre alle proprietà comuni dell'asset, le definizioni di qualità dei dati hanno le seguenti proprietà nei progetti. Gli utenti con le autorizzazioni appropriate possono modificare tutte le proprietà.
Per ulteriori informazioni sulle proprietà comuni, consultare Proprietà comuni per gli asset.
Proprietà | Descrizione |
---|---|
Espressione della regola | La logica della regola definita. Le modifiche all'espressione della regola influenzano tutte le regole derivate da questa definizione di qualità dei dati. |
Dimensione della qualità dei dati | Facoltativo. La metrica di qualità dei dati primaria per la logica della regola. La dimensione selezionata può essere utilizzata come categoria di report, per il filtro o per la visualizzazione dei dati selezionati. |
Risorse utente di governance | Facoltativo. I termini di business e le regole di governance che gli utenti hanno assegnato all'asset. |
Regole di qualità dei dati
Una regola di qualità dei dati collega o collega le variabili logiche ai dati effettivi per la valutazione. Una regola viene eseguita rispetto ai dati fisici per valutare la qualità dei dati valutando e convalidando condizioni specifiche. Ogni esecuzione di regola fornisce statistiche e informazioni sulle potenziali eccezioni definite per la tabella di output della regola.
Le regole di qualità dei dati vengono create, gestite ed eseguite nei progetti.
È possibile creare regole da una o più definizioni di qualità dei dati oppure è possibile creare regole di qualità dei dati con istruzioni SQL. Le regole create dalle definizioni di qualità dei dati catturano quali colonne sono conformi alle regole e quali no. Le regole basate su SQL sono più adatte per verificare la presenza di record non conformi.
Ad esempio, si desidera convalidare gli ID imposta. I concetti potrebbero essere TaxID exists e Validate TaxID.
Ora, hai queste opzioni:
Creare regole dalle definizioni di qualità dei dati. Per entrambi i concetti, è possibile creare una definizione di qualità dei dati con la logica di valutazione per la variabile logica
tax_id
. La prima condizione è che l'identificativo della tassa (o TaxID) deve esistere, e la seconda condizione è che l'identificativo della tassa deve soddisfare un formato definito.La definizione di qualità dei dati TaxID esiste:
tax_id exists
Definizione di qualità dei dati Convalida TaxID:tax_id matches_format 'AA99-A999-9999'
Quindi, selezionare una delle opzioni seguenti:
- Per ciascuna colonna che contiene un identificativo di tassa da convalidare, definire due regole di qualità dei dati. La prima regola collega la variabile logica
tax_id
della definizione TaxID exists alla colonna. La seconda regola associa la variabile logicatax_id
della definizione Validate TaxID alla colonna. - Per ogni colonna contenente un identificativo di tassa da convalidare, definire una regola di qualità dei dati e utilizzare entrambe le definizioni di qualità dei dati in tale regola. Collegare la variabile logica
tax_id
nella definizione TaxID esistente e Convalida TaxID alla colonna. - Definire una regola di qualità dei dati e utilizzare entrambe le definizioni di qualità dei dati in tale regola. Collegare la variabile logica
tax_id
nella definizione TaxID esistente e Convalida TaxID ad una serie di parametri di tipo Parametro dalla colonna. Aggiungere tutte le colonne che contengono un identificativo di tassa da convalidare a tale serie di parametri.
- Per ciascuna colonna che contiene un identificativo di tassa da convalidare, definire due regole di qualità dei dati. La prima regola collega la variabile logica
Creare una regola basata su SQL:
select tax_id from taxschema.taxtable where tax_id is null or not regexp_like(tax_id, '^[a-zA-Z]{2}[0-9]{2}-[a-zA-Z][0-9]{3}-[0-9]{4}$')
Proprietà per le regole di qualità dei dati
Oltre alle proprietà comuni degli asset, le regole di qualità dei dati hanno le seguenti proprietà nei progetti. Gli utenti con le autorizzazioni appropriate possono modificare tutte le proprietà.
Per ulteriori informazioni sulle proprietà comuni, consultare Proprietà comuni per gli asset.
Proprietà | Descrizione | Tipo di regola |
---|---|---|
Espressioni collegate | L'elenco delle espressioni di regola. Per regole semplici, è possibile visualizzare informazioni su una destinazione di bind passando con il mouse sul tag nell'espressione di bind. | Regola semplice Regola con bind esterni |
connessione SQL | La connessione all'origine dati in cui verrà applicata la regola. | Regola basata su SQL |
Istruzioni SQL | La query SQL che costituisce la regola. | Regola basata su SQL |
Dimensione della qualità dei dati | Facoltativo. La metrica di qualità dei dati primaria a cui contribuisce la regola di qualità dei dati. | Regola semplice Regola con bind esterni |
Flusso DataStage correlato | Il flusso DataStage che fornisce i bind per la regola. | Regola con bind esterni |
Definizioni di qualità dei dati | Le definizioni di qualità dei dati che forniscono le espressioni della regola. | Regola semplice Regola con bind esterni |
Risorse utente di governance | Facoltativo. I termini di business e le regole di governance che gli utenti hanno assegnato all'asset. | Regole semplici basate su SQL Regola con bind esterni |
Relazioni | Le relazioni vengono visualizzate nella sezione Oggetti correlati . Può essere tra la regola di qualità dei dati e gli asset o le colonne nello stesso progetto oppure tra la regola e una risorsa utente. Le seguenti relazioni vengono create automaticamente: Per tutti i tipi di regola, una relazione È implementata da con il flusso DataStage associato dopo la prima esecuzione della regola Per le regole con bind gestiti esternamente, a È implementato dalla relazione con il flusso secondario DataStage associato Per regole semplici, una relazione Convalida la qualità dei dati di con ogni colonna associata e con l'asset che contiene la colonna. Per regole semplici e regole con bind gestiti esternamente, una relazione Implements per ciascuna delle definizioni di qualità dei dati di riferimento Aggiungere oggetti correlati come richiesto. La pagina Qualità dei dati mostra le informazioni aggregate per ogni asset o colonna correlata qui elencata con una relazione Convalida la qualità dei dati di . |
Regole semplici basate su SQL Regola con bind esterni |
Output selezionato | Facoltativo. Se configurate, le colonne della tabella di output della regola. | Regole semplici basate su SQL Regola con bind esterni |
Ulteriori informazioni
Argomento principale: Gestione della qualità dei dati