Asset di qualità dei dati
Progettare asset di qualità dei dati per analizzare e monitorare la qualità dei dati in un progetto.
È possibile avere i seguenti asset di qualità dei dati nel progetto:
Prima di iniziare a creare le definizioni e le regole di qualità dei dati, è necessario riflettere sui seguenti argomenti:
- Cosa si desidera analizzare e monitorare?
- Quali elementi è necessario valutare?
- Qual è l'obiettivo dell'analisi, ad esempio la verifica della completezza, della validità e così via?
- Autorizzazioni richieste
- Per creare, modificare o eliminare gli asset di qualità dei dati, è necessario disporre del Gestisci asset di qualità dei dati autorizzazione utente e del ruolo Amministrazione o Editor nel progetto.
Definizioni di qualità dei dati
Una definizione di qualità dei dati rappresenta un formato generico di una regola di qualità dei dati. Descrive la valutazione della regola o la condizione utilizzando variabili logiche che non sono collegate ad alcun dato effettivo. Pertanto, può essere utilizzato in qualsiasi numero di regole di qualità dei dati. Se si modifica la definizione della qualità dei dati, si modifica anche la logica di convalida per tutte le regole derivate dalla definizione.
Creare e gestire definizioni di qualità dei dati nei progetti. Per rendere una definizione di qualità dei dati disponibile per il riutilizzo in altri progetti, è possibile pubblicarla in catalogo.
Proprietà per le definizioni di qualità dei dati
Oltre alle proprietà comuni dell'asset, le definizioni di qualità dei dati hanno le seguenti proprietà nei progetti. Gli utenti con le autorizzazioni appropriate possono modificare tutte le proprietà.
Per ulteriori informazioni sulle proprietà comuni, consultare Proprietà comuni per gli asset.
Proprietà | Descrizione |
---|---|
Espressione della regola | La logica della regola definita. Le modifiche all'espressione della regola influenzano tutte le regole derivate da questa definizione di qualità dei dati. |
Dimensione della qualità dei dati | Facoltativo. La metrica di qualità dei dati primaria per la logica della regola. La dimensione selezionata può essere utilizzata come categoria di report, per il filtro o per la visualizzazione dei dati selezionati. |
Risorse utente di governance | Facoltativo. I termini di business e le regole di governance che gli utenti hanno assegnato all'asset. |
Regole di qualità dei dati
Una regola di qualità dei dati collega o collega le variabili logiche ai dati effettivi per la valutazione. Una regola viene eseguita rispetto ai dati fisici per valutare la qualità dei dati valutando e convalidando condizioni specifiche. Ogni esecuzione di regola fornisce statistiche e informazioni sulle potenziali eccezioni definite per la tabella di output della regola.
Le regole di qualità dei dati vengono create, gestite ed eseguite nei progetti.
È possibile creare regole da una o più definizioni di qualità dei dati oppure è possibile creare regole di qualità dei dati con istruzioni SQL. Le regole create dalle definizioni di qualità dei dati catturano quali colonne sono conformi alle regole e quali no. Le regole basate su SQL sono più adatte per verificare la presenza di record non conformi.
Ad esempio, si desidera convalidare gli ID imposta. I concetti potrebbero essere TaxID exists e Validate TaxID.
Ora, hai queste opzioni:
Creare regole dalle definizioni di qualità dei dati. Per entrambi i concetti, è possibile creare una definizione di qualità dei dati con la logica di valutazione per la variabile logica
. La prima condizione è che l'identificativo della tassa (o TaxID) deve esistere, e la seconda condizione è che l'identificativo della tassa deve soddisfare un formato definito.tax_id
Definizione della qualità dei dati TaxID esiste :
tax_id exists
Definizione della qualità dei dati Convalida TaxID :tax_id matches_format 'AA99-A999-9999'
Quindi, selezionare una delle opzioni seguenti:
- Per ciascuna colonna che contiene un identificativo di tassa da convalidare, definire due regole di qualità dei dati. La prima regola collega la variabile logica
della definizione TaxID exists alla colonna. La seconda regola associa la variabile logicatax_id
della definizione Validate TaxID alla colonna.tax_id
- Per ogni colonna contenente un identificativo di tassa da convalidare, definire una regola di qualità dei dati e utilizzare entrambe le definizioni di qualità dei dati in tale regola. Collegare la variabile logica
nella definizione TaxID esistente e Convalida TaxID alla colonna.tax_id
- Definire una regola di qualità dei dati e utilizzare entrambe le definizioni di qualità dei dati in tale regola. Collegare la variabile logica
nella definizione TaxID esistente e Convalida TaxID ad una serie di parametri di tipo Parametro dalla colonna. Aggiungere tutte le colonne che contengono un identificativo di tassa da convalidare a tale serie di parametri.tax_id
- Per ciascuna colonna che contiene un identificativo di tassa da convalidare, definire due regole di qualità dei dati. La prima regola collega la variabile logica
Creare una regola basata su SQL:
select tax_id from taxschema.taxtable where tax_id is null or not regexp_like(tax_id, '^[a-zA-Z]{2}[0-9]{2}-[a-zA-Z][0-9]{3}-[0-9]{4}$')
Proprietà per le regole di qualità dei dati
Oltre alle proprietà comuni degli asset, le regole di qualità dei dati hanno le seguenti proprietà nei progetti. Gli utenti con le autorizzazioni appropriate possono modificare tutte le proprietà.
Per ulteriori informazioni sulle proprietà comuni, consultare Proprietà comuni per gli asset.
Proprietà | Descrizione | Tipo di regola |
---|---|---|
Espressioni collegate | L'elenco delle espressioni di regola. Puoi visualizzare le informazioni su un target di binding passando il mouse sul tag nell'espressione di binding. | Regola semplice |
Espressioni di regola | L'elenco delle espressioni di regola. | Regola con bind esterni |
connessione SQL | La connessione all'origine dati in cui verrà applicata la regola. | Regola basata su SQL |
Istruzioni SQL | La query SQL che costituisce la regola. | Regola basata su SQL |
Dimensione della qualità dei dati | Facoltativo. La metrica di qualità dei dati primaria a cui contribuisce la regola di qualità dei dati. | Regola semplice Regola con bind esterni |
Flusso DataStage correlato | Il flusso DataStage che fornisce i bind per la regola. | Regola con bind esterni |
Definizioni di qualità dei dati | Le definizioni di qualità dei dati che forniscono le espressioni della regola. | Regola semplice Regola con bind esterni |
Risorse utente di governance | Facoltativo. I termini di business e le regole di governance che gli utenti hanno assegnato all'asset. | Regole semplici basate su SQL Regola con bind esterni |
Relazioni | Le relazioni vengono visualizzate nella sezione Oggetti correlati . Può essere tra la regola di qualità dei dati e le risorse o le colonne nello stesso progetto, oppure tra la regola e un artefatto. Le seguenti relazioni vengono create automaticamente: • Per tutti i tipi di regole, una relazione Is implemented by con il flusso associato DataStage dopo la prima esecuzione della regola • Per le regole con associazioni gestite esternamente, una relazione Is implemented by con il sottoflusso associato DataStage • Per le regole semplici, una relazione Validates data quality con ogni colonna associata. • Per regole semplici e regole con bind gestiti esternamente, una relazione Implements per ciascuna delle definizioni di qualità dei dati di riferimento Aggiungere oggetti correlati come richiesto. La pagina Qualità dei dati mostra le informazioni aggregate per ogni colonna elencata qui con un Valida la qualità dei dati di relazione. |
Regole semplici basate su SQL Regola con bind esterni |
Output selezionato | Facoltativo. Se configurate, le colonne della tabella di output della regola. | Regole semplici basate su SQL Regola con bind esterni |
Trasferimento di asset di qualità dei dati tra progetti
È possibile esportare le risorse di qualità dei dati da un progetto e importarle in un altro progetto, come descritto in Esportazione delle risorse del progetto. Oltre alle definizioni e alle regole di qualità dei dati, è possibile selezionare i seguenti elementi associati alle regole di qualità dei dati da includere nell'esportazione del progetto:
- Collegamento
- Asset di dati utilizzati nei binding
- DataStage flussi e sottoflussi
- Lavori
- Risorse di dati create per le tabelle di output delle regole
I seguenti elementi non vengono esportati:
- Cronologia delle corse delle regole
- Qualsiasi artefatto di governance associato a un asset di qualità dei dati
- Impostazioni di output a livello di progetto
- Informazioni sulla qualità dei dati generate dalle regole
Ulteriori informazioni
Argomento principale: Gestione della qualità dei dati