Creazione di regole dalle definizioni di qualità dei dati
È possibile creare regole di qualità dei dati dalle definizioni di qualità dei dati nel progetto.
È possibile applicare più di una definizione di qualità dei dati a una tabella o associare la stessa definizione a più colonne della stessa tabella in una singola regola di qualità dei dati.
Nel progetto deve esistere almeno una definizione di qualità dei dati. Consultare Gestione delle definizioni di qualità dei dati.
Per creare una regola di qualità dei dati dalle definizioni di qualità dei dati:
Apri un progetto, fai clic Nuova risorsa > Misura e monitora la qualità dei dati .
In alternativa, è possibile creare una regola direttamente da una definizione di qualità dei dati.
Definisci dettagli:
Specificare un nome per la regola di qualità dei dati.
Facoltativo: fornire una descrizione.
Selezionare le dimensioni di qualità dei dati a cui contribuisce questa regola di qualità dei dati. Le dimensioni di qualità dei dati descrivono le metriche di qualità dei dati per la logica della regola in questo asset. Le dimensioni selezionate possono essere utilizzate come categoria di report, per il filtro o per la visualizzazione dei dati selezionati.
È possibile scegliere tra queste opzioni:
- Applica tutte le dimensioni preimpostate
- La regola contribuisce ai punteggi di tutte le dimensioni impostate sulle definizioni di qualità dei dati utilizzate. Questa è l'impostazione predefinita.
- Applica solo questa dimensione
- La regola contribuisce solo al punteggio della dimensione selezionata. Le impostazioni della dimensione sulle definizioni di qualità dei dati utilizzate in questa regola vengono ignorate. Se si seleziona questa opzione ma non si imposta una dimensione di qualità dei dati, i punteggi di qualità dei singoli controlli della regola vengono catturati nella dimensione Nessuno .
Facoltativo: modificare il tipo di regola che si desidera creare in una regola basata su SQL. In questo caso, procedere con le istruzioni in Creazione di una regola basata su SQL.
Aggiungere almeno una definizione di qualità dei dati. Se si crea la regola direttamente da una definizione di qualità dei dati, tale definizione è già preselezionata. Tuttavia, è possibile eliminare questa definizione di qualità dei dati preselezionata e selezionarne di diversi.
Per aggiungere le definizioni di qualità dei dati, fare clic su Aggiungi e selezionare tutte le definizioni di qualità dei dati che si desidera utilizzare per creare più controlli nella stessa regola. Il pulsante Aggiungi è disponibile solo quando non è selezionata alcuna definizione di qualità dei dati. Dopo aver aggiunto almeno una definizione, è possibile aggiungere ulteriori definizioni utilizzando l'icona più.
Per qualsiasi definizione di qualità dei dati nella finestra di dialogo Seleziona definizione di qualità dei dati , l'espressione della regola configurata viene visualizzata nel pannello laterale per consentire all'utente di scegliere la definizione più appropriata per il proprio scopo.
Se si desidera applicare la stessa definizione a colonne differenti di una tabella, è possibile duplicare la definizione di qualità dei dati selezionata tutte le volte necessarie.
Tenere presente che viene creata una voce separata nella tabella di output per ogni controllo superato o non riuscito, in base alla configurazione di output.
Configurare i bind.
Per ogni definizione di qualità dei dati, eseguire il bind dei dati a tutte le variabili nell'espressione della regola. È possibile collegare i dati della colonna, i valori letterali o i parametri del job a una variabile. A seconda dei bind configurati, potrebbe essere necessario creare le unioni come descritto nel passo successivo.
Per completare i collegamenti, è possibile spostarsi tra le definizioni di qualità dei dati utilizzando le frecce Precedente e Avanti o l'elenco a discesa. La tabella dei collegamenti mostra tutte le variabili insieme al tipo di dati. Per ogni variabile, selezionare un tipo di bind e i dati a cui associare la variabile.
Quando si collegano i dati di colonna a una variabile direttamente nella regola, è possibile utilizzare i dati da tutti gli asset di dati nel progetto che provengono da una delle connessioni supportate. Vedi Connettori supportati per la cura e la qualità dei dati. Se si desidera eseguire il bind dei dati da una connessione creata con credenziali personali, sarà necessario prima sbloccare la connessione. Oltre agli asset di dati da una connessione, è possibile utilizzare gli asset di dati da file in formato CSV caricati dal file system locale o da connessioni basate su file alle origini dati.
Tuttavia, i bind potrebbero richiedere una pre - elaborazione dei dati oppure è possibile includere ulteriori informazioni nella tabella di output. In questo caso, abilitare l'opzione Gestisci bind esternamente e attivare DataStage. Tutti i bind esistenti vengono rimossi e viene creato un flusso di DataStage . Per impostazione predefinita, il flusso DataStage è denominato
, ma si modifica tale nome. Configurare il flusso DataStage dopo aver completato la configurazione delle regole. Quando si creano regole complesse e si gestiscono i bind esternamente, è possibile lavorare con tutti gli asset di dati provenienti da connessioni supportate da DataStage. Vedere connettoriDataStage.<rule_name>_DataStage_flow
Per fare in modo che una regola di qualità dei dati con associazioni esterne contribuisca al punteggio di qualità dei dati di una risorsa o di una colonna, aggiungi tale risorsa o colonna come elemento correlato alla regola corrispondente. Utilizzare il tipo di relazione Convalida la qualità dei dati . Lo stesso punteggio e gli stessi problemi vengono riportati per tutti gli asset e le colonne collegati a questo tipo di relazione.
Oltre a collegare una variabile di regola a un singolo valore letterale o colonna, è possibile utilizzare i parametri del job a livello di progetto.
È possibile utilizzare l'opzione Parametro a valore letterale per collegare le proprie variabili di regole a valori letterali gestiti centralmente e che è possibile modificare al runtime. Tali parametri di solito rappresentano un fatto o una parte specifica di dati. Utilizzando un parametro invece del valore effettivo in una regola, si garantisce che la regola utilizzi sempre il valore più corrente in caso di modifica del valore.
Prima di poter eseguire il collegamento delle variabili di regole ai parametri del job, è necessario creare una serie di parametri DataStage riutilizzabili:
- Nel tuo progetto, fai clic su Nuova risorsa > Definisci set di parametri riutilizzabili .
- Definire i parametri con valori predefiniti o con serie di valori. Per l'utilizzo nelle regole, è possibile definire i parametri di tipo data, numero intero, stringa, virgola mobile, ora o registrazione data/ora. I tipi codificati, elenco e percorso non sono supportati. Consultare Creazione e utilizzo di parametri e serie di parametri.
Quando si utilizzano le serie di valori, è possibile modificare il valore della variabile per ogni esecuzione del lavoro. Modificare i valori dei parametri di runtime ed eseguire nuovamente il lavoro.
È anche possibile definire le colonne da utilizzare nei bind come parametri del job a livello di progetto per una manutenzione più semplice. I parametri di colonna sono costituiti da un ID asset e un nome colonna e sono memorizzati anche nelle serie di parametri DataStage . È possibile creare una nuova serie di parametri o aggiungere parametri di colonna a una serie di parametri esistente. In questo caso, è necessario creare un parametro della stringa di tipo e immettere manualmente l'ID asset e il nome colonna richiesti come valore predefinito. Il modo più semplice è aggiungere tale parametro nel passo di bind quando si crea una regola.
- Come Tipo di bind, selezionare Parametro dalla colonna. Quindi, fare clic su Seleziona parametro.
- Vengono elencate tutte le serie di parametri disponibili. Espandere quello che si desidera utilizzare.
- Per aggiungere un parametro, fare clic sul segno più.
- Specificare il nome parametro. Ignorare il campo Richiesta . Non viene utilizzato per i parametri di colonna.
- Selezionare un asset di dati e una colonna. La selezione viene impostata come valore predefinito del parametro.
Notare che gli insiemi di valori non possono essere utilizzati con i parametri della colonna. Inoltre, non è possibile modificare i parametri della colonna al runtime.
Se si aggiorna un parametro di colonna utilizzato in più di una regola, è necessario eseguire nuovamente ciascuna di queste regole di qualità dei dati aprendola e facendo clic su Esegui regola.
Crea unioni. Se i bind non richiedono unioni, è possibile passare al passo successivo. Ma se si desidera utilizzare i dati da più tabelle nella tabella di output, è necessario creare le unioni a queste tabelle. Se si gestiscono i bind esternamente, non è possibile creare le unioni nella configurazione della regola. Le unioni devono essere definite anche nel flusso DataStage .
Se i bind richiedono unioni, vengono elencate le tabelle. Un segno di spunta nella colonna Unione completa viene visualizzato dopo aver configurato un'unione. Nella tabella Chiavi di unione , completare la seguente procedura per ogni unione che si desidera definire:
Fare clic su Aggiungi coppia di chiavi.
Fare clic su Chiave 1. Quindi, selezionare il primo elemento che si desidera utilizzare nell'unione.
Fare clic su Chiave 2 e selezionare la seconda voce.
Selezionare il tipo di unione:
- Unione interna
- I record in cui le colonne selezionate contengono valori uguali vengono trasferiti al dataset di output.
- Unione esterna sinistra
- Tutti i record per la colonna selezionata per la chiave 1 vengono trasferiti nella tabella di output. I record per la colonna selezionata per la chiave 2 vengono trasferiti solo dove i valori corrispondono.
- Unione esterna destra
- Tutti i record per la colonna selezionata per la chiave 2 vengono trasferiti nella tabella di output. I record per la colonna selezionata per la chiave 1 vengono trasferiti solo dove i valori corrispondono.
- Unione esterna completa
- Tutti i record di entrambe le tabelle vengono trasferiti alla tabella di output.
È possibile modificare il tipo di unione in qualsiasi momento. Tuttavia, se si desidera modificare la selezione per la chiave 1 o 2, è necessario eliminare la coppia di chiavi esistente e crearne una nuova.
Facoltativo: configurare il campionamento.
Se non si desidera o non è necessario valutare tutte le righe di un asset di dati, abilitare il campionamento dei dati. Quindi, è possibile generare risultati in base a una frazione dei dati.
Per gli asset di dati connessi regolarmente, il campionamento viene eseguito nell'origine dati. Nella maggior parte dei database, l'ordine dei record non è deterministico. Pertanto, i record inclusi nell'esempio possono variare da esecuzione a esecuzione, il che significa che anche i risultati e il contenuto della tabella di output (se configurati) possono cambiare nel corso del tempo.
Per gli asset di dati connessi basati su query, il campionamento non viene eseguito sull'origine dati ma nello stage Sample del flusso DataStage associato alla regola.
Impostare la dimensione massima del campione. Selezionare il numero massimo di record che si desidera includere nel campione di dati. Il valore predefinito è 1.000 record.
Selezionare un metodo di campionamento:
- Sequenziale
- L'esempio comprende i primi x record dell'asset di dati. A seconda delle dimensioni dell'asset di dati, è possibile che il numero x corrisponda al valore specificato come dimensione massima di esempio consentita. Ad esempio, se si dispone di 1.000.000 di record e si specifica una dimensione di esempio massima di 2.000, il campione include i primi 2.000 record.
- Intervallo
- L'esempio include ogni nesimo record fino a quando non viene raggiunta la dimensione massima di esempio consentita. Ad esempio, se si dispone di 1.000.000 record e si specifica una dimensione di esempio di 2.000 con un intervallo di 10, viene letto un massimo di 20.000 record (2.000 * 10) con ogni 10th record selezionato per richiamare la dimensione di esempio di 2.000.
- Casuale
- Il campione include i record selezionati casualmente fino alla dimensione massima del campione consentita. La formula utilizzata per selezionare i record è (100/sample_percent)*sample_size*2. Il numero 2 viene utilizzato per assicurare che venga letto un numero sufficiente di record per produrre una dimensione del campione casuale valida. Ad esempio, se si dispone di 1.000.000 di record e si specifica una dimensione del campione di 2.000 e una percentuale di 5, il campione include 2.000 record. Per creare il campione, vengono letti al massimo 80.000 record ((100/ 5) * 2.000 * 2 = 80.000).
- Nel campo Percentuale , specificare la percentuale che si desidera utilizzare per creare l'esempio. Specificare un valore maggiore di 0 e fino a 100.
Configurare le impostazioni di output e il contenuto.
Selezionare se si desidera che l'output della regola venga scritto in un database. In caso contrario, vengono fornite solo alcune informazioni statistiche nella cronologia di esecuzione della regola. Per ulteriori informazioni, vedere Configurazione delle impostazioni di output per le regole di qualità dei dati.
Rivedere la configurazione. Per assicurarsi che la regola sia configurata correttamente, è possibile verificarla prima di salvarla nel progetto. L'output del test della regola viene visualizzato direttamente e corrisponde a quanto configurato nelle impostazioni di output.
Per apportare modifiche alla configurazione, fare clic sull'icona Modifica
sulla piastrella e aggiornare le impostazioni.
Una volta completata la revisione, fare clic su Crea. La regola e il relativo flusso DataStage vengono aggiunti al progetto. Il nome predefinito del flusso DataStage è
. Non modificare questo flusso.DataStage flow of data rule <rulename>
Se la regola è configurata con bind gestiti esternamente, la regola e il flusso DataStage e i relativi flussi secondari vengono aggiunti al progetto quando si fa clic su Crea. Tuttavia, la tua regola non è pronta per essere eseguita. Prima di eseguire la regola, è necessario modificare il flusso DataStage . È anche possibile selezionare Crea & modifica flusso DataStage. In tal caso, anche la regola e il flusso DataStage e i relativi flussi secondari vengono aggiunti al progetto, ma si viene direttamente portati alla configurazione del flusso DataStage . La denominazione di tali flussi DataStage segue il pattern
e<rule-name>_Datastage_flow
. Per ulteriori informazioni sulla configurazione del flusso, consultare FlussiDataStage.DataStage subflow of data rule <rulename>
Se la tua regola è configurata correttamente senza alcuna informazione mancante, ha lo stato Pronto. Questo stato indica che la regola può essere eseguita. Lo stato della regola Non pronto indica che la regola non può essere eseguita perché alcune dipendenze sono state modificate. Ad esempio, la definizione della qualità dei dati è stata aggiornata oppure è stata rimossa una tabella utilizzata nei bind della regola. Lo stato Non pronto viene visualizzato anche per le regole con bind gestiti esternamente se il flusso DataStage associato non è configurato. Dopo aver configurato il flusso, è possibile convalidare la regola selezionando Convalida dal menu di overflow. Se la convalida ha esito positivo, lo stato è impostato su Prontoed è possibile eseguire la regola.
Una regola potrebbe non essere più valida dopo le modifiche all'asset di dati analizzato dalla regola. Pertanto, è possibile che si desideri convalidare lo stato della regola in qualsiasi caso prima di eseguire manualmente una regola.
Ulteriori informazioni
- Asset di qualità dei dati
- Gestione delle definizioni di qualità dei dati
- Connettori supportati per la gestione e la qualità dei dati
- Creazione e utilizzo di parametri e serie di parametri
- Creazione di regole basate su SQL
- API IBM Knowledge Catalog : Creare una regola di qualità dei dati
- API IBM Knowledge Catalog : Convalida della regola di qualità dei dati
- IBM Knowledge Catalog API: Elenco di tutte le definizioni di qualità dei dati o di un sottoinsieme di esse
- IBM Knowledge Catalog API: Ottenere la definizione di qualità dei dati
Passi successivi
Argomento principale: Gestione delle regole di qualità dei dati