È possibile creare regole di qualità dei dati dalle definizioni di qualità dei dati nel progetto.
È possibile applicare più di una definizione di qualità dei dati a una tabella o associare la stessa definizione a più colonne della stessa tabella in una singola regola di qualità dei dati.
Nel progetto deve esistere almeno una definizione di qualità dei dati. Consultare Gestione delle definizioni di qualità dei dati.
Per creare una regola di qualità dei dati dalle definizioni di qualità dei dati:
Apri un progetto, fai clic Nuova risorsa > Misura e monitora la qualità dei dati .
In alternativa, è possibile creare una regola direttamente da una definizione di qualità dei dati.
Definisci dettagli:
Specificare un nome per la regola di qualità dei dati.
Facoltativo: fornire una descrizione.
Selezionare le dimensioni di qualità dei dati a cui contribuisce questa regola di qualità dei dati. Le dimensioni di qualità dei dati descrivono le metriche di qualità dei dati per la logica della regola in questo asset. Le dimensioni selezionate possono essere utilizzate come categoria di report, per il filtro o per la visualizzazione dei dati selezionati.
È possibile scegliere tra queste opzioni:
- Applica tutte le dimensioni preimpostate
- La regola contribuisce ai punteggi di tutte le dimensioni impostate sulle definizioni di qualità dei dati utilizzate. Questa è l'impostazione predefinita.
- Applica solo questa dimensione
- La regola contribuisce solo al punteggio della dimensione selezionata. Le impostazioni della dimensione sulle definizioni di qualità dei dati utilizzate in questa regola vengono ignorate. Se si seleziona questa opzione ma non si imposta una dimensione di qualità dei dati, i punteggi di qualità dei singoli controlli della regola vengono catturati nella dimensione Nessuno .
Facoltativo: modificare il tipo di regola che si desidera creare in una regola basata su SQL. In questo caso, procedere con le istruzioni in Creazione di una regola basata su SQL.
Aggiungere almeno una definizione di qualità dei dati. Se si crea la regola direttamente da una definizione di qualità dei dati, tale definizione è già preselezionata. Tuttavia, è possibile eliminare questa definizione di qualità dei dati preselezionata e selezionarne di diversi.
Per aggiungere le definizioni di qualità dei dati, fare clic su Aggiungi e selezionare tutte le definizioni di qualità dei dati che si desidera utilizzare per creare più controlli nella stessa regola. Il pulsante Aggiungi è disponibile solo quando non è selezionata alcuna definizione di qualità dei dati. Dopo aver aggiunto almeno una definizione, è possibile aggiungere ulteriori definizioni utilizzando l'icona più.
Per qualsiasi definizione di qualità dei dati nella finestra di dialogo Seleziona definizione di qualità dei dati , l'espressione della regola configurata viene visualizzata nel pannello laterale per consentire all'utente di scegliere la definizione più appropriata per il proprio scopo.
Se si desidera applicare la stessa definizione a colonne differenti di una tabella, è possibile duplicare la definizione di qualità dei dati selezionata tutte le volte necessarie.
Tenere presente che viene creata una voce separata nella tabella di output per ogni controllo superato o non riuscito, in base alla configurazione di output.
Configurare i bind.
Per ogni definizione di qualità dei dati, eseguire il bind dei dati a tutte le variabili nell'espressione della regola. È possibile collegare i dati della colonna, i valori letterali o i parametri del job a una variabile. A seconda dei bind configurati, potrebbe essere necessario creare le unioni come descritto nel passo successivo.
Per completare i collegamenti, è possibile spostarsi tra le definizioni di qualità dei dati utilizzando le frecce Precedente e Avanti o l'elenco a discesa. La tabella dei collegamenti mostra tutte le variabili insieme al tipo di dati. Per ogni variabile, selezionare un tipo di bind e i dati a cui associare la variabile.
Quando si collegano i dati di colonna a una variabile direttamente nella regola, è possibile utilizzare i dati da tutti gli asset di dati nel progetto che provengono da una delle connessioni supportate. Vedi Connettori supportati per la cura e la qualità dei dati. Se si desidera eseguire il bind dei dati da una connessione creata con credenziali personali, sarà necessario prima sbloccare la connessione. Oltre agli asset di dati da una connessione, è possibile utilizzare gli asset di dati da file in formato CSV caricati dal file system locale o da connessioni basate su file alle origini dati.
Tuttavia, i bind potrebbero richiedere una pre - elaborazione dei dati oppure è possibile includere ulteriori informazioni nella tabella di output. In questo caso, abilitare l'opzione Gestisci bind esternamente e attivare DataStage. Tutti i bind esistenti vengono rimossi e viene creato un flusso di DataStage . Per impostazione predefinita, il flusso DataStage è denominato
<rule_name>_DataStage_flow
, ma si modifica tale nome. Configurare il flusso DataStage dopo aver completato la configurazione delle regole. Quando si creano regole complesse e si gestiscono i bind esternamente, è possibile lavorare con tutti gli asset di dati provenienti da connessioni supportate da DataStage. Vedere connettoriDataStage.Per fare in modo che una regola di qualità dei dati con associazioni esterne contribuisca al punteggio di qualità dei dati di una risorsa o di una colonna, aggiungi tale risorsa o colonna come elemento correlato alla regola corrispondente. Utilizzare il tipo di relazione Convalida la qualità dei dati . Lo stesso punteggio e gli stessi problemi vengono riportati per tutti gli asset e le colonne collegati a questo tipo di relazione.
Oltre a collegare una variabile di regola a un singolo valore letterale o colonna, è possibile utilizzare i parametri del job a livello di progetto.
È possibile utilizzare l'opzione Parametro a valore letterale per collegare le proprie variabili di regole a valori letterali gestiti centralmente e che è possibile modificare al runtime. Tali parametri di solito rappresentano un fatto o una parte specifica di dati. Utilizzando un parametro invece del valore effettivo in una regola, si garantisce che la regola utilizzi sempre il valore più corrente in caso di modifica del valore.
Prima di poter eseguire il collegamento delle variabili di regole ai parametri del job, è necessario creare una serie di parametri DataStage riutilizzabili:
- Nel tuo progetto, fai clic su Nuova risorsa > Definisci set di parametri riutilizzabili .
- Definire i parametri con valori predefiniti o con serie di valori. Per l'utilizzo nelle regole, è possibile definire i parametri di tipo data, numero intero, stringa, virgola mobile, ora o registrazione data/ora. I tipi codificati, elenco e percorso non sono supportati. Consultare Creazione e utilizzo di parametri e serie di parametri.
Quando si utilizzano le serie di valori, è possibile modificare il valore della variabile per ogni esecuzione del lavoro. Modificare i valori dei parametri di runtime ed eseguire nuovamente il lavoro.
È anche possibile definire le colonne da utilizzare nei bind come parametri del job a livello di progetto per una manutenzione più semplice. I parametri di colonna sono costituiti da un ID asset e un nome colonna e sono memorizzati anche nelle serie di parametri DataStage . È possibile creare una nuova serie di parametri o aggiungere parametri di colonna a una serie di parametri esistente. In questo caso, è necessario creare un parametro della stringa di tipo e immettere manualmente l'ID asset e il nome colonna richiesti come valore predefinito. Il modo più semplice è aggiungere tale parametro nel passo di bind quando si crea una regola.
- Come Tipo di bind, selezionare Parametro dalla colonna. Quindi, fare clic su Seleziona parametro.
- Vengono elencate tutte le serie di parametri disponibili. Espandere quello che si desidera utilizzare.
- Per aggiungere un parametro, fare clic sul segno più.
- Specificare il nome parametro. Ignorare il campo Richiesta . Non viene utilizzato per i parametri di colonna.
- Selezionare un asset di dati e una colonna. La selezione viene impostata come valore predefinito del parametro.
Notare che gli insiemi di valori non possono essere utilizzati con i parametri della colonna. Inoltre, non è possibile modificare i parametri della colonna al runtime.
Se si aggiorna un parametro di colonna utilizzato in più di una regola, è necessario eseguire nuovamente ciascuna di queste regole di qualità dei dati aprendola e facendo clic su Esegui regola.
Crea unioni. Se i bind non richiedono unioni, è possibile passare al passo successivo. Ma se si desidera utilizzare i dati da più tabelle nella tabella di output, è necessario creare le unioni a queste tabelle. Se si gestiscono i bind esternamente, non è possibile creare le unioni nella configurazione della regola. Le unioni devono essere definite anche nel flusso DataStage .
Se i bind richiedono unioni, vengono elencate le tabelle. Un segno di spunta nella colonna Unione completa viene visualizzato dopo aver configurato un'unione. Nella tabella Chiavi di unione , completare la seguente procedura per ogni unione che si desidera definire:
Fare clic su Aggiungi coppia di chiavi.
Fare clic su Chiave 1. Quindi, selezionare il primo elemento che si desidera utilizzare nell'unione.
Fare clic su Chiave 2 e selezionare la seconda voce.
Selezionare il tipo di unione:
- Unione interna
- I record in cui le colonne selezionate contengono valori uguali vengono trasferiti al dataset di output.
- Unione esterna sinistra
- Tutti i record per la colonna selezionata per la chiave 1 vengono trasferiti nella tabella di output. I record per la colonna selezionata per la chiave 2 vengono trasferiti solo dove i valori corrispondono.
- Unione esterna destra
- Tutti i record per la colonna selezionata per la chiave 2 vengono trasferiti nella tabella di output. I record per la colonna selezionata per la chiave 1 vengono trasferiti solo dove i valori corrispondono.
- Unione esterna completa
- Tutti i record di entrambe le tabelle vengono trasferiti alla tabella di output.
È possibile modificare il tipo di unione in qualsiasi momento. Tuttavia, se si desidera modificare la selezione per la chiave 1 o 2, è necessario eliminare la coppia di chiavi esistente e crearne una nuova.
Facoltativo: configurare il campionamento.
Se non si desidera o non è necessario valutare tutte le righe di un asset di dati, abilitare il campionamento dei dati. Quindi, è possibile generare risultati in base a una frazione dei dati.
Per gli asset di dati connessi regolarmente, il campionamento viene eseguito nell'origine dati. Nella maggior parte dei database, l'ordine dei record non è deterministico. Pertanto, i record inclusi nell'esempio possono variare da esecuzione a esecuzione, il che significa che anche i risultati e il contenuto della tabella di output (se configurati) possono cambiare nel corso del tempo.
Per gli asset di dati connessi basati su query, il campionamento non viene eseguito sull'origine dati ma nello stage Sample del flusso DataStage associato alla regola.
Impostare la dimensione massima del campione. Selezionare il numero massimo di record che si desidera includere nel campione di dati. Il valore predefinito è 1.000 record.
Selezionare un metodo di campionamento:
- Sequenziale
- L'esempio comprende i primi x record dell'asset di dati. A seconda delle dimensioni dell'asset di dati, è possibile che il numero x corrisponda al valore specificato come dimensione massima di esempio consentita. Ad esempio, se si dispone di 1.000.000 di record e si specifica una dimensione di esempio massima di 2.000, il campione include i primi 2.000 record.
- Intervallo
- L'esempio include ogni nesimo record fino a quando non viene raggiunta la dimensione massima di esempio consentita. Ad esempio, se si dispone di 1.000.000 record e si specifica una dimensione di esempio di 2.000 con un intervallo di 10, viene letto un massimo di 20.000 record (2.000 * 10) con ogni 10th record selezionato per richiamare la dimensione di esempio di 2.000.
- Casuale
- Il campione include i record selezionati casualmente fino alla dimensione massima del campione consentita. La formula utilizzata per selezionare i record è (100/sample_percent)*sample_size*2. Il numero 2 viene utilizzato per assicurare che venga letto un numero sufficiente di record per produrre una dimensione del campione casuale valida. Ad esempio, se si dispone di 1.000.000 di record e si specifica una dimensione del campione di 2.000 e una percentuale di 5, il campione include 2.000 record. Per creare il campione, vengono letti al massimo 80.000 record ((100/ 5) * 2.000 * 2 = 80.000).
- Nel campo Percentuale , specificare la percentuale che si desidera utilizzare per creare l'esempio. Specificare un valore maggiore di 0 e fino a 100.
Configurare le impostazioni di output e il contenuto.
Selezionare se si desidera che l'output della regola venga scritto in un'ubicazione esterna. In caso contrario, vengono fornite solo alcune informazioni statistiche nella cronologia di esecuzione della regola.
È possibile scegliere di scrivere l'output della regola in una tabella di database. Se i bind sono gestiti esternamente, è possibile creare fino a 4 link di output DataStage .
Per generare una tabella di database o link di output:
Abilitare l'opzione Output esterno ed espandere la sezione.
Selezionare il tipo di emissione che si desidera creare:
Per scrivere l'output in una tabella di database, selezionare una delle seguenti opzioni:
Scrivi in una nuova tabella di database
Selezionare una connessione. A seconda della connessione selezionata, selezionare uno schema o selezionare un catalogo e uno schema. Quindi, inserire il nome della tabella di output da creare.
Quando si esegue la regola, questa nuova tabella di emissione viene aggiunta anche al progetto come asset di dati.
Scrivi in una tabella di database esistente
Selezionare una connessione. A seconda della connessione selezionata, selezionare uno schema e una tabella esistente, oppure selezionare un catalogo, uno schema e una tabella esistente. La sezione Contenuto in uscita è popolata con le colonne di questa tabella ed è possibile mappare il contenuto su queste colonne.
Se un asset di dati corrispondente non esiste nel progetto, viene creato quando si esegue la regola.
Per i tipi di database supportati, vedi Supported connectors for curation and data quality. I nomi di schema e tabella devono seguire questa convenzione:
- Il primo carattere del nome deve essere un carattere alfabetico.
- Il resto del nome può essere costituito da caratteri alfabetici, numerici o di sottolineatura.
- Il nome non deve contenere spazi.
È possibile accedere all'asset di dati che corrisponde alla tabella di output della regola dalla pagina Asset nel progetto o dalla cronologia di esecuzionedella regola.
Configurare le seguenti impostazioni:
Record di output: selezionare se si desidera includere tutti i record nell'output, solo i record che non soddisfano le condizioni della regola (impostazione predefinita) o solo i record che soddisfano le condizioni della regola.
Numero massimo di record di output di eccezioni: è possibile includere tutti i record o impostare un numero massimo.
Metodo di aggiornamento: i nuovi record di output possono essere accodati al contenuto esistente della tabella di output. Se si desidera conservare solo i risultati di output dell'ultima esecuzione, selezionare la sovrascrittura dei record esistenti.
Per il metodo di aggiornamento Accoda, lo schema della tabella non può essere modificato, ovvero non è possibile rinominare, aggiungere o eliminare le colonne. Se si desidera modificare il contenuto di output per una regola di qualità dei dati e scrivere in una tabella di output esistente, assicurarsi di utilizzare il metodo di aggiornamento Sovrascrivi per sostituire le colonne nella tabella di output con le colonne di output appena definite.
Per creare i link di output se i bind sono gestiti in un flusso DataStage , selezionare Link di outputDataStage.
Configurare fino a 4 link di output. Selezionare quale output deve essere instradato a un collegamento specifico: tutti i record, solo i record che non soddisfano le condizioni della regola, solo i record che soddisfano le condizioni della regola o tutte le condizioni della regola violate.
Inoltre, definire il numero massimo di record di output da scrivere per link.
Il contenuto dei record di output è determinato da quanto configurato nel passo successivo. Per le condizioni delle regole violate, possono essere restituiti 0 o più record di output a seconda del numero di definizioni di qualità dei dati nella regola. Ogni record di output contiene le seguenti informazioni:
- L'ID record. Questa metrica viene impostata automaticamente come colonna di output.
- L'ID definizione di una delle definizioni che il record di input non ha passato
- Il numero che identifica in modo univoco la definizione non riuscita in caso di definizioni duplicate
Per mappare l'ID della definizione a una definizione di qualità dei dati nel progetto, utilizzare l'API di IBM Knowledge Catalog :
- Elencare tutte le definizioni di qualità dei dati o una loro sottoserie
- Scarica la definizione della qualità dei dati
I nodi di destinazione di questi link di output devono essere configurati nel flusso DataStage .
È possibile modificare il tipo di output in qualsiasi momento. A seconda della nuova selezione, tutte le impostazioni configurate vengono reimpostate o sovrascritte.
Al termine, comprimere la sezione e procedere alla configurazione del contenuto di output.
Configurare il contenuto della tabella di output.
Se i bind vengono gestiti esternamente, è possibile includere qualsiasi colonna aggiuntiva fornita tramite il link di input DataStage nella tabella di output. Tali colonne non sono elencate nella configurazione della tabella di output. Non è possibile includere le variabili utilizzate nei bind di regole.
Fare clic su Aggiungi contenuto di emissione e selezionare una delle seguenti opzioni:
- Colonne: selezionare le colonne che si desidera visualizzare nella tabella di output. Questa opzione non è disponibile se i bind sono gestiti esternamente.
- Statistiche e attributi: selezionare eventuali ulteriori attributi o statistiche che si desidera includere nella tabella di output:
ID vincolato all'asset: Elenca l'ID dell'asset di dati a cui è legata la regola. Se si seleziona questa metrica, viene scritto un record di output per ogni asset di dati in una regola di qualità dei dati. Pertanto, più di un record di output potrebbe essere scritto per un singolo record di input. Il contenuto dei record di output per i diversi asset della stessa regola di qualità dei dati varia solo per queste metriche per ogni singolo record di input: Definizione della qualità dei dati, ID della definizione della qualità dei dati, ID legato all'asset e forse Regole di superamento, Regole di non superamento, Percentuale di regole di superamento e Percentuale di regole di non superamento
Questa metrica non è disponibile per le regole con bind gestiti esternamente. Inoltre, è possibile utilizzare questa metrica solo in combinazione con la metrica Definizione della qualità dei dati o ID della definizione della qualità dei dati. Se la regola è associata a più di una definizione di qualità dei dati, il Disambiguatore di metriche viene automaticamente incluso nell'output.
Associato alla colonna: elenca il nome di ciascuna colonna associata. Se questa metrica è selezionata, viene scritto un record di output per ogni colonna in una definizione di qualità dei dati. Pertanto, più di un record di output potrebbe essere scritto per un singolo record di input. Il contenuto dei record di output per le diverse colonne della stessa definizione di qualità dei dati varia solo per queste metriche per ogni singolo record di input: Definizione di qualità dei dati, ID della definizione di qualità dei dati, Legato alla colonna e forse Regole di superamento, Regole di non superamento, Percentuale di superamento e Percentuale di non superamento
Questa metrica non è disponibile per le regole con bind gestiti esternamente. Inoltre, è possibile utilizzare questa metrica solo in combinazione con la metrica Definizione della qualità dei dati o ID della definizione della qualità dei dati. Se la regola è associata a più di una definizione di qualità dei dati, il Disambiguatore di metriche viene automaticamente incluso nell'output.
Definizione della qualità dei dati: elenca il nome della definizione della qualità dei dati applicata. Se si seleziona questa metrica, potrebbero essere scritti più record di output, a seconda del numero di definizioni di qualità dei dati contenute nella regola.
ID della definizione di qualità dei dati: Contiene una chiave univoca che identifica la definizione di qualità dei dati applicata. Se si seleziona questa metrica, potrebbero essere scritti più record di output, a seconda del numero di definizioni di qualità dei dati contenute nella regola.
Disambiguatore: Contiene un numero per disambiguare le definizioni di qualità dei dati utilizzate nella regola, soprattutto se una definizione di qualità dei dati viene utilizzata più volte. La numerazione inizia da 0.
Regole non riuscite: mostra il numero di condizioni della regola non soddisfatte dal record.
ID lavoro: Contiene una chiave univoca che identifica il lavoro associato al flusso DataStage per la regola.
ID del lavoro: Contiene una chiave univoca che identifica una singola esecuzione del lavoro associata al flusso DataStage per la regola.
Regole di passaggio: mostra il numero di condizioni della regola soddisfatte dal record.
Percentuale di regole riuscite: mostra la percentuale di condizioni della regola che sono state soddisfatte.
Percentuale regole non riuscite: mostra la percentuale di condizioni della regola che non sono state soddisfatte.
ID progetto: Contiene una chiave univoca che identifica il progetto in cui risiede la regola.
ID record: contiene una chiave univoca che identifica un record nell'output. Questa metrica viene inclusa automaticamente per i link di output per le condizioni della regola violate.
ID regola: contiene una chiave univoca che identifica la regola di qualità dei dati.
Nome regola: contiene il nome della regola di qualità dei dati.
Data sistema: mostra la data del sistema in cui è stata eseguita la regola. La data del sistema è la data nel fuso orario impostato sul server.
Ora del sistema: mostra la data e l'ora del sistema in cui è stata eseguita la regola. La data e l'ora del sistema è la data e l'ora nel fuso orario impostato nel server.
- Variabili: selezionare le variabili dalla logica della regola che si desidera includere nella tabella di output.
- Espressioni: aggiungere un'espressione che definisce il contenuto di una colonna di output. È possibile assegnare a questa colonna un nome descrittivo nella panoramica del contenuto dell'output. È possibile utilizzare gli elementi di blocco per creare l'espressione. Selezionare e combinare gli elementi come richiesto. Per ulteriori informazioni sull'utilizzo degli elementi di blocco, consultare Gestione delle definizioni di qualità dei dati. In alternativa, è possibile utilizzare l'editor in formato libero per creare l'espressione. Consultare Blocchi di generazione per la logica della regola o l'output della regola.
Rivedere la configurazione. Per assicurarsi che la regola sia configurata correttamente, è possibile verificarla prima di salvarla nel progetto. L'output del test della regola viene visualizzato direttamente e corrisponde a quanto configurato nelle impostazioni di output.
Per apportare modifiche alla configurazione, fare clic sull'icona Modifica ' sulla piastrella e aggiornare le impostazioni.
Una volta completata la revisione, fare clic su Crea. La regola e il relativo flusso DataStage vengono aggiunti al progetto. Il nome predefinito del flusso DataStage è
DataStage flow of data rule <rulename>
. Non modificare questo flusso.Se la regola è configurata con bind gestiti esternamente, la regola e il flusso DataStage e i relativi flussi secondari vengono aggiunti al progetto quando si fa clic su Crea. Tuttavia, la tua regola non è pronta per essere eseguita. Prima di eseguire la regola, è necessario modificare il flusso DataStage . È anche possibile selezionare Crea & modifica flusso DataStage. In tal caso, anche la regola e il flusso DataStage e i relativi flussi secondari vengono aggiunti al progetto, ma si viene direttamente portati alla configurazione del flusso DataStage . La denominazione di tali flussi DataStage segue il pattern
<rule-name>_Datastage_flow
eDataStage subflow of data rule <rulename>
. Per ulteriori informazioni sulla configurazione del flusso, consultare FlussiDataStage.
Se la tua regola è configurata correttamente senza alcuna informazione mancante, ha lo stato Pronto. Questo stato indica che la regola può essere eseguita. Lo stato della regola Non pronto indica che la regola non può essere eseguita perché alcune dipendenze sono state modificate. Ad esempio, la definizione della qualità dei dati è stata aggiornata oppure è stata rimossa una tabella utilizzata nei bind della regola. Lo stato Non pronto viene visualizzato anche per le regole con bind gestiti esternamente se il flusso DataStage associato non è configurato. Dopo aver configurato il flusso, è possibile convalidare la regola selezionando Convalida dal menu di overflow. Se la convalida ha esito positivo, lo stato è impostato su Prontoed è possibile eseguire la regola.
Una regola potrebbe non essere più valida dopo le modifiche all'asset di dati analizzato dalla regola. Pertanto, è possibile che si desideri convalidare lo stato della regola in qualsiasi caso prima di eseguire manualmente una regola.
Ulteriori informazioni
- Asset di qualità dei dati
- Gestione delle definizioni di qualità dei dati
- Connettori supportati per la gestione e la qualità dei dati
- Creazione e utilizzo di parametri e serie di parametri
- Creazione di regole basate su SQL
- API IBM Knowledge Catalog : Creare una regola di qualità dei dati
- API IBM Knowledge Catalog : Convalida della regola di qualità dei dati
- IBM Knowledge Catalog API: Elenco di tutte le definizioni di qualità dei dati o di un sottoinsieme di esse
- IBM Knowledge Catalog API: Ottenere la definizione di qualità dei dati
Passi successivi
Argomento principale: Gestione delle regole di qualità dei dati