0 / 0

Configurazione delle impostazioni di output per le regole di qualità dei dati

Ultimo aggiornamento: 08 apr 2025
Configurazione delle impostazioni di output per le regole di qualità dei dati

Per acquisire un output di regole più ampio delle informazioni statistiche, configurare una posizione di output esterna e il contenuto che si desidera scrivere in tale posizione.

È possibile scegliere di scrivere l'output della regola in una tabella del database. Se i binding di una regola basata su definizioni sono gestiti esternamente, è possibile creare fino a 4 collegamenti di output DataStage.

Per generare una tabella di database o collegamenti di output:

  1. Attivare l'opzione Uscita esterna ed espandere la sezione.

    Se si è impostata una configurazione della tabella di output nelle impostazioni del progetto, è possibile selezionare di ereditare tale configurazione e passare direttamente alla configurazione del contenuto di output. Una configurazione ereditata viene visualizzata come Corrente.

  2. Se non si desidera utilizzare la tabella configurata nelle impostazioni del progetto, selezionare il tipo di output che si desidera generare:

    • Scrivere l'output in una tabella del database nuova o esistente.

      Selezionare una connessione. A seconda della connessione selezionata, selezionare uno schema o selezionare un catalogo e uno schema. Per una nuova tabella, inserire il nome della tabella di output da creare. Altrimenti, selezionare una tabella esistente. In questo caso, la sezione Contenuto in uscita viene popolata con le colonne di questa tabella ed è possibile mappare il contenuto su queste colonne.

      È possibile scegliere se la tabella di output deve essere aggiunta al progetto come risorsa di dati quando si esegue la regola.

      Per i tipi di database supportati, vedere Connettori supportati per la cura e la qualità dei dati.

      Quando si definisce una nuova tabella, il nome della tabella può essere un nome definito dall'utente, un parametro per la creazione dinamica di un nome, una combinazione di nome e parametro definiti dall'utente o una combinazione di parametri.

      I nomi delle tabelle definiti dall'utente devono seguire questa convenzione:

      • Il primo carattere del nome deve essere un carattere alfabetico.
      • Il resto del nome può essere composto da caratteri alfabetici, numerici o caratteri di sottolineatura.
      • Il nome non deve contenere spazi.

      Per la creazione di nomi dinamici, è possibile utilizzare questi parametri:

      • #execution_id#
      • #rule_id#
      • #rule_name#
      • #project_id#
      • #job_id#
      • #rule_id#
      • #job_run_id#
      • #rule_id#

      Per i parametri con valori variabili, potrebbe essere creata una nuova tabella:

      • Per #job_run_id# per ogni regola eseguire
      • Per #execution_id# se la regola viene eseguita dall'interfaccia utente delle regole di qualità dei dati o tramite chiamata API

      Inoltre, è possibile selezionare queste opzioni:

      • Crea tabella solo quando vengono trovati problemi Questa opzione evita che vengano create tabelle vuote nei casi in cui una regola non produce record di output. Tuttavia, se una tabella con quel nome esiste già perché è stata generata per un'esecuzione precedente della regola, la tabella rimane invariata.
      • Importare la tabella di output generata come asset del progetto Per consentire un facile accesso all'output della regola, aggiungere al progetto nuove tabelle di output della regola come asset di dati. Invece di eseguire una query del database, è possibile visualizzare i dati aprendo l'asset di dati dalla pagina Assets del progetto o dalla cronologia delle esecuzioni della regola. Questa opzione è attivata per impostazione predefinita.

      Inoltre, configurare le seguenti impostazioni:

      • Record di output : Selezionare se includere tutti i record nell'output, solo i record che non soddisfano le condizioni della regola (impostazione predefinita) o solo i record che soddisfano le condizioni della regola.
      • Numero massimo di record di output delle eccezioni : È possibile includere tutti i record o impostare un numero massimo.
      • Metodo di aggiornamento : I nuovi record di output possono essere aggiunti al contenuto esistente della tabella di output. Se si desidera mantenere solo i risultati dell'ultima esecuzione, selezionare per sovrascrivere i record esistenti. Per il metodo di aggiornamento Append, lo schema della tabella non può essere modificato, cioè non è possibile rinominare, aggiungere o eliminare colonne. Se si desidera modificare il contenuto di output per una regola di qualità dei dati e scrivere su una tabella di output esistente, assicurarsi di utilizzare il metodo di aggiornamento Sovrascrivi per sostituire le colonne della tabella di output con le nuove colonne di output definite.

    • Per creare collegamenti di uscita se i collegamenti sono gestiti in un flusso DataStage, selezionare DataStage collegamenti di uscita. Configurare fino a 4 collegamenti di uscita. Selezionare quale output deve essere indirizzato a un collegamento specifico: tutti i record, solo i record che non soddisfano le condizioni della regola, solo i record che soddisfano le condizioni della regola o tutte le condizioni della regola violate. Inoltre, definire il numero massimo di record di output da scrivere per ogni collegamento. Il contenuto dei record di output è determinato da quanto configurato nel passaggio successivo. Per le condizioni della regola violata, possono essere restituiti 0 o più record di output, a seconda del numero di definizioni di qualità dei dati nella regola. Ogni record di output contiene le seguenti informazioni:

      • L'ID del record. Questa metrica viene impostata automaticamente come colonna di uscita.
      • L'ID della definizione di una delle definizioni che il record di input non ha superato
      • Il numero che identifica in modo univoco la definizione fallita in caso di definizioni duplicate

      Per mappare l'ID della definizione a una definizione di qualità dei dati nel progetto, utilizzare l'API IBM Knowledge Catalog :

      I nodi di destinazione di questi collegamenti di uscita devono essere configurati nel flusso DataStage.

    È possibile cambiare il tipo di uscita in qualsiasi momento. A seconda della nuova selezione, le impostazioni configurate vengono ripristinate o sovrascritte. Al termine, chiudere la sezione e procedere alla configurazione del contenuto di output.

  3. Configurare il contenuto della tabella di output.

    1. Se i binding sono gestiti esternamente, è possibile includere nella tabella di output qualsiasi colonna aggiuntiva fornita tramite il collegamento di input DataStage. Tali colonne non sono elencate nella configurazione della tabella di output. Non è possibile includere variabili utilizzate nei binding delle regole.
    2. Fare clic su Aggiungi contenuto di output e selezionare una delle seguenti opzioni:
      • Colonne

        Selezionare le colonne che si desidera visualizzare nella tabella di output. Per le regole basate su SQL, è possibile selezionare tutte le colonne restituite dalla query SQL. L'opzione Colonne non è disponibile se si crea una regola basata su definizioni con vincoli gestiti esternamente.

      • Statistiche e attributi

        Selezionare eventuali attributi o statistiche aggiuntive da includere nella tabella di output. Le metriche disponibili dipendono dal tipo di regola di qualità dei dati.

        • Legato all'ID asset

          Elenca l'ID della risorsa dati a cui è legata la regola. Se si seleziona questa metrica, viene scritto un record di output per ogni asset di dati in una regola di qualità dei dati. Pertanto, per un singolo record di ingresso può essere scritto più di un record di uscita. Il contenuto dei record di output per i diversi asset della stessa regola di qualità dei dati varia solo per queste metriche per ogni singolo record di input: Definizione della qualità dei dati, ID della definizione della qualità dei dati, ID legato all'asset e forse Regole di superamento, Regole di non superamento, Percentuale di regole di superamento e Percentuale di regole di non superamento

          Questa metrica può essere utilizzata solo in combinazione con la metrica Definizione della qualità dei dati o ID della definizione della qualità dei dati. Se la regola è associata a più di una definizione di qualità dei dati, il Disambiguatore di metriche viene automaticamente incluso nell'output.

          Questa metrica non è disponibile per le regole basate su definizioni con binding gestiti esternamente o per le regole basate su SQL.

        • Collegato alla colonna

          Elenca il nome di ogni colonna vincolata. Se si seleziona questa metrica, viene scritto un record di output per ogni colonna di una definizione di qualità dei dati. Pertanto, per un singolo record di ingresso può essere scritto più di un record di uscita. Il contenuto dei record di output per le diverse colonne della stessa definizione di qualità dei dati varia solo per queste metriche per ogni singolo record di input: Definizione di qualità dei dati, ID della definizione di qualità dei dati, Legato alla colonna e forse Regole di superamento, Regole di non superamento, Percentuale di superamento e Percentuale di non superamento

          Questa metrica può essere utilizzata solo in combinazione con la metrica Definizione della qualità dei dati o ID della definizione della qualità dei dati. Se la regola è associata a più di una definizione di qualità dei dati, il Disambiguatore di metriche viene automaticamente incluso nell'output.

          Questa metrica non è disponibile per le regole basate su definizioni con binding gestiti esternamente o per le regole basate su SQL.

        • Definizione della qualità dei dati

          Elenca il nome della definizione di qualità dei dati applicata. Se si seleziona questa metrica, potrebbero essere scritti più record di output, a seconda del numero di definizioni di qualità dei dati contenute nella regola.

          Questa metrica non è disponibile per le regole basate su SQL.

        • Definizione della qualità dei dati ID

          Contiene una chiave univoca che identifica la definizione di qualità dei dati applicata. Se si seleziona questa metrica, potrebbero essere scritti più record di output, a seconda del numero di definizioni di qualità dei dati contenute nella regola.

          Questa metrica non è disponibile per le regole basate su SQL.

        • Disambiguatore

          Contiene un numero per disambiguare le definizioni di qualità dei dati utilizzate nella regola, soprattutto se una definizione di qualità dei dati viene utilizzata più volte. La numerazione inizia da 0.

          Questa metrica non è disponibile per le regole basate su SQL.

        • Regole di errore

          Mostra il numero di condizioni della regola non soddisfatte dal record.

        • ID lavoro

          Contiene una chiave univoca che identifica il lavoro associato al flusso DataStage per la regola.

        • ID esecuzione lavoro

          Contiene una chiave univoca che identifica una singola esecuzione del lavoro associata al flusso DataStage per la regola.

        • Regole di superamento

          Mostra il numero di condizioni della regola soddisfatte dal record.

        • Percentuale di regole di superamento

          Mostra la percentuale di condizioni della regola soddisfatte.

        • Percentuale regole di errore

          Mostra la percentuale di condizioni della regola non soddisfatte.

        • ID progetto

          Contiene una chiave univoca che identifica il progetto in cui risiede la regola.

        • ID record

          Contiene una chiave univoca che identifica un record nell'output. Questa metrica viene inclusa automaticamente nei collegamenti di uscita per le condizioni delle regole violate.

        • ID regola

          Contiene una chiave univoca che identifica la regola di qualità dei dati.

        • Nome regola

          Contiene il nome della regola di qualità dei dati.

        • Data di sistema

          Mostra la data di sistema in cui è stata eseguita la regola. La data di sistema è la data del fuso orario impostato sul server.

        • Ora di sistema

          Mostra la data e l'ora del sistema in cui è stata eseguita la regola. La data e l'ora del sistema sono la data e l'ora del fuso orario impostato sul server.

      • Variabili

        Selezionare le variabili della logica della regola che si desidera includere nella tabella di output.

      • Espressioni

        Aggiungere un'espressione che definisce il contenuto di una colonna di output. È possibile assegnare a questa colonna un nome descrittivo nella panoramica dei contenuti di output. È possibile utilizzare elementi di blocco per costruire l'espressione. Selezionare e combinare gli elementi come richiesto. Per ulteriori informazioni sull'uso degli elementi di blocco, vedere Gestione delle definizioni di qualità dei dati. In alternativa, è possibile utilizzare l'editor di forma libera per costruire l'espressione. Vedere Blocchi di costruzione per la logica delle regole o per l'output delle regole.

Ulteriori informazioni

Argomento principale: Gestione delle regole di qualità dei dati