0 / 0
Torna alla versione inglese della documentazione
Valutazione della qualità dei dati
Ultimo aggiornamento: 13 dic 2024
Valutazione della qualità dei dati

Per determinare se i dati sono di buona qualità, verificare in che misura i dati soddisfano le aspettative e identificare le anomalie nei dati. Valutare la qualità dei dati aiuta anche a comprendere la struttura e il contenuto dei dati.

Eseguire le regole di qualità dei dati per valutare i dati in base alle condizioni definite. Il tipo di regola determina da dove possono provenire i dati.

  • Regole create dalle definizioni di qualità dei dati

    È possibile eseguire regole complesse con bind gestiti esternamente sugli asset di dati da qualsiasi connettore supportato da DataStage. Vedere connettoriDataStage.

    Per le regole semplici in cui si esegue direttamente il bind dei dati, sono supportate le connessioni elencate in Connettori supportati .

    Inoltre, è possibile gestire gli asset di dati da file in formato CSV caricati dal filesystem locale o da connessioni basate su file alle origini dati.

  • Regole basate su SQL

    Per i tipi di database supportati, consultare Connettori supportati.

Per far sì che una regola di qualità dei dati con vincoli esterni o una regola di qualità dei dati basata su SQL contribuisca ai punteggi di qualità dei dati di una risorsa o di una colonna, aggiungere tale risorsa o colonna come elemento correlato alla regola corrispondente. Utilizzare il tipo di relazione Valida la qualità dei dati.

Servizi richiesti

IBM Knowledge Catalog
DataStage o DataStage as a Service Anywhere '
Con DataStage, è possibile eseguire regole di qualità dei dati nelle regioni supportate. Con DataStage as a Service Anywhere, è possibile eseguire le regole di qualità dei dati al di fuori di IBM Cloud utilizzando motori remoti. Per ulteriori informazioni sull'impostazione dei motori remoti, vedere il documento ' documentazione DataStage as a Service Anywhere .

Autorizzazioni richieste

Per eseguire le regole di qualità dei dati, è necessario disporre del ruolo Admin o Editor nel progetto. Inoltre, è necessario disporre di Esegui regole di qualità dei dati autorizzazione utente Inoltre, è necessario essere autorizzati ad accedere alle connessioni alle origini dati degli asset di dati da controllare.

Per visualizzare i dati che hanno causato problemi di qualità dei dati (la tabella di output) dalla cronologia di esecuzione delle regole o dalla pagina Qualità dei dati, è necessario disporre dell'autorizzazione Drill down to issue details dell'utente. Tuttavia, la risorsa dati del progetto creata per la tabella di output è accessibile a chiunque possa accedere alla connessione. Per limitare l'accesso a questa risorsa di dati, la connessione all'origine dati in cui è memorizzata la tabella di output deve essere impostata con credenziali personali.

È inoltre possibile completare le seguenti attività con le API invece dell'interfaccia utente. I collegamenti a queste API sono elencati in Ulteriori informazioni .

Esecuzione delle regole di qualità dei dati

L'esecuzione di una regola di qualità dei dati richiede un flusso DataStage e successivamente un job DataStage . Il lavoro con le impostazioni di lavoro predefinite viene creato automaticamente quando si esegue la regola per la prima volta dall'interno dell'asset. Un job DataStage con il nome predefinito DataStage flow of data rule <rulename>.DataStage job viene aggiunto al progetto.

Dopo l'esecuzione iniziale, è possibile modificare le impostazioni del lavoro come richiesto, ad esempio, per impostare le esecuzioni pianificate. In alternativa, è possibile modificare il numero di avvertenze accettabili prima della fine del lavoro, che è 100 per impostazione predefinita. Per modificare le impostazioni del lavoro, andare alla pagina dei dettagli del lavoro e fare clic sull'icona della matita sulla barra degli strumenti. È possibile accedere alla pagina dei dettagli del processo facendo clic sul nome del processo nella cronologia di esecuzione della regola o sulla pagina Lavori del progetto.

È inoltre possibile creare manualmente ulteriori job DataStage per la propria regola, dal menu di overflow della regola nel progetto o, quando si apre l'asset, dal menu di overflow accanto al nome dell'asset. Consultare Creazione di lavori per l'esecuzione di regole di qualità dei dati.

Per confermare che una regola è ancora valida prima di eseguirla manualmente, è possibile controllare lo stato della regola selezionando Convalida dal menu di overflow.

È possibile eseguire una regola in uno dei seguenti modi:

  • Aprire la regola di qualità dei dati e fare clic su Esegui regola. Utilizzare questa opzione per l'esecuzione iniziale della regola per creare il lavoro DataStage associato.
  • Selezionate Esegui dal menu di overflow delle regole nel progetto.
  • Accedere alla pagina Lavori del progetto, aprire i dettagli del lavoro ed eseguire il lavoro facendo clic sull'icona Esegui 'icona Esegui nella barra delle azioni.

È anche possibile automatizzare i controlli di qualità impostando i job con una pianificazione ripetuta per l'esecuzione di una regola.

Le regole vengono eseguite con le credenziali IBM Cloud . In genere, la tua chiave API IBM Cloud personale viene utilizzata per eseguire operazioni di lunga durata senza interruzioni. Se le credenziali non sono disponibili quando crei il lavoro, ti viene richiesto di creare una chiave API. Tale chiave API viene quindi salvata come credenziali dell'attività.

Regole di raggruppamento

È possibile raggruppare alcune regole di qualità dei dati in un singolo flusso DataStage per l'esecuzione:

  • Le regole di qualità dei dati devono essere create a partire dalle definizioni di qualità dei dati.

  • Le variabili della regola devono essere legate a un singolo asset di dati nel progetto:

    • Un singolo file da uno dei seguenti connettori di archiviazione file: Amazon S3, Apache HDFS, Azure Data Lake Storage o Google Cloud Storage
    • Un file che è stato caricato dal file system locale
    • Un unico asset di dati relazionali

A seconda della configurazione delle singole regole di qualità dei dati raggruppate, l'esecuzione delle regole potrebbe richiedere più passaggi sui dati.

Non è possibile raggruppare le regole di qualità dei dati legate a più risorse di dati.

È possibile utilizzare la seguente chiamata API per raggruppare le regole per l'esecuzione:

POST /data_quality/v3/projects/{project_id}/execute_rules

Questa chiamata API richiede i seguenti parametri:

project_id

L'ID del progetto che contiene le regole

Corpo della richiesta

Il payload nel seguente formato:

{
  "rules": [
    {
      "id": "<rule1_id>"
    },
    {
      "id": "<rule2_id>"
    }
  ]
}

Pushdown del trattamento nelle regole sulla qualità dei dati

Alcuni aspetti dell'elaborazione delle regole di qualità dei dati possono essere trasferiti all'origine dati per ridurre la quantità di dati trasferiti all'esterno e per accelerare l'elaborazione. La selezione delle colonne, la creazione di join tra diversi asset di dati e il campionamento vengono inviati alle origini dati con un sistema di gestione di database relazionali (RDBMS), il che significa che supportano le query SQL. per le origini dati basate su file, nessuna elaborazione viene interrotta. Le regole di qualità dei dati basate su SQL vengono sempre eseguite nell'origine dati.

Con DataStage as a Service Anywhere, è possibile eseguire le regole di qualità dei dati al di fuori di IBM Cloud utilizzando motori remoti. Per ulteriori informazioni sull'impostazione dei motori remoti, vedere il documento ' documentazione DataStage as a Service Anywhere .

Selezione colonna

Per le origini dati RDBMS, un'istruzione SQL SELECT comeselect colA, colB from schema1.table1 viene eseguito sull'origine dati per recuperare solo le colonne richieste da una tabella. Tali query non possono essere eseguite su asset di dati da connessioni di archiviazione file. Per tali file, vengono recuperate tutte le colonne e il file DataStage La fase di modifica viene utilizzata per filtrare le colonne.

Unioni

Se una regola di qualità dei dati ha due o più variabili legate a più asset di dati, questi asset di dati devono essere uniti in determinate colonne.

Per le origini dati RDBMS, un'istruzione SQL SELECT con una clausola JOIN simileSELECT col1, col2 FROM schema1.table1 INNER JOIN schema1.table2 ON table1.id = table2.id viene eseguito sull'origine dati. Con questa query, l'unione delle risorse di dati viene eseguita nell'origine dati. Alcune origini dati RDBMS non supportano affatto l'elaborazione JOIN o supportano solo determinati tipi di clausole JOIN. Per esempio, Google BigQuery non supporta affatto le clausole JOIN.

I risultati delle regole di qualità dei dati con le giunzioni dipendono anche dal modo in cui valori come null e stringhe vuote vengono gestiti dall'origine dati RDBMS durante l'elaborazione delle giunzioni.

Per un asset di dati da una connessione di archiviazione file, vengono recuperati tutti i record di ogni singolo asset di dati e il file DataStage La fase di unione viene utilizzata per unire le risorse di dati.

Campionamento

Per le origini dati RDBMS, il campionamento casuale e sequenziale viene eseguito nell'origine dati. Per il campionamento sequenziale, all'istruzione SQL viene aggiunta una clausola specifica dell'RDBMS per la selezione dei record, ad esempio FETCH FIRST o LIMIT.

Per un asset di dati da una connessione di archiviazione file, vengono recuperati tutti i record e il file DataStage La fase Campione viene utilizzata per creare il campione.

Controllo della cronologia delle esecuzioni

Ogni volta che si esegue una regola dati, viene creato un record di esecuzione. Questi record di esecuzione sono elencati nella cronologia di esecuzione di una regola in modo che sia possibile visualizzare il modo in cui i risultati sono cambiati con ogni esecuzione. Per visualizzare i record di esecuzione, aprire la regola di qualità dei dati e passare alla scheda Cronologia di esecuzione . Ogni record di esecuzione fornisce queste informazioni:

  • L'ora di avvio della regola eseguita come collegamento ipertestuale. Fare clic sul link per accedere alla vendita al dettaglio dell'esecuzione del job.
  • Il nome del job DataStage corrispondente come collegamento ipertestuale. Fare clic sul link per accedere ai dettagli del lavoro.
  • Lo stato dell'esecuzione.
  • Per le regole create dalle definizioni di qualità dei dati:
    • Il numero di record che sono stati verificati.
    • Il numero di record e la percentuale di record verificati che soddisfano la regola.
    • Numero di record e percentuale di record testati che non soddisfano la regola.
  • Per le regole basate su SQL:
    • Il numero di record restituiti dall'istruzione select nella colonna Regola non soddisfatta .

Tutti i record eseguiti vengono salvati e memorizzati fino a quando non vengono eliminati. Considerare la ripulitura della cronologia delle esecuzioni su base regolare per risparmiare spazio. È possibile eliminare i record di esecuzione selezionati o tutti i record di esecuzione contemporaneamente. Quando si elimina un record di esecuzione, vengono eliminati anche i dettagli di esecuzione del job corrispondenti.

Controllo della tabella di output della regola

Se una tabella di output è definita per la regola, l'output della regola viene scritto in una tabella di database come configurato. Fare riferimento al passo per la configurazione delle impostazioni di output in Creazione di regole dalle definizioni di qualità dei dati o Creazione di regole basate su SQL.

La tabella di output viene aggiunta anche al progetto come asset di dati. È possibile accedere alla tabella di output in uno dei seguenti modi:

  • Andare nella cronologia di esecuzione della regola e fare clic su Visualizza tabella di output. È possibile scaricare l'output della regola come file CSV, ad esempio, da utilizzare in un programma di fogli di calcolo se si desidera ricercare o filtrare l'output che contiene un numero elevato di record. La pagina di output fornisce anche un link all'asset di dati corrispondente nel progetto.
  • Aprire la tabella di output nel progetto. Ricercare un asset di dati con lo stesso nome della tabella di output definita nella regola.
  • Accedere alla tabella nel database utilizzando le query del database native.

Ulteriori informazioni

Argomento principale: Gestione della qualità dei dati

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni