0 / 0
Torna alla versione inglese della documentazione
Gestione della qualità dei dati
Ultimo aggiornamento: 13 dic 2024
Gestione della qualità dei dati

Misurare, monitorare e mantenere la qualità dei dati per garantire che soddisfino le aspettative e gli standard per casi di utilizzo specifici.

I dati di buona qualità sono in uno stato che di solito può essere definito come adatto all'uso, privo di difettio conforme alle aspettative e ai requisiti. La qualità dei dati viene misurata rispetto alle dimensioni di qualità predefinite Accuratezza, Completezza, Congruenza, Tempestività, Univocitàe Validitàe qualsiasi dimensione di qualità personalizzata.

L'analisi della qualità dei dati fornisce risposte a queste domande:

  • Qual è la qualità complessiva di un asset di dati?
  • Quale degli asset di dati ha la migliore qualità?
  • Come è cambiata la qualità di un asset di dati nel tempo?

Requisiti e restrizioni

Per la gestione della qualità dei dati, esistono i seguenti requisiti e limitazioni.

Servizi richiesti

La gestione della qualità dei dati richiede questi servizi:

  • IBM Knowledge Catalog
  • DataStage o DataStage as a Service Anywhere
    Con DataStage, è possibile eseguire regole di qualità dei dati nelle regioni supportate. Con DataStage as a Service Anywhere, è possibile eseguire le regole di qualità dei dati al di fuori di IBM Cloud utilizzando motori remoti. Per ulteriori informazioni sull'impostazione dei motori remoti, vedere il documento ' documentazione DataStage as a Service Anywhere .

Strumenti di qualità dei dati

Si lavora con questi strumenti:

Formati dei dati

Sono supportati i seguenti formati di dati:

  • Tabelle da origini dati relazionali e non relazionali
  • Tabellari: Avro, CSV, Parquet, ORC; per le risorse di dati caricate dal file system locale, solo CSV

Per informazioni sui connettori supportati, consultare Supported data sources for curation and data quality.

Dimensione dati

Le attività di gestione della qualità dei dati possono essere eseguite su dati di qualsiasi dimensione.

Autorizzazioni richieste

I ruoli determinano le attività di gestione della qualità dei dati che è possibile eseguire:

  • Per visualizzare le regole e le definizioni della qualità dei dati, è necessario disporre almeno del ruolo Visualizzatore nel progetto.
  • Per creare, modificare o eliminare regole e definizioni di qualità dei dati, è necessario disporre del ruolo Admin o Editor nel progetto. Inoltre, è necessario disporre dell' autorizzazione utente Gestisci asset di qualità dei dati .
  • Per eseguire le regole di qualità dei dati, è necessario disporre del ruolo Amministrazione o Editor nel progetto e in Esegui regole di qualità dei dati autorizzazione utente.
  • Per visualizzare i dati che hanno causato problemi di qualità dei dati (la tabella di output) dalla cronologia di esecuzione delle regole o dalla pagina Qualità dei dati, è necessario disporre dell'autorizzazione Drill down to issue details dell'utente. Tuttavia, la risorsa dati del progetto creata per la tabella di output è accessibile a chiunque possa accedere alla connessione. Per limitare l'accesso a questa risorsa di dati, la connessione all'origine dati in cui è memorizzata la tabella di output deve essere impostata con credenziali personali.
  • Per creare, modificare o eliminare le regole SLA sulla qualità dei dati, è necessario disporre di queste autorizzazioni utente :
    • Accedi alle risorse utente di governance
    • Gestire le regole SLA sulla qualità dei dati

Spazi di lavoro

È possibile eseguire attività di gestione della qualità dei dati nei progetti. Le informazioni sulla qualità dei dati di sola lettura sono disponibili nei cataloghi.

Analisi e monitoraggio della qualità dei dati

Utilizzare il monitoraggio e l'analisi della qualità dei dati per valutare i dati rispetto a specifici criteri. Utilizzare ripetutamente questi criteri di valutazione nel tempo per vedere importanti cambiamenti nella qualità dei dati in fase di convalida.

Una volta progettato un controllo di qualità dei dati, sono disponibili le seguenti opzioni:

  • Creare una definizione di qualità dei dati che definisca la logica del controllo dati indipendentemente dall'origine dati. La definizione contiene le variabili logiche o i riferimenti che si collegano o collegano ai dati effettivi (ad esempio, origine dati, tabella e colonna o tabelle unite) quando si crea una regola di qualità dei dati che può essere eseguita.

    Dopo aver creato una regola di qualità dei dati con i collegamenti richiesti in base a una definizione di qualità dei dati selezionata, tale regola può essere eseguita. La regola produce statistiche rilevanti e può generare una tabella di output, a seconda della configurazione della regola.

  • Creare una regola di qualità dei dati basata su SQL.

La funzionalità di una regola di qualità dei dati può variare da un semplice test di una singola colonna alla valutazione di più colonne all'interno e tra origini dati.

Valutazione della qualità dei dati

Per determinare se i dati sono di buona qualità, verificare in che misura i dati soddisfano le aspettative e identificare le anomalie nei dati. Valutare la qualità dei dati aiuta anche a comprendere la struttura e il contenuto dei dati.

Monitoraggio della qualità dei dati

Per garantire che i dati importanti soddisfino le aspettative di qualità della vostra organizzazione, implementate regole SLA di qualità dei dati che monitorino la conformità dei dati agli standard e che prevedano la correzione dei problemi di qualità dei dati rilevati.

Ulteriori informazioni

Argomento principale Preparazione dei dati

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni