I dati sono utili solo se la loro qualità è affidabile e continuamente valutata. È possibile monitorare la qualità dei dati di un asset di dati nella pagina Qualità dei dati .
Le stesse informazioni della scheda Qualità dati sono disponibili quando si fa clic su un punteggio di qualità dei dati in un asset di arricchimento dei metadati.
Requisiti e restrizioni
È possibile visualizzare le informazioni sulla qualità dei dati per gli asset nelle seguenti circostanze.
Servizi richiesti
La qualità dei dati richiede il servizio IBM Knowledge Catalog. Tuttavia, l'output di qualità dei dati dalle regole di qualità dei dati è disponibile solo nelle regioni Dallas e Francoforte. Vedere Limitazioni regionali per Cloud Pak for Data as a Service.
Autorizzazioni richieste
I ruoli determinano il modo in cui è possibile interagire con la qualità dei dati:
- Per visualizzare la pagina Qualità dei dati , è possibile disporre di qualsiasi ruolo collaboratore nello spazio di lavoro.
- Per modificare il modo in cui vengono calcolati i punteggi, devi avere il ruolo Admin o Editor nel progetto.
- Per creare nuovi controlli di qualità dei dati, è necessario disporre del ruolo Admin o Editor nel progetto e dell'autorizzazione Gestisci asset di qualità dei dati .
- Per visualizzare i dati che hanno causato problemi di qualità dei dati (la tabella di output) dalla pagina Qualità dei dati, è necessario disporre dell'autorizzazione Drill down to issue details. Tuttavia, la risorsa dati del progetto creata per la tabella di output è accessibile a chiunque possa accedere alla connessione. Per limitare l'accesso a questa risorsa di dati, la connessione all'origine dati in cui è memorizzata la tabella di output deve essere impostata con credenziali personali.
Spazi di lavoro
È possibile visualizzare le informazioni sulla qualità dei dati in queste aree di lavoro:
- Progetti
- Cataloghi
Tipi di asset
Questi tipi di asset hanno informazioni sulla qualità dei dati:
- Asset di dati da database relazionale o non relazionali da una connessione alle origini dati
- Asset di dati da dataset partizionati, in cui un dataset partizionato è costituito da più file ed è rappresentato da una singola cartella caricata dal file system locale o da connessioni basate su file alle origini dati
- Asset di dati da file caricati dal filesystem locale o da connessioni basate su file alle origini dati, con i seguenti formati:
- CSV
- XLS, XLSM, XLSX (solo il primo foglio in una cartella di lavoro.)
- TSV
- Avro
- OCR
- Parquet
- IBM Match 360 entity data assets
Panoramica
Nella pagina Qualità dati , è possibile trovare informazioni sulla qualità di un asset di dati:
- Il punteggio di qualità dei dati complessivo dell'asset. È la media ponderata dei punteggi forniti dalle relative colonne. Per ulteriori informazioni, vedi Punteggi della qualità dei dati.
- I punteggi per le singole dimensioni. Per ogni dimensione, è la media ponderata dei punteggi di dimensione corrispondenti forniti dai singoli controlli. I controlli di qualità dei dati predefiniti eseguiti come parte dell'arricchimento dei metadati hanno dimensioni predefinite assegnate. Consultare Controlli di qualità dei dati predefiniti. Per le regole di qualità dei dati, assegnare le dimensioni come richiesto. Per ulteriori informazioni, vedere Dimensioni della qualità dei dati e Punteggi della qualità dei dati.
- Informazioni di tendenza che mostrano il modo in cui la qualità generale o il punteggio di qualità per una dimensione sono cambiati in 30, 90 o 180 giorni. Per ulteriori informazioni, consultare Risultati dell'analisi della qualità dei dati.
- L'elenco dei controlli di qualità dei dati applicati all'asset e i relativi risultati. Per ulteriori informazioni, consultare Risultati dell'analisi della qualità dei dati.
- Informazioni sulla qualità dei dati per le singole colonne. Per ulteriori informazioni, consultare Risultati dell'analisi della qualità dei dati.
La pagina Qualità dei dati nei progetti
La pagina Qualità dei dati viene popolata dopo che il primo controllo di qualità dei dati viene eseguito sull'asset di dati in uno dei modi riportati di seguito:
- L'analisi della qualità dei dati viene eseguita sull'asset come parte dell'arricchimento dei metadati.
- Una regola di qualità dei dati viene eseguita sull'asset.
- Viene aggiunto un asset di dati di entità IBM Match 360 connesso.
Quando un asset viene importato da un catalogo, nel progetto vengono copiate solo le informazioni sul profilo. Le informazioni sulla qualità dei dati non vengono copiate.
I punteggi di qualità vengono ricalcolati e i dati in questa pagina vengono aggiornati nei seguenti casi:
- L'analisi della qualità dei dati viene eseguita nel contesto dell'arricchimento dei metadati.
- Le regole di qualità dei dati vengono eseguite sull'asset.
- Una regola di qualità dei dati che ha contribuito ai punteggi viene eliminata. Tutti i problemi restituiti da questa regola di qualità dei dati vengono rimossi.
- Il profilo asset viene eliminato nella pagina Profilo dell'asset. Tutti i problemi restituiti dai controlli di qualità dei dati predefiniti vengono rimossi.
I punteggi globali e di dimensione vengono aggiornati anche ogni volta che si modifica l'impostazione Contributi al punteggio globale per un controllo o una colonna. Per ulteriori informazioni, vedi Punteggi della qualità dei dati.
Puoi vedere immediatamente quando i punteggi di qualità sono stati aggiornati l'ultima volta.
Nella sezione Controlli di qualità dei dati , è possibile visualizzare le seguenti informazioni:
- Quali controlli sono stati eseguiti sull'asset, ordinati per data con i controlli più recenti all'inizio
- A quale quota ogni verifica è collegata
- Se un controllo è stato applicato all'intero asset o alle colonne nell'asset
- Informazioni sul numero di problemi rilevati
- Quale tipo di campionamento è stato applicato se
- Il punteggio di qualità dei dati generato da un controllo
- Indica se il punteggio di qualità dei dati di un controllo viene considerato nel calcolo del punteggio dell'asset complessivo e dei punteggi della dimensione
- Data dell'ultima esecuzione del controllo
È possibile esaminare i risultati di ciascun controllo, ad eccezione della corrispondenza IBM Match 360 . Come amministratore o editor di progetto, è possibile modificare per ogni controllo se contribuisce al punteggio di qualità dei dati generale ed è possibile creare nuovi controlli di qualità dei dati. Per ulteriori informazioni, consultare Risultati dell'analisi della qualità dei dati.
È possibile passare dalla vista Controlli alla vista Colonne . La sezione Panoramica colonna mostra le seguenti informazioni per ogni colonna soggetta a uno dei controlli di qualità dei dati:
- Il nome della colonna
- Il punteggio di qualità della colonna per qualsiasi dimensione applicabile all'asset
- Il numero di controlli eseguiti su una colonna
- Se il punteggio di qualità dei dati della colonna viene considerato nel calcolo del punteggio dell'asset complessivo e dei punteggi della dimensione
- Data dell'ultima verifica della colonna
È quindi possibile esaminare i dettagli della qualità dei dati per ciascuna colonna. In qualità di amministratore o editor del progetto, è anche possibile modificare per ogni colonna se il relativo punteggio di qualità contribuisce al punteggio di qualità generale dei dati. Per ulteriori informazioni, consultare Risultati dell'analisi della qualità dei dati.
La pagina Qualità dei dati nei cataloghi
La pagina Qualità dati viene inizialmente popolata quando un asset di dati con informazioni sulla qualità dei dati viene pubblicato nel catalogo. La pagina è vuota per qualsiasi asset che si aggiunge direttamente come asset connesso o che si carica dal file system locale. Per generare le informazioni sulla qualità dei dati per tali asset, aggiungerle a un progetto ed eseguire l'arricchimento dei metadati o le regole di qualità dei dati sugli asset. Quindi, pubblicarli nel catalogo.
I punteggi di qualità vengono aggiornati e i dati in questa pagina vengono aggiornati ogni volta che l'asset viene pubblicato da un progetto con nuove informazioni sulla qualità dei dati.
Puoi vedere immediatamente quando i punteggi di qualità sono stati aggiornati l'ultima volta.
Le sezioni Controlli di qualità dei dati e Panoramica colonna forniscono le stesse informazioni della scheda Qualità dei dati nel progetto. Tuttavia, non è possibile eseguire il drill - down nei dettagli della colonna o del controllo.
Ulteriori informazioni
- Controlli di qualità dei dati predefiniti
- Risultati dell'analisi della qualità dei dati
- Dimensioni qualità dati
- Punteggi di qualità dei dati
Argomento principale: Tipi di asset e proprietà