Quando un asset di dati viene analizzato correttamente, i risultati vengono visualizzati sia a livello di asset di dati che a livello di colonna. I risultati dell'analisi includono informazioni sul contenuto e sulla struttura dell'asset di dati e metriche sulla qualità complessiva dei dati.
I risultati dell'analisi della qualità dei dati sono disponibili nella pagina Qualità dei dati dell'asset in un progetto o in un catalogo. Puoi anche accedervi da un arricchimento dei metadati facendo clic sul punteggio di qualità di un asset o di una colonna.
- Autorizzazioni richieste
- Per visualizzare i risultati dell'analisi, è necessario essere un collaboratore nello spazio di lavoro.
Per modificare il modo in cui vengono calcolati i punteggi, è necessario disporre del ruolo Admin o Editor nel progetto.
Per creare nuovi controlli di qualità dei dati, è necessario disporre del ruolo Admin o Editor nel progetto e dell'autorizzazione Gestisci asset di qualità dei dati .
Per visualizzare i dati che hanno causato problemi di qualità dei dati (la tabella di output) dalla cronologia di esecuzione delle regole o dalla pagina Qualità dei dati, è necessario disporre dell'autorizzazione Drill down to issue details. Tuttavia, la risorsa dati del progetto creata per la tabella di output è accessibile a chiunque possa accedere alla connessione. Per limitare l'accesso a questa risorsa di dati, la connessione all'origine dati in cui è memorizzata la tabella di output deve essere impostata con credenziali personali.
Le informazioni sulla qualità dei dati diventano disponibili in un progetto o in un catalogo nel modo seguente:
In un progetto, dopo che il primo controllo di qualità dei dati viene eseguito sull'asset di dati in uno dei seguenti modi o quando viene aggiunto un asset di dati di entità IBM Match 360 connesso:
- L'analisi della qualità dei dati viene eseguita sull'asset come parte dell'arricchimento dei metadati.
- Una regola di qualità dei dati viene eseguita sull'asset.
In un catalogo:
- Un asset di dati con informazioni sulla qualità dei dati viene pubblicato nel catalogo.
I punteggi di qualità vengono ricalcolati e i dati vengono aggiornati come segue:
In un progetto, ogni volta che viene eseguito un controllo della qualità dei dati sull'asset o quando viene aggiornato un asset di dati dell'entità IBM Match 360 :
- Un'analisi della qualità dei dati viene eseguita nel contesto dell'arricchimento dei metadati.
- Una regola di qualità dei dati viene eseguita sull'asset.
- L'algoritmo di corrispondenza IBM Match 360 è stato modificato o i potenziali problemi di corrispondenza sono stati risolti.
In un catalogo:
- Un asset viene pubblicato da un progetto.
Puoi vedere immediatamente quando i punteggi di qualità sono stati aggiornati l'ultima volta.
- Informazioni sulla qualità dei dati per un asset
- Informazioni sulla qualità dei dati per una colonna
Informazioni sulla qualità dei dati per un asset
Quando si accede alle informazioni sulla qualità dei dati di un asset, vengono visualizzati i punteggi di qualità dei dati generali e i risultati dei controlli di qualità dei dati eseguiti sull'asset. Inoltre, si ha accesso ai risultati dell'analisi per le colonne dell'asset.
Se le regole SLA sulla qualità dei dati sono valutate come parte dell'arricchimento dei metadati, gli asset che sono soggetti a una regola SLA sulla qualità dei dati avranno anche informazioni sulla conformità SLA.
Punteggi complessivi a livello di asset
Una rappresentazione grafica dei punteggi di qualità fornisce una vista immediata della qualità complessiva dell'asset e del livello di qualità relativo alle dimensioni applicate all'asset. Per questi punteggi, le informazioni di tendenza mostrano il modo in cui la qualità generale o il punteggio di qualità per una dimensione sono cambiati nel tempo. È possibile selezionare se la tendenza viene mostrata per un periodo di 30, 90 o 180 giorni. Una dimensione non mostra le informazioni di tendenza se prima non è stata fornita alcuna verifica a questa dimensione.
Il punteggio complessivo dell'asset è la media ponderata dei punteggi forniti dalle colonne dell'asset. Ogni punteggio dimensione è la media ponderata dei punteggi dimensione corrispondenti forniti dai singoli controlli.
I punteggi globali e di dimensione e le informazioni di tendenza vengono ricalcolati per queste modifiche:
- Un controllo di qualità dei dati viene eseguito sull'asset.
- L'impostazione Contributi al punteggio complessivo per un controllo o una colonna viene modificata.
- Una regola di qualità dei dati applicata all'asset viene eliminata.
- Il profilo asset viene eliminato nella pagina Profilo dell'asset.
- L'asset viene aggiornato in IBM Match 360.
Per ulteriori informazioni, vedi Punteggi della qualità dei dati.
Conformità alle regole SLA sulla qualità dei dati
Per un asset soggetto a una o più regole SLA di qualità dei dati, le regole SLA applicate sono elencate con i loro risultati e la data e l'ora dell'ultima valutazione. Per una regola SLA violata, viene mostrato il numero di violazioni, che possono riguardare tabelle, colonne o entrambe, a seconda delle condizioni della regola, e se è stata configurata un'azione per la regola. Se un flusso di lavoro di ripristino della qualità dei dati è legato alla regola SLA di qualità dei dati violata, è possibile vedere anche lo stato delle attività di ripristino avviate.
È possibile approfondire i risultati di ciascuna regola SLA sulla qualità dei dati. Per visualizzare i dettagli delle violazioni e dei controlli che hanno contribuito al punteggio della dimensione nei criteri di qualità della regola SLA, fare clic sul nome della regola SLA. La sezione Violazioni fornisce informazioni sull'elemento per il quale è stata riscontrata la violazione, sui criteri di qualità definiti, sul punteggio di qualità effettivo dell'elemento e sulla deviazione in punti percentuali (pp). È inoltre possibile visualizzare i dettagli della regola o modificare la regola SLA se si dispone delle autorizzazioni necessarie.
Per gli asset che non sono soggetti ad alcuna regola SLA di qualità dei dati, questa sezione è vuota.
Le informazioni sulla conformità alle regole SLA sulla qualità dei dati o sulle attività di correzione non sono disponibili nei cataloghi.
Risultati del controllo di qualità dei dati a livello di asset
Qui, è possibile visualizzare i controlli eseguiti sull'asset e i risultati. L'elenco è ordinato per data con i controlli più recenti all'inizio.
- Nome e logica
Il nome di una regola di qualità dei dati e il nome della definizione di qualità dei dati che contiene la logica della regola o il nome di un controllo di qualità dei dati predefinito.
Le regole di qualità dei dati con associazioni gestite esternamente o regole di qualità dei dati basate su SQL contribuiscono ai punteggi di qualità dei dati di una risorsa se tale risorsa viene aggiunta come elemento correlato alla regola corrispondente con l'opzione Convalida la qualità dei dati di relazione. Lo stesso punteggio e gli stessi problemi vengono riportati per tutti gli asset e le colonne collegati a questo tipo di relazione.
I controlli di qualità dei dati predefiniti vengono eseguiti sull'intero asset. Tuttavia, non tutte restituiscono risultati per tutte le colonne. Ad esempio, il controllo Valori sospetti identifica i valori anomali nelle colonne numeriche o le colonne stringa con dati numerici, ma non restituisce i risultati per le colonne stringa con valori stringa. Pertanto, l'elenco dei controlli di qualità dei dati predefiniti potrebbe essere più breve per le singole colonne.
In un progetto, è possibile fare clic sul nome di un controllo di qualità dei dati per i dettagli. Per i controlli di qualità dei dati predefiniti, visualizzare le informazioni sulle ricerche: le colonne che presentano problemi e il numero e la percentuale di valori nelle colonne identificate come problemi di qualità. Se per questi problemi è impostata una tabella di output, un utente con le autorizzazioni appropriate può visualizzare le righe effettive in cui i dati causano problemi di qualità. Per le regole di qualità dei dati, è possibile visualizzare la configurazione della regola generale e accedere alla tabella di output della regola, se ne è configurata una. Se si desidera aggiornare la configurazione della regola e si dispone delle autorizzazioni richieste, è possibile andare direttamente all'asset facendo clic su Visualizza regola di qualità dei dati.
Per gli asset di dati di entità IBM Match 360 connessi, Corrispondenze potenziali viene visualizzato qui per la corrispondenza. Non vengono fornite ulteriori informazioni per questo tipo di controllo.
- Tipo
Il tipo di controllo, che può essere Regola di qualità dei dati, Corrispondenzao Creazione profili. Corrispondenza viene mostrato per i risultati di IBM Match 360 . Viene mostrato Profiling per i controlli di qualità dei dati predefiniti eseguiti nel contesto dell'arricchimento dei metadati. Consultare Controlli di qualità dei dati predefiniti.
- Dimensione
La dimensione della qualità dei dati a cui è collegato questo controllo. I controlli di qualità dei dati predefiniti eseguiti durante la creazione del profilo o come parte dell'arricchimento dei metadati hanno dimensioni predefinite assegnate. Per le regole di qualità dei dati, assegnare le dimensioni come richiesto.
Per gli asset di dati di entità IBM Match 360 connessi, viene visualizzata la dimensione Confidenza entità .
Se non è impostata alcuna dimensione, il campo mostra Nessuno. Per ulteriori informazioni, vedere Dimensioni della qualità dei dati e Punteggi della qualità dei dati.
- Focus e percentuale di dati con problemi
A seconda del tipo di controllo, lo stato attivo può essere una o più colonne o un'intera tabella. Per i controlli di qualità dei dati predefiniti, lo stato attivo è sempre l'intera tabella. Percentuale di dati con problemi mostra la quantità di dati che non soddisfa i criteri di qualità definiti nel controllo.
- Dati controllati e problemi trovati
Il numero di record controllati e il numero di problemi di qualità rilevati. Questi problemi possono trovarsi nello stesso record o in record differenti.
- Campionamento
Il tipo di campionamento applicato nell'ultima esecuzione del controllo. Per le regole di qualità dei dati, questa colonna mostra un trattino (-) se non è stato configurato alcun campionamento. Per la corrispondenza, la colonna mostra sempre un trattino. Per i controlli di qualità dei dati predefiniti, la colonna ha sempre un valore.
- Punteggio
Il punteggio di qualità restituito dal controllo per l'asset.
- Contribuisce al punteggio complessivo
Questa impostazione determina se questo punteggio di qualità specifico viene considerato nel calcolo dei punteggi complessivi. È possibile modificare questa impostazione solo in un progetto. Per eseguire questa operazione, è necessario essere un amministratore del progetto o un editor. In un catalogo, l'impostazione è bloccata. Vedere Punteggi di qualità dei dati.
- Ultimo controllo
La data e l'ora dell'ultima esecuzione del controllo.
È possibile passare alla panoramica della colonna facendo clic su Colonne.
In un progetto, hai anche la possibilità di creare nuove definizioni di qualità dei dati o regole di qualità dei dati se il componente qualità dei dati diIBM Knowledge Catalog è abilitato. È necessario essere un amministratore o un editor del progetto e disporre dell'autorizzazione Gestisci asset di qualità dei dati .
Panoramica sulle colonne
Visualizzare le informazioni sulla qualità dei dati per le singole colonne:
- Il nome della colonna.
- Il punteggio di qualità dei dati globale della colonna.
- Il punteggio di qualità della colonna per qualsiasi dimensione applicabile all'asset. Viene visualizzato un trattino (-) se nessuno dei controlli applicati a quella colonna ha contribuito alla dimensione.
- Il numero di controlli eseguiti su una colonna.
- Se il punteggio di qualità dei dati della colonna viene considerato nel calcolo del punteggio dell'asset complessivo e dei punteggi della dimensione. Come amministratore del progetto o editor, è possibile modificare tale impostazione.
- La data dell'ultimo controllo della colonna.
È quindi possibile esaminare i dettagli della qualità dei dati per ciascuna colonna. Consultare Informazioni sulla qualità dei dati per una colonna.
È possibile tornare all'elenco dei controlli di qualità dei dati facendo clic su Controlli.
Informazioni sulla qualità dei dati per una colonna
Quando si accede alle informazioni di qualità dei dati per una colonna, viene visualizzata una sezione che mostra i punteggi di qualità dei dati complessivi e si ha accesso ai risultati dei controlli di qualità dei dati eseguiti sulla colonna. La corrispondenza non contribuisce ai dati a livello di colonna.
Oltre alle informazioni sulla qualità, è possibile visualizzare la classe di dati e i termini di business assegnati alla colonna.
Punteggi globali a livello di colonna
Una rappresentazione grafica dei punteggi di qualità fornisce una visione immediata della qualità complessiva di una colonna e del livello di qualità rispetto alle dimensioni applicate alla colonna. Per questi punteggi, le informazioni di tendenza mostrano il modo in cui la qualità generale o il punteggio di qualità per una dimensione sono cambiati nel tempo. È possibile selezionare se la tendenza viene mostrata per un periodo di 30, 90 o 180 giorni.
Il punteggio complessivo per la colonna o una dimensione è la media ponderata dei punteggi forniti dai controlli di qualità dei dati applicati alla colonna.
In un progetto, i punteggi globali e di dimensione e le informazioni di tendenza vengono ricalcolati ogni volta che un controllo di qualità dei dati che influisce sulla colonna viene eseguito sull'asset. Il punteggio viene ricalcolato anche quando si modifica l'impostazione Contributi al punteggio generale per un controllo che influisce sulla colonna o quando vengono eliminate le regole di qualità dei dati o il profilo dell'asset.
In un catalogo, i punteggi globali e di dimensione e le informazioni di tendenza vengono aggiornate quando un asset viene pubblicato da un progetto.
Per ulteriori informazioni, vedi Punteggi della qualità dei dati.
Risultati del controllo di qualità dei dati a livello di colonna
Qui è possibile vedere quali controlli sono stati applicati alla colonna e quali sono stati i risultati. L'elenco è ordinato per data con i controlli più recenti all'inizio.
- Nome e logica
Il nome di una regola di qualità dei dati e il nome della definizione di qualità dei dati che contiene la logica della regola o il nome di un controllo di qualità dei dati predefinito.
Le regole di qualità dei dati con associazioni gestite esternamente o regole di qualità dei dati basate su SQL contribuiscono ai punteggi di qualità dei dati di una colonna se tale colonna viene aggiunta come elemento correlato alla regola corrispondente con l'attributo Convalida la qualità dei dati di relazione. Lo stesso punteggio e gli stessi problemi vengono riportati per tutti gli asset e le colonne collegati a questo tipo di relazione.
In un progetto, è possibile fare clic sul nome di una regola di qualità dei dati per visualizzare la configurazione generale della regola e la tabella di output della regola, se configurata. Se si desidera aggiornare la configurazione della regola e si dispone delle autorizzazioni richieste, è possibile andare direttamente all'asset facendo clic su Visualizza regola di qualità dei dati.
- Tipo
Il tipo di controllo, che può essere Regola di qualità dei dati o Creazione profili. Viene mostrato Profiling per i controlli di qualità dei dati predefiniti eseguiti nel contesto dell'arricchimento dei metadati. Consultare Controlli di qualità dei dati predefiniti.
- Dimensione
La dimensione della qualità dei dati a cui è collegato questo controllo. I controlli di qualità dei dati predefiniti eseguiti durante la creazione del profilo o come parte dell'arricchimento dei metadati hanno dimensioni predefinite assegnate. Per le regole di qualità dei dati, è possibile assegnare le dimensioni come richiesto. Se non è impostata alcuna dimensione, il campo mostra Altro. Per ulteriori informazioni, vedere Dimensioni della qualità dei dati e Punteggi della qualità dei dati.
- Percentuale di dati con problemi
Questo valore mostra la quantità di dati che non soddisfa i criteri di qualità definiti nel controllo.
- Dati controllati e problemi trovati
Il numero di record controllati e il numero di problemi di qualità rilevati. Questi problemi possono trovarsi nello stesso record o in record differenti.
- Campionamento
Il tipo di campionamento applicato nell'ultima esecuzione del controllo. Per le regole di qualità dei dati, questa colonna mostra un trattino (-) se non è stato configurato alcun campionamento. Per i controlli di qualità dei dati predefiniti, la colonna ha sempre un valore.
- Punteggio
Il punteggio di qualità restituito dalla verifica per la colonna.
- Contribuisce al punteggio complessivo
Questa impostazione determina se questo punteggio di qualità specifico viene considerato nel calcolo dei punteggi complessivi. È possibile modificare questa impostazione solo in un progetto. Per eseguire questa operazione, è necessario essere un amministratore del progetto o un editor. In un catalogo, l'impostazione è bloccata. Vedere Punteggi di qualità dei dati.
- Ultimo controllo
La data e l'ora dell'ultima esecuzione del controllo.
API IBM Knowledge Catalog per la qualità dei dati
È possibile utilizzare una raccolta di API REST per generare e richiamare informazioni sulla qualità dei dati.
- Metodi di Data Quality Asset
Gli asset di qualità dei dati sono asset di dati soggetti a controlli di qualità dei dati. Esempio di API: Ottenere asset di qualità dei dati - Controlli di qualità dei dati
I controlli di qualità dei dati possono essere, ad esempio, regole di qualità dei dati o controlli eseguiti come parte dell'arricchimento dei metadati. Esempio di API: Ottenere i controlli di qualità dei dati - Dimensioni di qualità dei dati
Una serie di dimensioni di qualità dei dati standard viene fornita con il prodotto, ma è possibile creare dimensioni personalizzate. Esempio di API: Ottenere un elenco di dimensioni della qualità dei dati - Problemi di qualità dei dati
I problemi di qualità dei dati sono i problemi rilevati dai controlli di qualità dei dati per un asset di dati. Esempio di API: Ottenere un elenco di problemi di qualità dei dati - Punteggi di qualità dei dati
Per ogni asset di dati, vengono generati diversi tipi di punteggi di qualità, come il punteggio complessivo o i punteggi di dimensione. Esempio di API: Ottenere un elenco di punteggi di qualità dei dati per una determinata risorsa
Ulteriori informazioni
Argomento principale: Gestione della qualità dei dati