I controlli di qualità dei dati predefiniti vengono eseguiti automaticamente quando si esegue l'analisi di qualità dei dati di base come parte dell'arricchimento metadati. Questi controlli di qualità dei dati identificano problemi di qualità di base con i propri dati, sia sull'asset di dati che a livello di colonna.
I seguenti controlli di qualità dei dati generano singoli punteggi di qualità e contribuiscono al punteggio di qualità generale di un asset di dati o di una colonna:
- Violazioni della classe di dati
- Violazioni del tipo di dati
- Violazioni del formato
- Capitalizzazione incongruente
- Rappresentazione incongruente dei valori mancanti
- Valori sospetti
- Valori duplicati imprevisti
- Valori mancanti imprevisti
- Valori fuori intervallo
Inoltre, ogni controllo di qualità dei dati è associato ad una dimensione di qualità dei dati. Vedere Qualità dei dati.
I risultati di questi controlli vengono mostrati come parte delle informazioni sulla qualità dei dati per un asset di dati o una colonna. Vedere Risultati dell'analisi della qualità dei dati. Tuttavia, non tutti i controlli vengono applicati a tutte le colonne in un asset di dati. I controlli che vengono eseguiti dipendono dal tipo di dati della colonna e dai dati che contiene.
I controlli predefiniti convalidano i singoli valori (controllibasati sul valore ) all'interno di una colonna o i metadati della colonna trovati durante la creazione del profilo (controllibasati sui metadati ).
Violazioni della classe di dati
Una classe di dati è il tipo di dati che viene rilevato per una particolare colonna. Esempi di classe di dati possono includere il codice postale, il paese o il numero di carta di credito. Questo controllo conta il numero di valori in una colonna che non corrispondono alla classe di dati rilevata di tale colonna. Viene identificato ogni valore che viola la classe. Il punteggio di qualità è basato sulla percentuale di valori identificati sottratti da una percentuale di 100.
Ad esempio, una colonna ha una classe di dati 'numero di carta di credito' assegnata. Il valore previsto per tale classe dati è una stringa numerica di 16 caratteri. Se tale colonna contiene un valore 'MA', tale valore viene identificato come una violazione della classe di dati. Se tale colonna ha 100 valori, 40 valori non corrispondono alla classe, la colonna ha un punteggio di qualità del 60% per questo controllo perché il 40% dei valori viola la classe dati della colonna.
Tipo di verifica: verifica basata su valori
Dimensione: validità
Violazioni del tipo di dati
Un tipo di dati definisce il formato valido per i dati in una particolare colonna. Esempi di tipo di dati possono includere testo, numerico o data. Questa metrica conta il numero di valori in una colonna che non corrispondono al tipo di dati rilevato o assegnato di una colonna. Viene identificato ogni valore che non corrisponde al tipo di dati dedotto in lunghezza, precisione o scala o che viola il tipo di dati specificato. Il punteggio di qualità è basato sulla percentuale di valori identificati sottratti da una percentuale di 100.
Ad esempio, una colonna ha un tipo di dati DECIMAL (4, 2) specificato. Tale tipo di dati definisce il formato della colonna come un valore numerico con una lunghezza totale di 4 cifre con 2 di tali cifre dopo il punto decimale. Se tale colonna contiene un valore numerico con troppe cifre, tale valore viene identificato come una violazione del tipo di dati. Se tale colonna ha 100 valori, 40 valori non corrispondono al tipo, la colonna ha un punteggio di qualità del 60% per questo controllo poiché il 40% dei valori viola il tipo di dati della colonna.
Tipo di verifica: verifica basata su valori
Dimensione: validità
Violazioni del formato
Attualmente non è valutato nell'arricchimento dei metadati. Pertanto, viene sempre mostrato un punteggio di qualità dei dati del 100%.
Tipo di verifica: verifica basata su valori
Dimensione: validità
Capitalizzazione incongruente
Questo controllo verifica se la capitalizzazione dei valori in una colonna è coerente. Nelle colonne del tipo di dati String, i valori possono avere qualsiasi carattere maiuscolo, minuscolo, maiuscolo o minuscolo. Se il controllo rileva che la maggior parte (oltre il 95%) dei valori ha una capitalizzazione specifica, il resto dei valori viene segnalato come problema di qualità.
Ad esempio, una colonna ha 100 valori. Di questi valori, 90 sono minuscoli e 10 maiuscoli. Pertanto, il controllo imposta il punteggio di qualità della colonna su 90% perché il 10% dei valori è in un caso diverso rispetto alla maggioranza.
Risoluzione di una violazione di maiuscole / minuscole non congruente: è possibile esaminare la colonna o le colonne identificate per ottenere ulteriori informazioni e determinare la risposta migliore. Ad esempio, in alcuni casi, potrebbe essere necessario creare una nota per suggerire la normalizzazione per una colonna.
Tipo di verifica: verifica basata su valori
Dimensione: Congruenza
Rappresentazione incongruente dei valori mancanti
È comune che gli asset di dati contengano rappresentazioni variabili dei dati mancanti. Una colonna in un asset di dati potrebbe contenere diversi valori NULL, diversi altri che leggono NA e altri ancora in cui il campo è vuoto. Tutti questi valori potrebbero suggerire la mancanza di informazioni, ma vengono interpretati in modo diverso e possono portare a un'analisi non accurata. La rappresentazione incongruente dei valori mancanti viene rilevata identificando le colonne con valori null e vuoti. Una colonna che contiene sia valori null che valori vuoti suggerisce che non esiste un metodo standardizzato per rappresentare i valori mancanti. Spesso, quando una colonna contiene valori null, anche i valori vuoti devono essere rappresentati come null.
Viene identificato ogni valore che corrisponde a questo criterio in una colonna. Il punteggio di qualità è basato sulla percentuale di valori identificati sottratti da una percentuale di 100.
Gestione della rappresentazione delle violazioni dei valori mancanti: è possibile esaminare la colonna o le colonne identificate per ottenere ulteriori informazioni e determinare la risposta migliore. Ad esempio, in alcuni casi, potrebbe essere necessario creare una nota per suggerire la normalizzazione per una colonna.
Tipo di verifica: verifica basata su valori
Dimensione: Congruenza
Valori sospetti
Questo controllo cerca i valori sospetti che non sembrano corrispondere alla maggior parte degli altri valori nella colonna perché le loro caratteristiche sono diverse. Identifica i valori anomali nelle colonne numeriche o nelle colonne stringa con dati numerici. I risultati per le colonne stringa con valori stringa vengono ignorati. Il punteggio di qualità è basato sulla percentuale di valori identificati sottratti da una percentuale di 100.
Ad esempio, se una colonna contiene 100 valori e 98 di tali valori sono stringhe numeriche con una lunghezza compresa tra 5 e 9 caratteri, ma due sono stringhe di testo di 30-45 caratteri, questi due valori vengono identificati come sospetti perché non corrispondono alle caratteristiche degli altri valori. Per questo controllo individuale, la colonna ha un punteggio di qualità del 98% perché il 2% dei valori è sospetto.
Risoluzione delle violazioni dei valori sospetti: è possibile esaminare la colonna o le colonne identificate per ottenere ulteriori informazioni e determinare la risposta migliore. Ad esempio, in alcuni casi, potrebbe essere necessario creare una nota per suggerire la normalizzazione per una colonna.
Tipo di verifica: verifica basata su valori
Dimensione: Congruenza
Valori duplicati imprevisti
Questo controllo identifica i valori duplicati nelle colonne in cui la maggior parte dei valori è univoca. Tutti i valori non univoci vengono contrassegnati come problemi di qualità. La soglia di univocità è impostata nelle impostazioni di arricchimento metadati. L'impostazione predefinita è 95%. Vedere Soglia univocità.
Il punteggio di qualità è basato sulla percentuale di valori identificati sottratti da una percentuale di 100. Ad esempio, una serie di dati del paziente contiene una colonna con numeri di previdenza sociale. La maggior parte dei valori della colonna appare una sola volta, perché ogni paziente è associato a un solo SSN. Viene identificato ciascun valore duplicato in questa colonna. Se la colonna ha 100 valori, 3 valori sono duplicati, la colonna ha un punteggio di qualità del 97% per questo controllo perché il 3% dei valori sono duplicati.
Tipo di controllo: controllo basato su metadati
Dimensione: Unicità
Valori mancanti imprevisti
Questo controllo ricerca valori mancanti non previsti nelle colonne. Se una colonna è vicina a non avere valori null o vuoti, le righe con valori mancanti vengono considerate incomplete. La soglia null determina quando i valori mancanti sono consentiti e quando i valori mancanti sono considerati imprevisti. Questa soglia è impostata nelle impostazioni di arricchimento dei metadati. L'impostazione predefinita è 5%, il che significa che i valori mancanti nel 5% o meno delle righe in una colonna sono considerati valori mancanti non previsti. Vedere Nullabilità.
Il punteggio di qualità si basa sulla percentuale di valori completi in quella colonna. Ad esempio, con l'impostazione predefinita, se una colonna ha 100 valori e 4 valori sono mancanti, il punteggio di qualità per questo controllo è 96%. Se mancano 9 valori, il punteggio di qualità è 100% perché il numero di valori mancanti è superiore alla soglia impostata e i valori mancanti non sono considerati imprevisti.
Tipo di verifica: verifica basata su valori
Dimensione: completezza
Valori fuori intervallo
Attualmente non è valutato nell'arricchimento dei metadati. Pertanto, viene sempre mostrato un punteggio di qualità dei dati del 100%.
Tipo di verifica: verifica basata su valori
Dimensione: validità
Ulteriori informazioni
Argomento principale: Gestione della qualità dei dati