Viene visualizzato un punteggio di qualità dei dati per l'intero asset di dati e per tutte le colonne contenute nell'asset di dati analizzato. I punteggi di qualità dei dati vengono calcolati sulla base dei risultati dei controlli di qualità dei dati eseguiti sull'intero asset e sulle relative colonne.
I seguenti tipi di controlli di qualità dei dati forniscono punteggi di qualità dei dati:
Controlli di qualità dei dati predefiniti
Questi controlli vengono eseguiti quando si esegue l'analisi della qualità come parte dell'arricchimento dei metadati. Ogni controllo viene eseguito sull'intero asset, ma potrebbe non restituire i risultati per tutte le relative colonne, a seconda del tipo di controllo.
Ogni controllo di qualità dei dati predefinito è associato a una dimensione di qualità dei dati.
Regole di qualità dei dati (Gestione regole di qualità dei dati)
Le regole di qualità dei dati convalidano condizioni specifiche nell'origine dati. Possono essere eseguiti manualmente o automaticamente in base a una pianificazione.
Una regola di qualità dei dati può contribuire a più di una dimensione a seconda della configurazione della regola. Se non è impostata alcuna dimensione per una regola, i relativi risultati vengono acquisiti come punteggio della dimensione Nessuno.
Per ogni controllo, è possibile determinare se i relativi risultati contribuiscono al punteggio di qualità dei dati complessivo. Vedere Risultati dell'analisi della qualità dei dati.
È inoltre possibile recuperare i punteggi di qualità dei dati per i singoli asset utilizzando l'API di IBM Knowledge Catalog.
Come vengono calcolati i punteggi della qualità dei dati
Il punteggio di colonna viene calcolato come una media ponderata dei punteggi di dimensione disponibili per la colonna, ovvero i punteggi di tutte le dimensioni per cui è stato eseguito almeno un controllo di qualità dei dati e restituito un risultato.
Un punteggio di dimensione, ad eccezione della dimensione Confidenza entità , viene calcolato moltiplicando i numeri di probabilità di tutti i problemi per cui i controlli di qualità dei dati hanno cercato questa dimensione, dove il numero di probabilità di un problema è (1 - frequenza). Ad esempio, si supponga che una colonna abbia 2 diversi problemi di qualità riportati per la stessa dimensione. Il problema 1 si verifica con una frequenza del 10% e il problema 2 con una frequenza del 20%. Quindi, la probabilità che un valore in quella colonna non abbia problema 1 è del 90%. Per il numero 2, è dell ' 80%. Quindi, la probabilità che la colonna abbia un problema di qualità in quella dimensione è del 72%, che è calcolato come segue:
(1.0 - 0.1) × (1.0 - 0.2) = 0.9 × 0.8 = 0.72
Per la dimensione Confidenza entità , il punteggio della dimensione rappresenta la percentuale di entità del particolare tipo di entità che non hanno record con potenziali problemi di corrispondenza come membro.
I Punteggi asset (il punteggio complessivo o i punteggi della dimensione) vengono calcolati come media ponderata dei punteggi corrispondenti delle relative colonne.
Nei progetti, è possibile modificare ciò che viene considerato per calcolare i punteggi modificando l'impostazione Contributi al punteggio complessivo . Questa impostazione è attiva per impostazione predefinita. È possibile escludere i risultati di intere colonne e i risultati di determinati controlli a livello di colonna o a livello di asset.
Nei progetti, i punteggi di qualità vengono ricalcolati nei seguenti casi:
- L'analisi della qualità dei dati viene eseguita nel contesto dell'arricchimento dei metadati.
- Le regole di qualità dei dati nuove o esistenti vengono eseguite sull'asset.
- Una regola di qualità dei dati che ha contribuito ai punteggi viene eliminata.
- Viene modificata l'impostazione Contributi al punteggio generale .
- È stato aggiornato un asset di dati entità IBM Match 360 .
Nei cataloghi, i punteggi di qualità cambiano quando l'asset viene nuovamente pubblicato.
Esempio di calcolo del punteggio
Si supponga che un asset di dati abbia le colonne ID, NOME, EMAIL, TELEFONO e STIP. Tutte le colonne e tutti i tipi di problemi contribuiscono ai punteggi complessivi (impostazione predefinita).
Inizialmente, non è disponibile alcun punteggio di qualità dei dati perché non è stato eseguito alcun controllo di qualità dei dati sull'asset. Per generare informazioni sulla qualità dei dati:
L'analisi IBM Match 360 viene eseguita sull'asset di dati e identifica i seguenti problemi:
10% di entità corrispondenti per l'asset di dati. Queste informazioni vengono considerate per la dimensione di qualità dei dati Confidenza entità.
Vengono calcolati i seguenti punteggi a livello di asset:
Punteggio della dimensione
Confidenza entità: (1 - 0.1) = 90%Punteggio complessivo: 90%
Eseguire l'analisi della qualità dei dati come parte dell'arricchimento dei metadati. L'analisi della qualità identifica i problemi seguenti:
- Valori mancanti, considerati per la dimensione di qualità dei dati Completezza:
- 3% dei valori nella colonna NOME
- 5% dei valori nella colonna EMAIL
- 3% dei valori nella colonna PHONE
- Violazioni della classe dati, considerate per la dimensione della qualità dei dati Validità:
- 10% dei valori nella colonna EMAIL
- 6% dei valori nella colonna PHONE
- Valori anomali o sospetti, considerati per la dimensione di qualità dei dati Consistenza:
- 4% dei valori nella colonna NOME
- 1% dei valori nella colonna STIP
Questi risultati si traducono nei seguenti punteggi per le singole colonne:
- ID colonna
- Punteggi della dimensione
Confidenza entità: 90% (non modificato)
Completezza: 100% (il controllo Valori mancanti non previsti non ha rilevato alcun problema).
Validità: 100% (Nessuno dei controlli Validità predefiniti ha rilevato problemi).
Consistenza: 100% (i controlli Consistenza predefiniti hanno rilevato eventuali problemi.) - Punteggio colonna globale: (90% + 100% + 100% + 100%) /4 = 97.5%
- Punteggi della dimensione
- Nome colonna
- Punteggi dimensione
Confidenza entità: 90% (non modificata)
Completezza: 100% - 3% = 97%
Validità: 100%
Consistenza: 100% - 4% = 96% - Punteggio colonna complessivo: (90% + 97% + 100% + 96%) /4 = 95.75%
- Punteggi dimensione
- Colonna E-MAIL
- Punteggi dimensione
Confidenza entità: 90% (non modificato)
Completezza: 100% - 5 %= 95%
Validità: 100% - 10% = 90%
Consistenze: 100% - Punteggio colonna globale: (90% + 95% + 90% + 100%) /4 = 93.75%
- Punteggi dimensione
- Colonna PHONE
- Punteggi dimensione
Confidenza entità: 90% (non modificato)
Completezza: 100% - 3% = 97%
Validità: 100% - 6% = 94%
Consistenze: 100% - Punteggio colonna globale: (90% + 97% + 94% + 100%) /4 = 95.25%
- Punteggi dimensione
- STIP colonna
- Punteggi dimensione
Confidenza entità: 90% (non modificato)
Completezza: 100%
Validità: 100%
Consistenza: 100% - 1% = 99% - Punteggio colonna globale: (90% + 100% + 100% + 99%) /4 = 97.25%
- Punteggi dimensione
Da questi punteggi, vengono calcolati i punteggi a livello di asset:
Punteggi di dimensione
Confidenza entità: (90% + 90% + 90% + 90% + 90%) /5 = 90%
Completezza: (100% + 97% + 95% + 97% + 100%) /5 = 97.8%
Validità: (100% + 100% + 90% + 94% + 100%) /5 = 96.8%
Congruenza: (100% + 96% + 100% + 100% + 99%) /5 = 99%Punteggio complessivo: (97.5% + 95.75% + 93.75% + 95.25% + 97.25%) /5 = 95.9%
- Valori mancanti, considerati per la dimensione di qualità dei dati Completezza:
Eseguire la regola di qualità dei dati Name_Complete, che viene applicata alla colonna NAME per verificare che contenga un nome e un cognome. La regola è collegata alla dimensione di qualità dei dati Completezza. Questa regola riporta l'1% di violazioni nella colonna NOME.
I punteggi della colonna NOME cambiano come segue. I punteggi delle altre colonne rimangono invariati.
- Punteggi dimensione
Confidenza entità: 90% (non modificato)
Completezza: (1-0.03) × (1-0.01) = 0.9603 = 96.03%
Validità: 100% (non modificato)
Consistenza: 96% (non modificato) - Punteggio complessivo: (90% + 96.03% + 100% + 96%) /4 = 95.5%
Queste modifiche cambiano anche i punteggi degli asset.
- Punteggi dimensione
Confidenza entità: 90% (invariato)
Completezza: (100% + 96% + 95% + 97% + 100%) /5 = 97.6%
Validità: 96.8% (non modificato)
Consistenza: 99% (non modificato) - Punteggio complessivo: (97.5% + 95.5% + 93.75% + 95.25% + 97.25%) /5 = 95.85%
- Punteggi dimensione
Eseguire una regola di qualità dei dati aggiuntiva Phone_Valid, che viene applicata alla colonna PHONE per verificare che il numero di telefono abbia il prefisso e il codice paese che corrispondono all'indirizzo. La regola è collegata alla dimensione di qualità dei dati Validità. Questa regola riporta il 2% di violazioni nella colonna PHONE.
I punteggi della colonna PHONE cambiano come segue. I punteggi delle altre colonne rimangono invariati.
- Punteggi dimensione
Confidenza entità: 90% (non modificato)
Completezza: 97% (non modificato)
Validità: (1.0-0.06) × (1.0-0.02) = 0.9212 = 92.12%
Consistenza: 100% - Punteggio complessivo: (90% + 97% + 92.12% + 100%) /4 = 94.78%
Queste modifiche si traducono anche in modifiche dei punteggi degli asset.
- Punteggi dimensione
Confidenza entità: 90% (non modificato)
Completezza: 97.6% (non modificato)
Validità: (100% + 100% + 90% + 92.12% + 100%) /5 = 96.42%
Congruenza: 99% (non modificato) - Punteggio complessivo: = (97.5% + 95.5% + 93.75% + 94.78% + 97.25%) /5 = 95.76%
- Punteggi dimensione
Impostare tutti i controlli per la dimensione Congruenza da ignorare per il calcolo del punteggio. Il punteggio di dimensione per la dimensione Coerenza non viene più visualizzato. Tutti gli altri punteggi della dimensione rimangono invariati. La colonna complessiva e i punteggi asset vengono ricalcolati.
Column scores
xx Column ID: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 100%)/(1 + 1 + 1 + 0) = 96.67%
Column NAME: (1 × 90% + 1 × 96.03% + 1 × 100% + 0 × 96%)/(1 + 1 + 1 + 0) = 95.34%
Column EMAIL: (1 × 90% + 1 × 95% + 1 × 90% + 0 × 100%)/(1 + 1 + 1 + 0) = 91.67%
Column PHONE: (1 × 90% + 1 × 97% + 1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 0) = 94.78%
Column SALARY: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 99%)/(1 + 1 + 1 + 0) = 96.67%Punteggio complessivo dell'asset: (96.67 + 95.34% + 91.67% + 93.04% + 96.67)/5 = 94.68%
Escludere i risultati per la colonna STIP dal calcolo del punteggio. I punteggi delle colonne non cambiano. I punteggi complessivi e di dimensione per l'asset vengono ricalcolati come segue:
- Dimension scores
Confidenza entità: (1 × 90% + 1 × 90% + 1 × 90% + 1 × 90% + 0 × 90%)/(1 + 1+ 1 + 1 + 0) = 90%
Completezza: (1 × 100% + 1 × 96.03% + 1 × 95% + 1 × 97% + 0 × 100%)/(1 + 1+ 1 + 1 + 0) = 97%
Validità: (1 × 100% + 1 × 100% +1 × 90% +1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 1 + 0) = 95.53%
Coerenza: not shown - Punteggio asset complessivo = (100% + 98.02% + 92.5% + 92.74% + 0%) / (1 + 1 + 1 + 0) = 95.82%
- Dimension scores
Ulteriori informazioni
- Creazione di profili per un asset
- Arricchimento dei metadati
- Valutazione della qualità dei dati
- Controlli di qualità dei dati predefiniti
- API IBM Knowledge Catalog : Ottenere un elenco di punteggi di qualità dei dati per un determinato asset
Argomento principale Risultati dell'analisi della qualità dei dati