Ogni profilo contiene diversi livelli di informazioni.
Le informazioni sono raggruppate come segue:
Quando i risultati della profilazione avanzata vengono scritti in una tabella di output, i valori vengono memorizzati come stringhe, indipendentemente dal tipo di dati effettivo. In questo caso, l'ordine di ordinamento delle stringhe viene applicato quando si ordinano le classi, i formati o i tipi di dati.
Statistiche
La scheda Statistiche fornisce un riepilogo della struttura dei dati analizzati in una colonna e diversi tipi di visualizzazioni per tali informazioni strutturali. Le informazioni visualizzate esattamente dipendono dal fatto che la colonna contenga dati continui (quantitativi) o nominali (qualitativi).
Grafici
A seconda del tipo di dati in una colonna, è possibile scegliere tra diversi tipi di visualizzazioni:
Dati nominali:
- Grafico a barre
- Proporzione o grafico a torta
- grafico di Pareto
Dati continui:
- Grafico istogramma
- Grafico a scatole
- Grafico a tracciato quantile-quantile (Q-Q)
È disponibile un grafico di distribuzione per tutti i tipi di dati. La tabella di distribuzione di solito elenca almeno i valori (o gli intervalli) più frequenti nella colonna e i relativi conteggi. La tabella potrebbe mostrare altre informazioni come i formati, i tipi o le classi di dati. Per visualizzare le singole righe che contengono un determinato valore, fare clic su Mostra righe.
Le statistiche di distribuzione per i valori non numerici, come i valori stringa, mostrano solo i primi 100 valori distinti, indipendentemente dal numero di valori effettivamente memorizzati. Per accedere a tutti i valori della tabella di output, utilizzare le query standard del database o il comando .
Nei grafici a barre o istogrammi, è possibile selezionare una colonna di sovrapposizione per visualizzare il modo in cui i relativi valori vengono distribuiti all'interno di ciascun valore della colonna che si sta attualmente esaminando. Ad esempio, se si dispone di una colonna con prodotti da forno venduti e si seleziona una stagione di colonne di sovrapposizione, è possibile vedere come le vendite di un determinato prodotto da forno differiscono a seconda della stagione. Per la colonna di sovrapposizione, è possibile selezionare da tutte le colonne nell'asset di dati che contengono dati nominali.
Riepilogo
Il riquadro Riepilogo fornisce informazioni generali sui dati nella colonna selezionata:
- Il tipo di dati della colonna come definito nell'origine dati
- Il tipo di dati dedotto tramite l'analisi
- Il numero di formati dati differenti in tale colonna
- Il formato dedotto più frequente per quella colonna
- La classe di dati assegnata
- Il tipo di misurazione dei dati (
nominal
ocontinuous
) - Il numero di righe (ovvero, il numero di valori) che sono state controllate
Statistiche di base
Le statistiche di base forniscono informazioni generali sulla distribuzione e la dispersione dei valori nella colonna selezionata. A seconda del formato dei dati di una colonna, le statistiche variano leggermente. Ad esempio, le statistiche per una colonna di tipo di dati intero hanno valori minimi, massimi e medi mentre le statistiche per una colonna di tipo di dati stringa hanno lunghezza minima, lunghezza massima e valori di lunghezza media.
Misura | Descrizione | Visualizzato per questo tipo di dati |
---|---|---|
Cardinalità | La percentuale di valori distinti univoci nella colonna inclusi spazi vuoti e valori null. Viene calcolato dividendo il numero totale di valori distinti in una colonna per il numero totale di valori in quella colonna. | Continuo |
Distinto | Il numero di valori differenti che esistono nei dati campionati per la colonna. | Continuo |
Entropia | Questo valore quantifica la quantità di informazioni contenute nella colonna. Più in generale, è possibile utilizzare l' entropia per quantificare le informazioni in un evento e in una variabile casuale. Tale importo viene stimato non soltanto in base al numero di valori differenti presenti nella variabile, ma anche in base alla quantità di valori non previsti. | Nominale |
Gini | Il grado di probabilità che un elemento specifico sia classificato in modo non corretto quando viene scelto in modo casuale e una variazione del coefficiente di Gini. L'indice Gini può variare da 0 a 1, dove 0 indica che tutti gli elementi appartengono a una determinata classe o che esiste una sola classe. Un indice di Gini di 1 indica che tutti gli elementi sono distribuiti casualmente tra varie classi. Il valore 0.5 indica che gli elementi sono distribuiti in modo uniforme in alcune classi | Nominale |
Massimo | Il valore più grande di una variabile numerica | Continuo |
Media | La media aritmetica, la somma divisa per il numero di valori | Continuo |
Mediana | Il valore al di sopra e al di sotto del quale rientra la metà dei valori. Se è presente un numero pari di valori, la mediana è la media dei due valori medi quando vengono ordinati. La mediana non è influenzata dai valori anomali | Continuo |
Minimo | Il valore più piccolo di una variabile numerica | Continuo |
Mancante | Il numero di righe nel campione che non hanno valore. | Nominale continuo |
Modalità | Il valore che ricorre più frequentemente nella colonna. Se si verificano diversi valori con frequenza uguale, ognuno di essi è una modalità. | Nominale continuo |
Valori anomali | Il numero di valori nei dati della colonna che sono lontani dalla maggior parte degli altri valori nella colonna. | Continuo |
Range | La differenza tra i valori massimo e minimo nella colonna. | Continuo |
Somma | La somma o il totale dei valori, in tutte le colonne con valori. | Continuo |
Univoco | Il numero di valori distinti visualizzati una sola volta nella colonna corrente. | Nominale continuo |
Valido | Il numero di valori considerati validi, il che significa che i valori di colonna vuoti o mancanti vengono esclusi. | Nominale continuo |
Insight avanzati
Informazioni approfondite sulla distribuzione e la dispersione dei valori nella colonna selezionata. Queste informazioni vengono visualizzate solo per i dati continui:
Misura | Descrizione |
---|---|
25° percentile | Il valore al di sotto del quale cade il 25% e al di sopra del quale cade il 75% dei valori rilevati. |
75° percentile | Il valore al di sopra del quale cade il 25% e al di sotto del quale cade il 75% dei valori rilevati. |
Curtosi | Misura della misura in cui vi sono valori anomali (adattabilità di una distribuzione). La curtosi in eccesso è la capacità di adattamento di una distribuzione rispetto a una distribuzione normale. Per la distribuzione normale, il valore della statistica di curtosi è zero. Una
curtosi positiva indica che i dati presentano più valori anomali estremi rispetto ad una distribuzione normale. La curtosi negativa indica che i dati presentano valori anomali meno estremi di una normale distribuzione. Le distribuzioni con curtosi media (code medie) sono mesokurtiche. Le distribuzioni con bassa curtosi (code sottili) sono platykurtic. |
Err. std. errore | Una misura della distanza della media del campione (media) dei dati dalla media della popolazione reale. |
Dev standard | Misura della dispersione intorno alla media. Con una deviazione standard bassa, i valori sono di solito vicini alla media. Con una deviazione standard elevata, l'intervallo di valori è più ampio. |
Asimmetria | Una misura dell'asimmetria di una distribuzione. Una distribuzione è asimmetrica quando i lati sinistro e destro non sono immagini speculari. Una distribuzione può avere asimmetria destra (o positiva), sinistra (o negativa) o zero (distribuzione simmetrica). |
Varianza | Misura della dispersione intorno alla media. È l'aspettativa della deviazione quadrata di una variabile casuale dalla media della popolazione o dalla media del campione. |
Classi dati
Le seguenti informazioni vengono mostrate per le assegnazioni delle classi di dati:
La classe dati selezionata, che è la classe dati assegnata alla colonna. È uguale alla classe di dati rilevata a meno che non sia stata modificata manualmente.
La classe di dati rilevata, che è la classe di dati più corrispondente per la colonna rilevata dall'analisi.
Il punteggio di confidenza della classe dati assegnata. La confidenza di una classe di dati è la percentuale di valori non null che corrispondono alla classe di dati. Diverse classi di dati sono identificatori più generici che vengono rilevati e assegnati a livello di colonna. Queste classi di dati vengono assegnate quando non è stato possibile identificare una classe di dati più specifica a un livello di valore. Gli identificatori generici avranno sempre una confidenza del 100% e comprendono le seguenti classi di dati: Codice, Identificatore, Indicatore, Quantità e Testo
Un elenco di tutte le classi di dati che sono state rilevate durante l'analisi in ordine decrescente, con la migliore corrispondenza (la massima confidenza) all'inizio. Per ogni classe di dati, vengono visualizzati il punteggio di confidenza e la priorità della classe di dati.
Per ogni classe di dati rilevata, potrebbero essere visualizzate ulteriori informazioni in base all'ambito della classe di dati.
Per le classi di dati in cui la corrispondenza viene effettuata in base ai dati delle colonne, vengono elencati i valori delle colonne che corrispondono ai criteri per questa specifica classe di dati. La colonna Conteggio (%) mostra quante righe nel campione contengono un valore specifico e la percentuale di righe con tale valore. Inoltre, viene mostrato il formato di ciascun valore corrispondente.
Per le classi di dati in cui la corrispondenza viene effettuata in base al nome della colonna e per le classi di dati generiche Codice, Identificatore, Indicatore, Quantità e Testo non vengono visualizzate informazioni aggiuntive. Queste classi di dati vengono utilizzate quando i valori dei dati non consentono di identificare una classe di dati specifica. Le classi di dati generiche hanno sempre una confidenza del 100%.
Per ulteriori informazioni, consultare Classi di dati.
Formati
Viene visualizzato il formato dedotto per la colonna, il numero di formati rilevati e un elenco di tutti i formati rilevati.
Un formato rappresenta il pattern di caratteri di un valore di dati. Ogni carattere alfabetico è rappresentato da una lettera A maiuscola o minuscola, a seconda della maiuscola del carattere. Ogni carattere numerico è rappresentato dal numero 9. Gli spazi e i caratteri speciali vengono visualizzati come appaiono.
L'elenco dei formati rilevati mostra quanti valori con un formato specifico sono stati trovati e la percentuale globale di valori con tale formato. Fare clic su una voce per visualizzare i valori che corrispondono al modello. Si noti che solo 100 valori vengono richiamati per la visualizzazione in modo che l'elenco di valori potrebbe non contenere tutti i valori o potrebbe essere vuoto.
Tipi
Vengono visualizzate le seguenti informazioni:
- Il tipo di dati della colonna come definito nell'origine dati
- Il tipo di dati dedotto tramite l'analisi
- La lunghezza minima di un valore in quella colonna
- La lunghezza massima di un valore in tale colonna
- La lunghezza media dei valori della colonna
- Un elenco di tutti i tipi di dati nella colonna
Il tipo di dati descrive se la colonna contiene dati di un determinato tipo, come ad esempio un numero intero, una stringa o un tipo di data.
In genere, il tipo di dati ottimale di una colonna è ovvio perché la maggior parte o tutti i valori della colonna sono dello stesso tipo di dati. Tuttavia, quando l'elenco contiene più tipi di dati differenti, controllare il conteggio della frequenza per i tipi di dati derivati. Se tale conteggio di frequenza è basso rispetto al conteggio di righe della tabella, i valori di dati non validi potrebbero causare la deduzione del tipo di dati non corretto.
Ulteriori informazioni
- Profili asset di dati
- Classi dati
- API IBM Knowledge Catalog : Filtrare le righe dalla distribuzione di frequenza
Argomento principale Revisione dei risultati dell'arricchimento dei metadati