0 / 0
Torna alla versione inglese della documentazione
Informazioni sul profilo a livello di colonna
Ultimo aggiornamento: 13 dic 2024
Informazioni sul profilo a livello di colonna

Ogni profilo contiene diversi livelli di informazioni.

Le informazioni sono raggruppate come segue:

Quando i risultati della profilazione avanzata vengono scritti in una tabella di output, i valori vengono memorizzati come stringhe, indipendentemente dal tipo di dati effettivo. In questo caso, l'ordine di ordinamento delle stringhe viene applicato quando si ordinano le classi, i formati o i tipi di dati.

Statistiche

La scheda Statistiche fornisce un riepilogo della struttura dei dati analizzati in una colonna e diversi tipi di visualizzazioni per tali informazioni strutturali. Le informazioni visualizzate esattamente dipendono dal fatto che la colonna contenga dati continui (quantitativi) o nominali (qualitativi).

Grafici

A seconda del tipo di dati in una colonna, è possibile scegliere tra diversi tipi di visualizzazioni:

  • Dati nominali:

    • Grafico a barre
    • Proporzione o grafico a torta
    • grafico di Pareto
  • Dati continui:

    • Grafico istogramma
    • Grafico a scatole
    • Grafico a tracciato quantile-quantile (Q-Q)

È disponibile un grafico di distribuzione per tutti i tipi di dati. La tabella di distribuzione di solito elenca almeno i valori (o gli intervalli) più frequenti nella colonna e i relativi conteggi. La tabella potrebbe mostrare altre informazioni come i formati, i tipi o le classi di dati. Per visualizzare le singole righe che contengono un determinato valore, fare clic su Mostra righe.

Le statistiche di distribuzione per i valori non numerici, come i valori stringa, mostrano solo i primi 100 valori distinti, indipendentemente dal numero di valori effettivamente memorizzati. Per accedere a tutti i valori della tabella di output, utilizzare le query standard del database o il comando .

Nei grafici a barre o istogrammi, è possibile selezionare una colonna di sovrapposizione per visualizzare il modo in cui i relativi valori vengono distribuiti all'interno di ciascun valore della colonna che si sta attualmente esaminando. Ad esempio, se si dispone di una colonna con prodotti da forno venduti e si seleziona una stagione di colonne di sovrapposizione, è possibile vedere come le vendite di un determinato prodotto da forno differiscono a seconda della stagione. Per la colonna di sovrapposizione, è possibile selezionare da tutte le colonne nell'asset di dati che contengono dati nominali.

Riepilogo

Il riquadro Riepilogo fornisce informazioni generali sui dati nella colonna selezionata:

  • Il tipo di dati della colonna come definito nell'origine dati
  • Il tipo di dati dedotto tramite l'analisi
  • Il numero di formati dati differenti in tale colonna
  • Il formato dedotto più frequente per quella colonna
  • La classe di dati assegnata
  • Il tipo di misurazione dei dati (nominal o continuous)
  • Il numero di righe (ovvero, il numero di valori) che sono state controllate

Statistiche di base

Le statistiche di base forniscono informazioni generali sulla distribuzione e la dispersione dei valori nella colonna selezionata. A seconda del formato dei dati di una colonna, le statistiche variano leggermente. Ad esempio, le statistiche per una colonna di tipo di dati intero hanno valori minimi, massimi e medi mentre le statistiche per una colonna di tipo di dati stringa hanno lunghezza minima, lunghezza massima e valori di lunghezza media.

Misura Descrizione Visualizzato per questo tipo di dati
Cardinalità La percentuale di valori distinti univoci nella colonna inclusi spazi vuoti e valori null. Viene calcolato dividendo il numero totale di valori distinti in una colonna per il numero totale di valori in quella colonna. Continuo
Distinto Il numero di valori differenti che esistono nei dati campionati per la colonna. Continuo
Entropia Questo valore quantifica la quantità di informazioni contenute nella colonna. Più in generale, è possibile utilizzare l' entropia per quantificare le informazioni in un evento e in una variabile casuale. Tale importo viene stimato non soltanto in base al numero di valori differenti presenti nella variabile, ma anche in base alla quantità di valori non previsti. Nominale
Gini Il grado di probabilità che un elemento specifico sia classificato in modo non corretto quando viene scelto in modo casuale e una variazione del coefficiente di Gini. L'indice Gini può variare da 0 a 1, dove 0 indica che tutti gli elementi appartengono a una determinata classe o che esiste una sola classe. Un indice di Gini di 1 indica che tutti gli elementi sono distribuiti casualmente tra varie classi. Il valore 0.5 indica che gli elementi sono distribuiti in modo uniforme in alcune classi Nominale
Massimo Il valore più grande di una variabile numerica Continuo
Media La media aritmetica, la somma divisa per il numero di valori Continuo
Mediana Il valore al di sopra e al di sotto del quale rientra la metà dei valori. Se è presente un numero pari di valori, la mediana è la media dei due valori medi quando vengono ordinati. La mediana non è influenzata dai valori anomali Continuo
Minimo Il valore più piccolo di una variabile numerica Continuo
Mancante Il numero di righe nel campione che non hanno valore. Nominale
continuo
Modalità Il valore che ricorre più frequentemente nella colonna. Se si verificano diversi valori con frequenza uguale, ognuno di essi è una modalità. Nominale
continuo
Valori anomali Il numero di valori nei dati della colonna che sono lontani dalla maggior parte degli altri valori nella colonna. Continuo
Range La differenza tra i valori massimo e minimo nella colonna. Continuo
Somma La somma o il totale dei valori, in tutte le colonne con valori. Continuo
Univoco Il numero di valori distinti visualizzati una sola volta nella colonna corrente. Nominale
continuo
Valido Il numero di valori considerati validi, il che significa che i valori di colonna vuoti o mancanti vengono esclusi. Nominale
continuo

Insight avanzati

Informazioni approfondite sulla distribuzione e la dispersione dei valori nella colonna selezionata. Queste informazioni vengono visualizzate solo per i dati continui:

Misura Descrizione
25° percentile Il valore al di sotto del quale cade il 25% e al di sopra del quale cade il 75% dei valori rilevati.
75° percentile Il valore al di sopra del quale cade il 25% e al di sotto del quale cade il 75% dei valori rilevati.
Curtosi Misura della misura in cui vi sono valori anomali (adattabilità di una distribuzione). La curtosi in eccesso è la capacità di adattamento di una distribuzione rispetto a una distribuzione normale. Per la distribuzione normale, il valore della statistica di curtosi è zero. Una curtosi positiva indica che i dati presentano più valori anomali estremi rispetto ad una distribuzione normale. La curtosi negativa indica che i dati presentano valori anomali meno estremi di una normale distribuzione.

Le distribuzioni con curtosi media (code medie) sono mesokurtiche. Le distribuzioni con bassa curtosi (code sottili) sono platykurtic.
Err. std. errore Una misura della distanza della media del campione (media) dei dati dalla media della popolazione reale.
Dev standard Misura della dispersione intorno alla media. Con una deviazione standard bassa, i valori sono di solito vicini alla media. Con una deviazione standard elevata, l'intervallo di valori è più ampio.
Asimmetria Una misura dell'asimmetria di una distribuzione. Una distribuzione è asimmetrica quando i lati sinistro e destro non sono immagini speculari. Una distribuzione può avere asimmetria destra (o positiva), sinistra (o negativa) o zero (distribuzione simmetrica).
Varianza Misura della dispersione intorno alla media. È l'aspettativa della deviazione quadrata di una variabile casuale dalla media della popolazione o dalla media del campione.

Classi dati

Le seguenti informazioni vengono mostrate per le assegnazioni delle classi di dati:

  • La classe dati selezionata, che è la classe dati assegnata alla colonna. È uguale alla classe di dati rilevata a meno che non sia stata modificata manualmente.

  • La classe di dati rilevata, che è la classe di dati più corrispondente per la colonna rilevata dall'analisi.

  • Il punteggio di confidenza della classe dati assegnata. La confidenza di una classe di dati è la percentuale di valori non null che corrispondono alla classe di dati. Diverse classi di dati sono identificatori più generici che vengono rilevati e assegnati a livello di colonna. Queste classi di dati vengono assegnate quando non è stato possibile identificare una classe di dati più specifica a un livello di valore. Gli identificatori generici avranno sempre una confidenza del 100% e comprendono le seguenti classi di dati: Codice, Identificatore, Indicatore, Quantità e Testo

  • Un elenco di tutte le classi di dati che sono state rilevate durante l'analisi in ordine decrescente, con la migliore corrispondenza (la massima confidenza) all'inizio. Per ogni classe di dati, vengono visualizzati il punteggio di confidenza e la priorità della classe di dati.

  • Per ogni classe di dati rilevata, potrebbero essere visualizzate ulteriori informazioni in base all'ambito della classe di dati.

    Per le classi di dati in cui la corrispondenza viene effettuata in base ai dati delle colonne, vengono elencati i valori delle colonne che corrispondono ai criteri per questa specifica classe di dati. La colonna Conteggio (%) mostra quante righe nel campione contengono un valore specifico e la percentuale di righe con tale valore. Inoltre, viene mostrato il formato di ciascun valore corrispondente.

    Per le classi di dati in cui la corrispondenza viene effettuata in base al nome della colonna e per le classi di dati generiche Codice, Identificatore, Indicatore, Quantità e Testo non vengono visualizzate informazioni aggiuntive. Queste classi di dati vengono utilizzate quando i valori dei dati non consentono di identificare una classe di dati specifica. Le classi di dati generiche hanno sempre una confidenza del 100%.

Per ulteriori informazioni, consultare Classi di dati.

Formati

Viene visualizzato il formato dedotto per la colonna, il numero di formati rilevati e un elenco di tutti i formati rilevati.

Un formato rappresenta il pattern di caratteri di un valore di dati. Ogni carattere alfabetico è rappresentato da una lettera A maiuscola o minuscola, a seconda della maiuscola del carattere. Ogni carattere numerico è rappresentato dal numero 9. Gli spazi e i caratteri speciali vengono visualizzati come appaiono.

L'elenco dei formati rilevati mostra quanti valori con un formato specifico sono stati trovati e la percentuale globale di valori con tale formato. Fare clic su una voce per visualizzare i valori che corrispondono al modello. Si noti che solo 100 valori vengono richiamati per la visualizzazione in modo che l'elenco di valori potrebbe non contenere tutti i valori o potrebbe essere vuoto.

Tipi

Vengono visualizzate le seguenti informazioni:

  • Il tipo di dati della colonna come definito nell'origine dati
  • Il tipo di dati dedotto tramite l'analisi
  • La lunghezza minima di un valore in quella colonna
  • La lunghezza massima di un valore in tale colonna
  • La lunghezza media dei valori della colonna
  • Un elenco di tutti i tipi di dati nella colonna

Il tipo di dati descrive se la colonna contiene dati di un determinato tipo, come ad esempio un numero intero, una stringa o un tipo di data.

In genere, il tipo di dati ottimale di una colonna è ovvio perché la maggior parte o tutti i valori della colonna sono dello stesso tipo di dati. Tuttavia, quando l'elenco contiene più tipi di dati differenti, controllare il conteggio della frequenza per i tipi di dati derivati. Se tale conteggio di frequenza è basso rispetto al conteggio di righe della tabella, i valori di dati non validi potrebbero causare la deduzione del tipo di dati non corretto.

Ulteriori informazioni

Argomento principale Revisione dei risultati dell'arricchimento dei metadati

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni