Tabelle di distribuzione delle frequenze
Quando si esegue la creazione profili avanzata su un asset di dati, viene determinata una distribuzione di frequenza dettagliata per i valori distinti in ogni colonna dell'asset in base ai dati di origine.
Quando si configurano le impostazioni per un'esecuzione di creazione profili avanzata, è possibile scegliere di scrivere tutte o parte delle informazioni di distribuzione della frequenza in una tabella di database. Vedere Advanced data profiling. È possibile accedere a questa tabella utilizzando le query standard del database o l'API di IBM Knowledge Catalog o attraverso il profilo dettagliato delle colonne. Tuttavia, il profilo della colonna mostrerà solo i primi 100 valori distinti, indipendentemente dal numero di valori effettivamente memorizzati.
Quando si configurano le impostazioni per un'esecuzione di creazione profili avanzata, è possibile scegliere di scrivere tutte o parte delle informazioni di distribuzione della frequenza in una tabella di database. Vedere Advanced data profiling. È possibile accedere a questa tabella attraverso il profilo dettagliato della colonna.
Tuttavia, nel profilo della colonna, le statistiche di distribuzione per i valori non numerici, come i valori stringa, mostreranno solo i primi 100 valori distinti, indipendentemente dal numero di valori effettivamente memorizzati. Per accedere a tutti i valori della tabella di output, utilizzare le query standard del database o l'API IBM Knowledge Catalog.
Per ciascun valore distinto, la tabella contiene le seguenti informazioni:
Nome colonna | Descrizione |
---|---|
AssetId | L'ID dell'asset di dati nel progetto. |
ChangeDate | La data in cui le informazioni sono state aggiornate. |
ColumnName | Il nome della colonna nell'asset di dati. |
DataClassification | Un elenco di ID delle classi di dati assegnate alla colonna nell'asset di dati separati da virgole (,). Se alla colonna non è assegnata alcuna classe di dati, la tabella mostra . |
DistinctValue | Il valore dei dati effettivi nella colonna. La lunghezza massima in byte è di 4096 o 2.048 caratteri per Unicode. Tutti i valori sono memorizzati come stringhe, indipendentemente dal tipo di dati effettivo. Pertanto, l'ordine delle stringhe viene applicato quando si ordinano i valori nel profilo dettagliato della colonna. |
FrequencyCount | La frequenza con cui si verifica questo valore. |
GeneralFormat | Il formato che rappresenta il modello di caratteri di un valore dati. Ogni carattere alfabetico è rappresentato da una lettera A maiuscola o minuscola, in base alla maiuscola del carattere. Ogni carattere numerico è rappresentato dal numero 9. Gli spazi e i caratteri speciali vengono mostrati come appaiono. |
InferredDataType | Il tipo di dati dedotto, ad esempio numero intero, stringa o data. |
ProjectId | L'ID del progetto in cui è stata eseguita l'analisi. |
PropertyLength | La lunghezza di un campo stringa. |
PropertyPrecision | La lunghezza totale di un campo numerico. |
PropertyScale | La scala di un valore numerico è la lunghezza totale del componente decimale di un campo numerico. |
Queste colonne aggiuntive sono riservate per uso interno e sono soggette a modifiche senza preavviso:
- Classe
- ChangedByUser
- DataClassificationStatusFlag
- DomainPattern
- DomainValueFlag
- DomainValueFlagDate
- DomainValueFlaggedByUser
- FieldNumber
- FormatFlag
- FormatFlagDate
- FormatFlaggedByUser
- InvalidReasonCode
- Tipo ODBC
- SourceOfDistinctValue
- TypeCode
- TypeOfDomainValue
Ulteriori informazioni
- Creazione profili di dati avanzata
- Informazioni sul profilo a livello di colonna
- API IBM Knowledge Catalog : Filtrare le righe dalla distribuzione di frequenza
Argomento principale Revisione dei risultati di arricchimento dei metadati