Profili degli asset di dati
Un profilo asset include le informazioni generate e le statistiche sul contenuto dell'asset. È possibile visualizzare il profilo sulla pagina Profilo di un asset.
Requisiti e restrizioni
È possibile visualizzare il profilo degli asset nelle seguenti circostanze.
Autorizzazioni richieste
Per visualizzare la pagina Profilo di un asset di dati, è possibile disporre di qualsiasi ruolo in un progetto.
Per creare o aggiornare un profilo, è necessario disporre del ruolo Admin o Editor nel progetto.
Spazi di lavoro
È possibile visualizzare il profilo asset nei progetti.
Tipi di asset
Questi tipi di asset hanno un profilo:
Asset di dati da database relazionali o non relazionali da una connessione alle origini dati, tranne Cloudant
Asset di dati da dataset partizionati, in cui un dataset partizionato è costituito da più file ed è rappresentato da una singola cartella caricata dal file system locale o da connessioni basate su file alle origini dati
Asset di dati da file caricati dal filesystem locale o da connessioni basate su file alle origini dati, con i seguenti formati:
- CSV
- XLS, XLSM, XLSX (viene creato il profilo solo del primo foglio di una cartella di lavoro.)
- TSV
- Avro
- Parquet
Tuttavia, i file di dati strutturati non vengono profilati quando gli asset di dati non fanno esplicitamente riferimento ad essi, come in queste circostanze:
- I file si trovano all'interno di una risorsa cartella connessa. I file a cui è possibile accedere da un asset della cartella connessa non vengono considerati come asset e non vengono creati profili.
- I file si trovano all'interno di un file di archivio. L'asset di dati fa riferimento al file di archivio e non viene creato il profilo dei file compressi.
Creazione di un profilo
Nei progetti, è possibile creare un profilo per un asset di dati facendo clic su Crea profilo. È possibile aggiornare un profilo esistente quando i dati cambiano.
Risultati di creazione profili
Quando si crea o si aggiorna un profilo asset, vengono analizzate le colonne nell'asset di dati. Per impostazione predefinita, il profilo viene creato in base alle prime 5.000 righe di dati. Se l'asset di dati ha più di 250 colonne, il profilo viene creato in base alle prime 1000 righe di dati.
Il profilo di un asset di dati mostra le informazioni su ciascuna colonna nel dataset:
- Quando è stato creato o aggiornato l'ultima volta il profilo.
- Quante colonne e righe sono state analizzate.
- I tipi di dati per la distribuzione di colonne e tipi di dati.
- I formati dati per la distribuzione di colonne e formati.
- La percentuale di dati corrispondenti, non corrispondenti o mancanti per ogni colonna.
- La distribuzione di frequenza per tutti i valori identificati in una colonna.
- Statistiche sui dati per ogni colonna:
- Il numero di valori distinti indica quanti valori differenti esistono nei dati campionati per la colonna.
- La percentuale di valori univoci indica la percentuale di valori distinti che appaiono solo una volta nella colonna.
- Il minimo, il massimo o la media e, a volte, la deviazione standard in quella colonna. A seconda del formato dei dati di una colonna, le statistiche variano leggermente. Ad esempio, le statistiche per una colonna di tipo di dati intero hanno valori minimi, massimi e medi e un valore di deviazione standard mentre le statistiche per una colonna di tipo di dati stringa hanno valori di lunghezza minima, lunghezza massima e lunghezza media.
Argomento principale: Tipi di asset e proprietà