0 / 0
Torna alla versione inglese della documentazione
Profili degli asset di dati

Profili degli asset di dati

Un profilo asset include statistiche e metadati generati sul contenuto dell'asset e consente di comprendere quali azioni intraprendere per migliorare la qualità dei dati. È possibile visualizzare il profilo sulla pagina Profilo di un asset.

È possibile creare profili per gli asset di dati che contengono dati relazionali o strutturati.

Requisiti e restrizioni

È possibile visualizzare il profilo degli asset nelle seguenti circostanze.

Servizio richiesto

La creazione profili richiede il servizio IBM Knowledge Catalog .

Autorizzazioni richieste

I ruoli determinano come è possibile interagire con i profili:

  • Per visualizzare questa pagina, è possibile disporre di qualsiasi ruolo in un progetto o in un catalogo.
  • Per creare o aggiornare un profilo o per eseguire l'arricchimento dei metadati in un progetto, devi avere il ruolo Admin o Editor nel progetto.
  • Per creare o aggiornare un profilo in un catalogo, è necessario disporre del ruolo Admin nel catalogo oppure è necessario disporre del ruolo di Editor e deve essere un proprietario dell'asset o un membro dell'asset.

Spazi di lavoro

È possibile visualizzare il profilo asset in questi spazi di lavoro:

  • Progetti
  • Cataloghi

Tipi di asset

Questi tipi di asset hanno un profilo:

  • Asset di dati da database relazionali o non relazionali da una connessione alle origini dati, tranne Cloudant

  • Asset di dati da dataset partizionati, in cui un dataset partizionato è costituito da più file ed è rappresentato da una singola cartella caricata dal file system locale o da connessioni basate su file alle origini dati

  • Asset di dati da file caricati dal filesystem locale o da connessioni basate su file alle origini dati, con i seguenti formati:

    • CSV
    • XLS, XLSM, XLSX (viene creato il profilo solo del primo foglio di una cartella di lavoro.)
    • TSV
    • Avro
    • Parquet

    Tuttavia, i file di dati strutturati non vengono profilati quando gli asset di dati non fanno esplicitamente riferimento ad essi, come in queste circostanze:

    • I file si trovano all'interno di una risorsa cartella connessa. I file a cui è possibile accedere da un asset della cartella connessa non vengono considerati come asset e non vengono creati profili.
    • I file si trovano all'interno di un file di archivio, ad esempio un file .zip. L'asset di dati fa riferimento al file di archivio e non viene creato il profilo dei file compressi.

Restrizioni

Per gli asset della vista Data Virtualization e watsonx.data , a tutti gli utenti viene negato l'accesso ai risultati della creazione profili per evitare l'esposizione accidentale delle distribuzioni di valore.

Modi per creare un profilo

I profili asset possono essere creati in diversi modi:

  • Nei cataloghi gestiti, i profili per i singoli asset di dati vengono creati automaticamente quando gli asset di dati vengono aggiunti al catalogo con le seguenti eccezioni:

    • È stata disabilitata la creazione automatica dei profili per il catalogo.
    • L'asset proviene da una connessione configurata per utilizzare le credenziali personali.
    • Il profilo dell'asset è stato creato tramite l'arricchimento dei metadati prima della pubblicazione. Tali asset dispongono già di un profilo aggiunto al catalogo insieme all'asset.
  • Nei progetti e nei cataloghi senza applicazione delle regole di protezione dei dati, è possibile creare manualmente profili per singoli asset di dati. È anche possibile creare un profilo manualmente in un catalogo gestito se l'asset non è stato precedentemente creato.

  • Nei progetti, puoi creare ed eseguire un asset di arricchimento dei metadati per creare il profilo di grandi serie di asset di dati in una sola volta. Questi profili asset sono disponibili nel progetto. È possibile pubblicare gli asset arricchiti con i loro profili in qualsiasi tipo di catalogo. Vedi Gestione dell'arricchimento dei metadati.

All'interno di un account, i risultati di creazione profili vengono copiati con l'asset di dati quando si pubblica un asset da un progetto a un catalogo o lo si aggiunge da un catalogo a un progetto. Tuttavia, se il catalogo e il progetto appartengono a account diversi, i profili non vengono copiati perché la serie di classi di dati disponibili potrebbe essere diversa.

È possibile aggiornare un singolo profilo asset dalla pagina Profilo dell'asset in un progetto o in un catalogo. Se si aggiorna manualmente un profilo di un asset di dati incluso in un arricchimento dei metadati, le informazioni sul profilo e sull'analisi si riflettono anche nei rispettivi risultati dell'arricchimento. I profili vengono aggiornati anche quando vengono pubblicati nuovi risultati di arricchimento.

Quando si aggiorna un profilo esistente, è possibile modificare le classi dati da includere nel profilo. Se si esclude una classe di dati precedentemente assegnata a una colonna, il profilo aggiornato mostra Classe esclusa (dal profilo) per la rispettiva colonna a meno che non sia stata assegnata una classe di dati diversa. Si vedrà anche Classe esclusa (dal profilo) per tutte le colonne in cui non si ha accesso alla classe di dati assegnata.

Cosa viene analizzato durante la profilazione?

Se si crea o si aggiorna un profilo di asset dalla pagina Profilo in un progetto o in un catalogo, le colonne vengono analizzate.

Quando viene creato il profilo di un singolo asset in un progetto o in un catalogo, il profilo viene creato per impostazione predefinita in base alle prime 5.000 righe di dati. Se l'asset di dati ha più di 250 colonne, il profilo viene creato in base alle prime 1000 righe di dati. Se il profilo viene creato tramite l'arricchimento dei metadati, il campionamento viene determinato dalle impostazioni di arricchimento dei metadati.

Per identificare la struttura e il contenuto dei propri dati e classificarli, l'analisi include le seguenti attività:

  • Calcola le statistiche sui dati di ciascuna colonna analizzata.
  • Calcolare i tipi di dati per la distribuzione di colonne e tipi di dati.
  • Calcola i formati dei dati per la distribuzione di colonne e formati.
  • Classificare i dati e calcolare i candidati della classe dati per le colonne.
  • Cattura distribuzioni di frequenze.

Informazioni sul profilo

Il profilo di un asset di dati mostra le informazioni su ciascuna colonna nell'asset di dati.

La scheda Profilo fornisce alcune informazioni generali e una panoramica dei risultati dell'analisi:

  • Quando è stato creato o aggiornato l'ultima volta il profilo.

  • Quante colonne e righe sono state analizzate.

  • La classe di dati derivata per ciascuna colonna e la confidenza per tale classe di dati. Le classi di dati descrivono il contenuto dei dati nella colonna: ad esempio, la città, il numero di conto o il numero della carta di credito. Le classi di dati possono essere utilizzate per mascherare i dati o per limitare l'accesso agli asset di dati con le regole di protezione dei dati. Le classi dati vengono visualizzate per ciascuna colonna nella pagina Panoramica dell'asset e nella pagina Profilo .

    La confidenza di una classe di dati è la percentuale di valori non null che corrispondono alla classe di dati.

    Diverse classi di dati sono identificatori più generici che vengono rilevati e assegnati a livello di colonna. Queste classi di dati vengono assegnate quando non è stato possibile identificare una classe di dati più specifica a un livello di valore. Gli identificativi generici hanno sempre una confidenza del 100% e includono le seguenti classi di dati: codice, data, identificativo, indicatore, quantità e testo.

  • La percentuale di dati corrispondenti, non corrispondenti o mancanti per ogni colonna.

  • La distribuzione di frequenza per tutti i valori identificati in una colonna.

  • Le statistiche relative ai dati per ogni colonna, ad esempio il numero di valori distinti, la percentuale di valori univoci, il minimo, il massimo o la media e, a volte, la deviazione standard in quella colonna. Il numero di valori distinti indica quanti valori differenti esistono nei dati campionati per la colonna. La percentuale di valori univoci indica la percentuale di valori distinti che appaiono solo una volta nella colonna.

    A seconda del formato dei dati di una colonna, le statistiche variano leggermente. Ad esempio, le statistiche per una colonna di tipo di dati intero hanno valori minimi, massimi e medi e un valore di deviazione standard mentre le statistiche per una colonna di tipo di dati stringa hanno valori di lunghezza minima, lunghezza massima e lunghezza media.

Quando si fa clic sul nome della colonna, sono disponibili informazioni più dettagliate sui dati della colonna. Vedere Risultati dettagliati della creazione profili.

L'ultimo profilo asset viene conservato e visualizzato mentre l'asset di dati esiste nel catalogo o nel progetto anche se i dati originali nell'origine dati sono temporaneamente o permanentemente non disponibili. Per rimuovere le informazioni sul profilo, sono disponibili le seguenti opzioni:

  • È possibile eliminare manualmente il profilo nella pagina Profilo . Questa opzione non è disponibile se l'asset è soggetto a regole di protezione dei dati.
  • È possibile eliminare manualmente l'asset di dati dal progetto o dal catalogo.
  • Se l'asset è stato aggiunto tramite l'importazione dei metadati, è possibile rieseguire l'importazione dei metadati con la serie di opzioni Elimina alla reimportazione appropriata.

Ulteriori informazioni

Argomento principale: Tipi di asset e proprietà

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni