0 / 0
Torna alla versione inglese della documentazione
Profili degli asset di dati

Profili degli asset di dati

Un profilo asset include statistiche e metadati generati sul contenuto dell'asset e consente di comprendere quali azioni intraprendere per migliorare la qualità dei dati. È possibile visualizzare il profilo sulla pagina Profilo di un asset.

È possibile creare profili per gli asset di dati che contengono dati relazionali o strutturati.

Requisiti e restrizioni

È possibile visualizzare il profilo degli asset nelle seguenti circostanze.

Servizio richiesto
Servizio Watson Knowledge Catalog .
Autorizzazioni richieste
Per visualizzare questa pagina, è possibile disporre di qualsiasi ruolo in un progetto o in un catalogo.
Per creare o aggiornare un profilo o eseguire l'arricchimento dei metadati, devi disporre del ruolo Admin o Editor nel progetto o nel catalogo.
Aree di lavoro
È possibile visualizzare il profilo asset in questi spazi di lavoro:
  • Progetti
  • Cataloghi
Tipi di asset
Questi tipi di asset hanno un profilo:
  • Asset di dati da database relazionali o non relazionali da una connessione alle origini dati, tranne Cloudant

  • Asset di dati da dataset partizionati, in cui un dataset partizionato è costituito da più file ed è rappresentato da una singola cartella caricata dal file system locale o da connessioni basate su file alle origini dati

  • Asset di dati da file caricati dal filesystem locale o da connessioni basate su file alle origini dati, con i seguenti formati:

    • CSV
    • XLS, XLSM, XLSX (viene creato il profilo solo del primo foglio di una cartella di lavoro.)
    • TSV
    • Avro
    • Parquet

    Tuttavia, i file di dati strutturati non vengono profilati quando gli asset di dati non fanno esplicitamente riferimento ad essi, come in queste circostanze:

    • I file si trovano all'interno di una risorsa cartella connessa. I file a cui è possibile accedere da un asset della cartella connessa non vengono considerati come asset e non vengono creati profili.
    • I file si trovano all'interno di un file di archivio. L'asset di dati fa riferimento al file di archivio e non viene creato il profilo dei file compressi.
  • Asset di dati che contengono documenti con dati non strutturati. È possibile creare profili di documenti con una dimensione massima di 100 MB. Per i documenti più grandi non viene creato il profilo. È possibile creare profili di questi tipi di documenti:

    • Documenti Microsoft Word con i seguenti tipi mime:
      • applicazione / msword
      • application/vnd.openxmlformats-officedocument.wordprocessingml.document
    • Documenti PDF con l'applicazione di tipo mime / pdf
    • Documenti di testo semplice con il tipo mime text/plain
    • Documenti HTML con tipo mime text/html

Modi per creare un profilo

I profili degli asset di dati con dati relazionali e strutturati e i profili degli asset di dati con dati strutturati vengono creati in maniera diversa.

Dati relazionali e strutturati

I profili per gli asset di dati che contengono dati strutturati o relazionali possono essere creati in diversi modi:

  • Nei cataloghi gestiti, i profili per i singoli asset di dati vengono creati automaticamente quando gli asset di dati vengono aggiunti al catalogo con le seguenti eccezioni:

    • È stata disabilitata la creazione automatica dei profili per il catalogo.
    • L'asset proviene da una connessione configurata per utilizzare le credenziali personali.
    • Il profilo dell'asset è stato creato tramite l'arricchimento dei metadati prima della pubblicazione. Tali asset dispongono già di un profilo aggiunto al catalogo insieme all'asset.
  • Nei progetti e nei cataloghi senza applicazione delle regole di protezione dei dati, è possibile creare manualmente profili per singoli asset di dati. È anche possibile creare un profilo manualmente in un catalogo gestito se l'asset non è stato precedentemente creato.

  • Nei progetti, puoi creare ed eseguire un asset di arricchimento dei metadati per creare il profilo di grandi serie di asset di dati in una sola volta. Questi profili asset sono disponibili nel progetto. È possibile pubblicare gli asset arricchiti con i loro profili in qualsiasi tipo di catalogo. Vedi Gestione dell'arricchimento dei metadati.

All'interno di un account, i risultati di creazione profili vengono copiati con l'asset di dati quando si pubblica un asset da un progetto a un catalogo o lo si aggiunge da un catalogo a un progetto. Tuttavia, se il catalogo e il progetto appartengono a account diversi, i profili non vengono copiati perché la serie di classi di dati disponibili potrebbe essere diversa.

È possibile aggiornare un singolo profilo asset dalla pagina Profilo dell'asset in un progetto o in un catalogo. Se si aggiorna manualmente un profilo di un asset di dati incluso in un arricchimento dei metadati, le informazioni sul profilo e sull'analisi si riflettono anche nei rispettivi risultati dell'arricchimento. I profili vengono aggiornati anche quando vengono pubblicati nuovi risultati di arricchimento.

Quando si aggiorna un profilo esistente, è possibile modificare le classi dati da includere nel profilo. Se si esclude una classe di dati precedentemente assegnata a una colonna, il profilo aggiornato mostra Classe esclusa (dal profilo) per la rispettiva colonna a meno che non sia stata assegnata una classe di dati diversa. Si vedrà anche Classe esclusa (dal profilo) per tutte le colonne in cui non si ha accesso alla classe di dati assegnata.

Dati non strutturati

I profili per gli asset di dati non strutturati vengono sempre creati automaticamente. Tuttavia, gli asset di dati devono essere caricati direttamente nel progetto o nel catalogo. Non viene creato il profilo dei documenti non strutturati aggiunti come asset connessi.

Cosa viene analizzato durante la profilazione?

L'analisi degli asset di dati con dati relazionali e strutturati e i profili degli asset di dati con dati non strutturati vengono eseguiti in modo diverso.

Dati relazionali e strutturati

Se si crea o si aggiorna un profilo per un asset di dati con dati strutturati o relazionali dalla pagina Profilo in un progetto o in un catalogo, vengono analizzate le colonne e la qualità dei dati.

Quando viene creato il profilo di un singolo asset in un progetto o in un catalogo, il profilo viene creato per impostazione predefinita in base alle prime 5.000 righe di dati. Se l'asset di dati ha più di 250 colonne, il profilo viene creato in base alle prime 1000 righe di dati. Se il profilo viene creato tramite l'arricchimento dei metadati, il campionamento viene determinato dalle impostazioni di arricchimento dei metadati.

Per identificare la struttura e il contenuto dei propri dati e classificarli, l'analisi include le seguenti attività:

  • Calcola le statistiche sui dati di ciascuna colonna analizzata.
  • Calcolare i tipi di dati per la distribuzione di colonne e tipi di dati.
  • Calcola i formati dei dati per la distribuzione di colonne e formati.
  • Classificare i dati e calcolare i candidati della classe dati per le colonne.
  • Cattura distribuzioni di frequenze.

Per individuare incongruenze e anomalie e valutare la qualità complessiva dei dati, l'analisi include le seguenti attività:

Se si esegue l'arricchimento dei metadati sugli asset di dati, l'opzione di arricchimento Dati profilo non include l'analisi della qualità dei dati. Vedi le informazioni su obiettivi di arricchimento dei metadati.

Dati non strutturati

Per la creazione del profilo degli asset di dati non strutturati, il testo semplice viene estratto dal documento e vengono analizzati i primi 5 MB del testo estratto. Durante la creazione del profilo, vengono applicati diversi modelli al contenuto del documento estratto per identificare determinati tipi di informazioni. Per rilevare tali informazioni, vengono considerati la struttura delle informazioni, il contesto vicino, l'intero contenuto estratto e la lingua in cui è scritto il documento. I risultati vengono quindi associati a classi di dati predefinite. Ad esempio, se vengono rilevati numeri di conto bancario, la classe di dati IBAN viene assegnata al documento. Oppure, se il documento contiene nomi di città, viene assegnata la classe di dati città.

Tuttavia, tieni sempre presente che qualsiasi logica di rilevamento applicata ai dati non strutturati non può essere ritenuta accurata al 100%, il che potrebbe causare classificazioni errate.

Le classi di dati assegnate non possono essere utilizzate per bloccare l'accesso o mascherare i dati negli asset di dati non strutturati con le politiche.

Informazioni sul profilo

Il contenuto del profilo dipende dal fatto che l'asset di dati contenga dati relazionali o strutturati o dati non strutturati.

Dati relazionali e strutturati

Il profilo di un asset di dati che contiene dati relazionali o strutturati mostra le informazioni su ciascuna colonna nel dataset.

La scheda Profilo fornisce alcune informazioni generali e una panoramica dei risultati dell'analisi:

  • Quando è stato creato o aggiornato l'ultima volta il profilo.

  • Quante colonne e righe sono state analizzate.

  • Il punteggio di qualità generale per l'asset di dati e un punteggio qualità separato per ciascuna colonna. I Punteggi di qualità dei dati per singole colonne nell'asset di dati vengono calcolati in base alle dimensioni di qualità. Il punteggio di qualità generale per l'intera risorsa dati è la media dei punteggi per tutte le colonne. Un trattino (-) viene mostrato nei profili generati tramite l'arricchimento dei metadati senza l'analisi della qualità dei dati.

    Per evitare che i record con più problemi di qualità pesino inutilmente il punteggio di qualità dei dati, i valori identificati con più di un problema non pesano in modo diverso rispetto al punteggio di qualità come valori con uno solo.

  • La classe di dati derivata per ciascuna colonna e la confidenza per tale classe di dati. Le classi di dati descrivono il contenuto dei dati nella colonna: ad esempio, la città, il numero di conto o il numero della carta di credito. Le classi di dati possono essere utilizzate per mascherare i dati o per limitare l'accesso agli asset di dati con le regole di protezione dei dati. Le classi dati vengono visualizzate per ciascuna colonna nella pagina Panoramica dell'asset e nella pagina Profilo .

    La confidenza di una classe di dati è la percentuale di valori non null che corrispondono alla classe di dati.

    Diverse classi di dati sono identificatori più generici che vengono rilevati e assegnati a livello di colonna. Queste classi di dati vengono assegnate quando non è stato possibile identificare una classe di dati più specifica a un livello di valore. Gli identificativi generici hanno sempre una confidenza del 100% e includono le seguenti classi di dati: codice, data, identificativo, indicatore, quantità e testo.

  • La percentuale di dati corrispondenti, non corrispondenti o mancanti per ogni colonna.

  • La distribuzione di frequenza per tutti i valori identificati in una colonna.

  • Le statistiche relative ai dati per ogni colonna, ad esempio il numero di valori distinti, la percentuale di valori univoci, il minimo, il massimo o la media e, a volte, la deviazione standard in quella colonna. Il numero di valori distinti indica quanti valori differenti esistono nei dati campionati per la colonna. La percentuale di valori univoci indica la percentuale di valori distinti che appaiono solo una volta nella colonna.

    A seconda del formato dei dati di una colonna, le statistiche variano leggermente. Ad esempio, le statistiche per una colonna di tipo di dati intero hanno valori minimi, massimi e medi e un valore di deviazione standard mentre le statistiche per una colonna di tipo di dati stringa hanno valori di lunghezza minima, lunghezza massima e lunghezza media.

Quando si fa clic sul nome della colonna, sono disponibili informazioni più dettagliate sui dati della colonna. Vedere Risultati dettagliati della creazione profili.

Dati non strutturati

Il profilo di un asset di dati che contiene un documento con dati non strutturati mostra le informazioni che consentono una valutazione di alto livello del contenuto del documento per il rischio: classi di dati assegnate, statistiche di valore e metadati come lingua, dimensione file o conteggio parole.

Ulteriori informazioni

Argomento principale: Tipi di asset e proprietà

WatsonX Search