0 / 0
Torna alla versione inglese della documentazione
Profili degli asset
Profili degli asset

Profili degli asset

Il profilo di un asset di dati include metadati generati e statistiche sul contenuto. È possibile visualizzare il profilo nella pagina Profilo dell'asset in un catalogo o in un progetto. Tutti i membri del catalogo o del progetto possono visualizzare i profili degli asset di dati.

Devi disporre di Watson Knowledge Catalog per visualizzare un profilo quando visualizzi un asset di dati.

Il contenuto del profilo dipende dal tipo di dati:

All'interno di un account, i risultati di creazione profili vengono copiati insieme all'asset di dati quando si pubblica un asset da un progetto a un catalogo o lo si aggiunge da un catalogo a un progetto. Tuttavia, se il catalogo e il progetto appartengono a conti differenti, i profili degli asset di dati strutturati non vengono copiati perché la serie di classi di dati disponibili potrebbe essere diversa. Se si pubblica un asset di dati strutturati in un catalogo gestito, viene creato automaticamente un nuovo profilo. Se si pubblica un asset di dati strutturati in un catalogo non governato, è necessario creare manualmente un nuovo profilo.

Dati relazionali e strutturati

Il profilo di un asset di dati che contiene dati relazionali o strutturati mostra le informazioni su ciascuna colonna nel dataset. Quando viene creato il profilo di un singolo asset in un progetto o in un catalogo, il profilo viene creato per impostazione predefinita in base alle prime 5.000 righe di dati. Se l'asset di dati ha più di 250 colonne, il profilo viene creato in base alle prime 1000 righe di dati. Se il profilo viene creato tramite l'arricchimento dei metadati, il campionamento viene determinato dalle impostazioni di arricchimento dei metadati. Durante la creazione profili, vengono analizzate le colonne e la qualità dei dati.

Il profilo mostra le seguenti informazioni:

  • Il punteggio di qualità generale per l'asset di dati e un punteggio qualità separato per ciascuna colonna. I Punteggi di qualità dei dati per singole colonne nell'asset di dati vengono calcolati in base alle dimensioni di qualità. Il punteggio di qualità generale per l'intera risorsa dati è la media dei punteggi per tutte le colonne. Un trattino (-) viene mostrato nei profili generati tramite l'arricchimento dei metadati senza l'analisi della qualità dei dati.

  • La classe di dati derivata per ciascuna colonna e la confidenza per tale classe di dati. Le classi di dati descrivono il contenuto dei dati nella colonna: ad esempio, la città, il numero di conto o il numero della carta di credito. Le classi di dati possono essere utilizzate per mascherare i dati o per limitare l'accesso agli asset di dati con le regole di protezione dei dati. Le classi dati vengono visualizzate per ciascuna colonna nella pagina Panoramica dell'asset e nella pagina Profilo .

    La confidenza di una classe di dati è la percentuale di valori non null che corrispondono alla classe di dati.

    Diverse classi di dati sono identificatori più generici che vengono rilevati e assegnati a livello di colonna. Queste classi di dati vengono assegnate quando non è stato possibile identificare una classe di dati più specifica a un livello di valore. Gli identificativi generici hanno sempre una confidenza del 100% e includono le seguenti classi di dati: codice, data, identificativo, indicatore, quantità e testo.

  • La percentuale di dati corrispondenti, non corrispondenti o mancanti.

  • La distribuzione di frequenza per tutti i valori identificati in una colonna.

  • Le statistiche relative ai dati per ogni colonna, ad esempio il numero di valori distinti, la percentuale di valori univoci, il minimo, il massimo o la media e, a volte, la deviazione standard in quella colonna. Il numero di valori distinti indica quanti valori differenti esistono nei dati campionati per la colonna. La percentuale di valori univoci indica la percentuale di valori distinti che appaiono solo una volta nella colonna.

    A seconda del formato dei dati di una colonna, le statistiche variano leggermente. Ad esempio, le statistiche per una colonna di tipo di dati intero hanno valori minimi, massimi e medi e un valore di deviazione standard mentre le statistiche per una colonna di tipo di dati stringa hanno valori di lunghezza minima, lunghezza massima e lunghezza media.

Questi tipi di dati relazionali e strutturati sono profilati per colonna:

  • Asset di dati da database relazionali o non relazionali da una connessione alle origini dati, ad eccezione di Cloudant.
  • Asset di dati da dataset partizionati, in cui un dataset partizionato è costituito da più file ed è rappresentato da una singola cartella caricata dal filesystem locale o da connessioni basate su file alle origini dati.
  • Asset di dati da file caricati dal filesystem locale o da connessioni basate su file alle origini dati, con i seguenti formati:

    • CSV
    • XLS, XLSM, XLSX (viene creato il profilo solo del primo foglio di una cartella di lavoro.)
    • TSV
    • Avro
    • Parquet

    Tuttavia, i file di dati strutturati non vengono profilati quando gli asset di dati non fanno esplicitamente riferimento ad essi, come in queste circostanze:

    • I file si trovano all'interno di una risorsa cartella connessa. I file a cui è possibile accedere da un asset della cartella connessa non vengono considerati come asset e non vengono creati profili.
    • I file si trovano all'interno di un file di archivio. L'asset di dati fa riferimento al file di archivio e non viene creato il profilo dei file compressi.

Nei cataloghi con applicazione della normativa, i profili per gli asset di dati strutturati vengono creati automaticamente quando gli asset di dati vengono aggiunti al catalogo a meno che gli asset di dati non vengano pubblicati da un arricchimento dei metadati. Tali asset dispongono già di un profilo aggiunto al catalogo insieme all'asset. Inoltre, gli asset da una connessione configurata per utilizzare le credenziali personali non vengono automaticamente profilati.

Nei progetti e nei cataloghi senza applicazione della regola di protezione dati, è possibile creare profili per singoli asset di dati strutturati manualmente.

Per creare il profilo di grandi serie di asset di dati in un'unica operazione, creare e eseguire un asset di arricchimento metadati. Vedi Gestione dell'arricchimento dei metadati.

Dati non strutturati

Il profilo di un asset di dati che contiene un documento con dati non strutturati mostra le informazioni che consentono una valutazione di alto livello del contenuto del documento per il rischio: classi di dati assegnate, statistiche di valore e metadati come lingua, dimensione file o conteggio parole.

Per la creazione del profilo degli asset di dati non strutturati, il testo semplice viene estratto dal documento e vengono analizzati i primi 5 MB del testo estratto. Durante la creazione del profilo, vengono applicati diversi modelli al contenuto del documento estratto per identificare determinati tipi di informazioni. Per rilevare tali informazioni, vengono considerati la struttura delle informazioni, il contesto vicino, l'intero contenuto estratto e la lingua in cui è scritto il documento. I risultati vengono quindi associati a classi di dati predefinite. Ad esempio, se vengono rilevati numeri di conto bancario, la classe di dati IBAN viene assegnata al documento. Oppure, se il documento contiene nomi di città, viene assegnata la classe di dati città.

Tuttavia, tieni sempre presente che qualsiasi logica di rilevamento applicata ai dati non strutturati non può essere ritenuta accurata al 100%, il che potrebbe causare classificazioni errate.

Le classi di dati assegnate non possono essere utilizzate per bloccare l'accesso o mascherare i dati negli asset di dati non strutturati con le politiche.

È possibile creare profili di documenti con una dimensione massima di 100 MB. Per i documenti più grandi non viene creato il profilo.

È possibile creare profili di questi tipi di documenti:

  • Documenti Microsoft Word con i seguenti tipi mime:
    • applicazione / msword
    • application/vnd.openxmlformats-officedocument.wordprocessingml.document
  • Documenti PDF con l'applicazione di tipo mime / pdf
  • Documenti di testo semplice con il tipo mime text/plain
  • Documenti HTML con tipo mime text/html

I profili per gli asset di dati non strutturati vengono sempre creati automaticamente. Tuttavia, gli asset di dati devono essere caricati direttamente nel progetto o nel catalogo. Non viene creato il profilo dei documenti non strutturati aggiunti come asset connessi.

Ulteriori informazioni

Argomento principale Ricerca e visualizzazione di un asset in un catalogo