0 / 0
Torna alla versione inglese della documentazione
Profili delle attività
Profili delle attività

Profili delle attività

Il profilo di un asset di dati include metadati generati e statistiche sul suo contenuto. È possibile vedere il profilo sulla pagina Profilo dell'asset in un catalogo o in un progetto. Tutti i membri del catalogo o del progetto possono vedere i profili di asset dei dati.

È necessario disporre di Watson Knowledge Catalog per visualizzare un profilo quando si visualizza un asset di dati.

Il contenuto del profilo dipende dal tipo di dati:

All'interno di un account, i risultati di profilazione vengono copiati insieme all'asset di dati quando si pubblica un asset da un progetto a un catalogo o aggiungelo da un catalogo ad un progetto. Tuttavia, se il catalogo e il progetto appartengono a conti diversi, i profili di asset dati strutturati non vengono copiati perché la serie di classi di dati disponibili potrebbe essere diversa. Se si pubblica un asset di dati strutturato in un catalogo regolato, viene creato automaticamente un nuovo profilo. Se si pubblica un asset di dati strutturato in un catalogo non regolato, è necessario creare manualmente un nuovo profilo.

Dati relazionali e strutturati

Il profilo di un asset di dati che contiene dati relazionali o strutturati mostra informazioni su ogni colonna nel dataset. Quando un singolo asset viene profilato in un progetto o in un catalogo, il profilo viene per default creato in base alle prime 5.000 righe di dati. Se l'asset di dati ha più di 250 colonne, il profilo viene creato in base alle prime 1.000 righe di dati. Se il profilo viene creato attraverso l'arricchimento dei metadati, il campionamento è determinato dalle impostazioni di arricchimento dei metadati. Durante la profilazione, le colonne e la qualità dei dati vengono analizzati.

Il profilo mostra le seguenti informazioni:

  • Il punteggio di qualità complessivo per l'asset dati e un punteggio di qualità separato per ogni colonna. I punteggi di qualità dei dati per le singole colonne nell'asset dei dati sono calcolati in base alle dimensioni di qualità. Il punteggio di qualità complessivo per l'intero asset dati è la media dei punteggi per tutte le colonne. Un trattino (-) viene mostrato nei profili generati attraverso l'arricchimento dei metadati senza l'analisi della qualità dei dati.

  • La classe dati infernale per ogni colonna e la fiducia per quella classe dati. Le classi di dati descrivono il contenuto dei dati presenti nella colonna: ad esempio, la città, il numero dell'account o il numero di carta di credito. Le classi di dati possono essere utilizzate per maschera dati o per limitare l'accesso agli asset dati con le regole di protezione dei dati. Le classi di dati appaiono per ogni colonna sulla pagina Panoramica dell'asset e sulla pagina Profilo .

    La fiducia di una classe dati è la percentuale di valori non nulli che corrispondono alla classe dati.

    Diverse classi di dati sono identificativi più generici rilevati e assegnati a livello di colonna. Queste classi di dati vengono assegnate quando una classe dati più specifica non potrebbe essere identificata a livello di valore. Gli identificativi generici hanno sempre una confidenza del 100% e includono le seguenti classi di dati: codice, data, identificatore, indicatore, quantità e testo.

  • La percentuale di dati corrispondenti, errati o mancanti.

  • La distribuzione di frequenza per tutti i valori identificati in una colonna.

  • Statistiche sui dati per ogni colonna come il minimo, il massimo, la media e il numero di valori univoli in quella colonna. A seconda del tipo di dati di una colonna, le statistiche per ogni colonna varieranno leggermente. Ad esempio, le statistiche per una colonna di tipo di dati intero hanno valori minimi, massimi e medi mentre le statistiche per una colonna di tipo di tipo di dati hanno lunghezza minima, lunghezza massima e valori di lunghezza media. Un valore univoco è un valore che compare solo una volta nella colonna.

Questi tipi di dati relazionali e strutturati sono profilati per colonna:

  • Data asset dai database relazionali da una connessione alle origini dati, tranne Cloudant.
  • Data asset da dataset partizionati, dove un dataset partizionato è costituito da più file ed è rappresentato da una singola cartella caricata dal file system locale o da connessioni basate su file alle origini dati.
  • Data asset da file caricati dal file system locale o da connessioni basate su file alle origini dati, con questi formati:

    • CSV
    • XLS, XLSM, XLSX (Solo il primo foglio in un workbook è profilato.)
    • TSV
    • Avro
    • Parquet

    Tuttavia, i file di dati strutturati non sono profilati quando gli asset di dati non li fanno esplicitamente riferimento, come in queste circostanze:

    • I file sono all'interno di un asset cartella. I file accessibili da un asset cartella non sono trattati come asset e non sono profilati.
    • I file sono all'interno di un file di archivio. Il file di archivio è indicato dall'asset di dati e i file compressi non sono profilati.

Nei cataloghi con le forze dell'ordine, i profili per gli asset dei dati strutturati vengono creati automaticamente quando gli asset dei dati vengono aggiunti al catalogo a meno che gli asset di dati non siano pubblicati da un arricchimento dei metadati. Tali asset hanno già un profilo aggiunto al catalogo insieme all'asset. Inoltre, gli asset da una connessione configurata per utilizzare le credenziali personali non vengono profilati automaticamente.

Nei progetti e nei cataloghi senza applicazione delle regole di protezione dei dati, è possibile creare profili per i singoli asset di dati strutturati manualmente.

Per profilare grandi serie di asset dati in un solo andare, creare ed eseguire un asset di arricchimento dei metadati. Vedere Gestione dell'arricchimento dei metadati.

Dati non strutturati

Il profilo di un asset di dati che contiene un documento con dati non strutturati mostra informazioni che consentono una valutazione di alto livello del contenuto del documento per il rischio: classi dati assegnate, statistiche del valore e metadati come il linguaggio, la dimensione del file o il conteggio delle parole.

Per la profilazione di asset dati non strutturati, viene estratto il testo semplice dal documento e vengono analizzati i primi 5 MB del testo estratto. Durante la profilazione vengono applicati diversi modelli al contenuto del documento estratto per identificare determinati tipi di informazioni. Per rilevare tali informazioni, la struttura dell'informazione, il contesto vicino, l'intero contenuto estratto e la lingua il documento è scritto in esame. I risultati vengono poi mappati in classi dati predefinite. Ad esempio, se i numeri dell'account bancario vengono rilevati, la classe dati IBAN viene assegnata al documento. Oppure, se il documento contiene nomi di città, viene assegnata la città classe dati.

Tuttavia, tenete sempre presente che qualsiasi logica di rilevamento applicata ai dati non strutturati non può essere prevista al 100% preciso, il che potrebbe tradursi in classificazioni erronee.

Le classi di dati assegnate non possono essere utilizzate per bloccare l'accesso ai dati o la maschera in asset dati non strutturati con le policy.

I documenti con una dimensione fino a 100 MB possono essere profilati. I documenti più grandi non sono profilati.

Questi tipi di documenti possono essere profilati:

  • Documenti Microsoft Word con questi tipi mimi:
    • applicazione/msword
    • applicazione/vnd.openxmlformats-officedocument.wordprocessingml.documento
  • Documenti PDF con applicazione tipo mime / pdf
  • Documenti di testo in chiaro con il mimo tipo text/plain
  • Documenti HTML con il mimo tipo text/html

I profili per gli asset dei dati non strutturati vengono sempre creati automaticamente. Tuttavia, gli asset di dati devono essere caricati direttamente sul progetto o sul catalogo. I documenti non strutturati che vengono aggiunti come asset connessi non sono profilati.

Ulteriori informazioni

Argomento principale: Trovare e visualizzare un asset in un catalogo