0 / 0
Přejděte zpět na anglickou verzi dokumentace
Profily aktiv
Profily aktiv

Profily aktiv

Profil datového aktiva zahrnuje vygenerovaná metadata a statistiky o jejím obsahu. Profil se zobrazí na stránce Profil aktiva v katalogu nebo v projektu. Všechny členy katalogu nebo projektu mohou zobrazit profily datových aktiv.

Chcete-li zobrazit profil, když zobrazujete datové aktivum, musíte mít Watson Knowledge Catalog .

Obsah profilu závisí na typu dat:

V rámci jednoho účtu se výsledky profilování zkopírují spolu s datovým aktivem, když publikujete aktivum z projektu do katalogu nebo přidáte z katalogu do projektu. Pokud však katalog a projekt patří k různým účtům, profily strukturovaných datových aktiv se nezkopírují, protože sada dostupných datových tříd může být odlišná. Pokud publikujete strukturované datové aktivum do regulovaného katalogu, automaticky se vytvoří nový profil. Publikujete-li strukturované datové aktivum do neřízeného katalogu, musíte ručně vytvořit nový profil.

Relační a strukturovaná data

Profil datového aktiva, který obsahuje relační nebo strukturovaná data, zobrazí informace o každém sloupci v datové sadě. Když je profilováno jedno aktivum v projektu nebo katalogu, profil se standardně vytvoří na základě prvních 5000 řádků dat. Má-li datové aktivum více než 250 sloupců, profil se vytvoří na základě prvních 1 000 řádků dat. Je-li profil vytvořen prostřednictvím obohacení metadat, je odběr vzorků určen nastavením obohacení metadat. Během profilování jsou analyzovány sloupce a kvalita dat.

Profil zobrazuje následující informace:

  • Celkové skóre kvality pro datové aktivum a samostatné skóre kvality pro každý sloupec. Skóre kvality dat pro jednotlivé sloupce v datovém aktivu se vypočítá na základě dimenzí kvality. Celkové skóre kvality pro celé datové aktivum je průměr skóre pro všechny sloupce. Pomlčka (-) je zobrazena v profilech generovaných prostřednictvím obohacení metadat bez analýzy kvality dat.

  • Odvozená datová třída pro každý sloupec a důvěryhodnost pro danou datovou třídu. Datové třídy popisují obsah dat ve sloupci: např. město, číslo účtu nebo číslo kreditní karty. Datové třídy lze použít k maskování dat nebo k omezení přístupu k datovým aktivům pomocí pravidel ochrany dat. Datové třídy se zobrazují pro každý sloupec na stránce Přehled aktiva a na stránce Profil .

    Důvěra datové třídy je procentní část hodnot, které nejsou null, které se shodují s třídou dat.

    Několik datových tříd je více generických identifikátorů, které jsou zjišťovány a přiřazovány na úrovni sloupce. Tyto datové třídy jsou přiřazeny, když nelze identifikovat více specifické třídy dat na úrovni hodnoty. Generické identifikátory mají vždy důvěryhodnost 100% a zahrnují následující datové třídy: kód, datum, identifikátor, indikátor, množství a text.

  • Procento shody, chybné shody nebo chybějící data.

  • Distribuce frekvence pro všechny hodnoty uvedené ve sloupci.

  • Statistika o datech pro každý sloupec, jako je minimum, maximum, střední hodnota a počet jedinečných hodnot v daném sloupci. V závislosti na datovém typu sloupce se budou statistické údaje pro každý sloupec mírně lišit. Například statistika pro sloupec datového typu integer má minimální, maximální a střední hodnotu, zatímco statistika pro sloupec datového typu řetězec má minimální délku, maximální délku a střední hodnoty délky. Jedinečná hodnota je hodnota, která se ve sloupci zobrazuje pouze jednou.

Tyto typy relačních a strukturovaných dat jsou profilovány podle sloupce:

  • Data aktiv z relačních databází z připojení ke zdrojům dat, kromě Cloudant.
  • Datová aktiva z rozdělených datových sad, kde datová sada rozdělená na oblasti se skládá z více souborů a je reprezentována jedinou složkou odeslanou z lokálního systému souborů nebo ze souborových připojení ke zdrojům dat.
  • Datová aktiva ze souborů odeslaných z lokálního systému souborů nebo z připojení založených na souborech ke zdrojům dat, s těmito formáty:

    • CSV
    • XLS, XLSM, XLSX (profilován je pouze první list v sešitu.)
    • TSV
    • Avorová
    • Parket

    Strukturované datové soubory však nejsou profilovány, když se datová aktiva výslovně neodkazují na ně, jako je například za těchto okolností:

    • Soubory se nacházejí v rámci aktiva složky. Soubory, které jsou přístupné z aktiva složky, nebudou považovány za aktiva a nejsou profilovány.
    • Soubory se nacházejí v archivním souboru. Archivní soubor je odkazován datovým aktivem a komprimované soubory nejsou profilovány.

V katalozích se zásadou vynucení zásady jsou profily pro strukturovaná datová aktiva vytvářeny automaticky, když jsou datová aktiva přidána do katalogu, pokud nejsou datová aktiva publikována z obohacení metadat. Taková aktiva již mají profil, který byl přidán do katalogu společně s aktivem. Také aktiva z připojení, která jsou konfigurována pro použití osobních pověření, nejsou automaticky profilována.

V projektech a v katalozích bez vynucení pravidla ochrany dat můžete vytvořit profily pro ruční strukturovaná datová aktiva.

Chcete-li profilovat velké sady datových aktiv v jedné oblasti, vytvořte a spusťte aktivum obohacení metadat. Viz Správa obohacení metadat.

Nestrukturovaná data

Profil datového aktiva, který obsahuje dokument s nestrukturovanými daty, zobrazuje informace, které umožňují některé hodnocení obsahu dokumentu vysoké úrovně pro rizika: přiřazené datové třídy, statistiky hodnot a metadata, jako je jazyk, velikost souboru nebo počet slov.

Pro profilování nestrukturovaných datových aktiv je prostý text extrahován z dokumentu a je analyzováno prvních 5 MB extrahovaného textu. Během profilování se do extrahovaného obsahu dokumentu používá několik vzorů za účelem identifikace určitých typů informací. Chcete-li zjistit takové informace, strukturu informací, blízký kontext, celý extrahovaný obsah a jazyk, v němž je dokument zapsán, je považován za "uvažovaný". Výsledky se pak mapují na předdefinované datové třídy. Je-li například zjištěna čísla bankovních účtů, je k dokumentu přiřazena datová třída IBAN. Nebo pokud dokument obsahuje názvy měst, přiřadí se to městu datové třídy.

Vždy však mějte na paměti, že jakákoli logika detekce, která se používá u nestrukturovaných dat, nelze očekávat, že bude 100% přesná, což může vést k chybným klasifikacím.

Přiřazené datové třídy nelze použít k blokování přístupu k datům nebo maskování dat v nestrukturovaných datových aktivech se zásadami.

Je možné profilovat dokumenty o velikosti až 100 MB. Větší dokumenty nejsou profilovány.

Tyto typy dokumentů lze profilovat:

  • Dokumenty Microsoft Word s těmito typy MIME:
    • application/mword
    • application/vnd.openxmlformats-officedocument.wordprocessingml.document
  • Dokumenty PDF s aplikací typu MIME/pdf
  • Prosté textové dokumenty s typem MIME text/plain
  • Dokumenty HTML s typem MIME text/html

Profily pro nestrukturovaná data aktiv se vždy vytvářejí automaticky. Aktiva dat však musí být odeslána přímo do projektu nebo katalogu. Nestrukturované dokumenty přidané jako připojená aktiva nejsou profilovány.

Další informace

Nadřízené téma: Nalezení a zobrazení aktiva v katalogu