0 / 0
Přejděte zpět na anglickou verzi dokumentace
Profily aktiv
Profily aktiv

Profily aktiv

Profil datového aktiva zahrnuje vygenerovaná metadata a statistiky o jejím obsahu. Profil se zobrazí na stránce Profil aktiva v katalogu nebo v projektu. Všechny členy katalogu nebo projektu mohou zobrazit profily datových aktiv.

Chcete-li zobrazit profil, když zobrazujete datové aktivum, musíte mít Watson Knowledge Catalog .

Obsah profilu závisí na typu dat:

V rámci jednoho účtu se výsledky profilování zkopírují spolu s datovým aktivem, když publikujete aktivum z projektu do katalogu nebo přidáte z katalogu do projektu. Pokud však katalog a projekt patří k různým účtům, profily strukturovaných datových aktiv se nezkopírují, protože sada dostupných datových tříd může být odlišná. Pokud publikujete strukturované datové aktivum do regulovaného katalogu, automaticky se vytvoří nový profil. Publikujete-li strukturované datové aktivum do neřízeného katalogu, musíte ručně vytvořit nový profil.

Relační a strukturovaná data

Profil datového aktiva, který obsahuje relační nebo strukturovaná data, zobrazí informace o každém sloupci v datové sadě. Když je profilováno jedno aktivum v projektu nebo katalogu, profil se standardně vytvoří na základě prvních 5000 řádků dat. Má-li datové aktivum více než 250 sloupců, profil se vytvoří na základě prvních 1 000 řádků dat. Je-li profil vytvořen prostřednictvím obohacení metadat, je odběr vzorků určen nastavením obohacení metadat. Během profilování jsou analyzovány sloupce a kvalita dat.

Profil zobrazuje následující informace:

  • Celkové skóre kvality pro datové aktivum a samostatné skóre kvality pro každý sloupec. Skóre kvality dat pro jednotlivé sloupce v datovém aktivu se vypočítá na základě dimenzí kvality. Celkové skóre kvality pro celé datové aktivum je průměr skóre pro všechny sloupce. Pomlčka (-) je zobrazena v profilech generovaných prostřednictvím obohacení metadat bez analýzy kvality dat.

  • Odvozená datová třída pro každý sloupec a důvěryhodnost pro danou datovou třídu. Datové třídy popisují obsah dat ve sloupci: např. město, číslo účtu nebo číslo kreditní karty. Datové třídy lze použít k maskování dat nebo k omezení přístupu k datovým aktivům pomocí pravidel ochrany dat. Datové třídy se zobrazují pro každý sloupec na stránce Přehled aktiva a na stránce Profil .

    Důvěra datové třídy je procentní část hodnot, které nejsou null, které se shodují s třídou dat.

    Několik datových tříd je více generických identifikátorů, které jsou zjišťovány a přiřazovány na úrovni sloupce. Tyto datové třídy jsou přiřazeny, když nelze na úrovni hodnoty identifikovat více specifických tříd dat. Generické identifikátory mají vždy důvěryhodnost 100% a zahrnují následující datové třídy: kód, datum, identifikátor, indikátor, množství a text.

  • Procento shody, chybné shody nebo chybějící data.

  • Distribuce frekvence pro všechny hodnoty uvedené ve sloupci.

  • Statistika o datech pro každý sloupec, jako je například počet různých hodnot, procentní podíl jedinečných hodnot, minimum, maximum nebo střední hodnota a někdy směrodatná odchylka v daném sloupci. Počet hodnot distinct označuje, kolik různých hodnot existuje v datech vzorku pro sloupec. Procento jedinečných hodnot označuje procentní podíl odlišných hodnot, které se objevují pouze jednou ve sloupci.

    V závislosti na datovém formátu sloupce se statistiky mírně liší. Například statistiky pro sloupec datového typu integer mají minimální, maximální a střední hodnoty a směrodatnou odchylku, zatímco statistika sloupce datového typu má minimální délku, maximální délku a střední hodnoty délky.

Tyto typy relačních a strukturovaných dat jsou profilovány podle sloupce:

  • Datová aktiva z relačních nebo nerelačních databází z připojení ke zdrojům dat, s výjimkou Cloudant.
  • Datová aktiva z rozdělených datových sad, kde datová sada rozdělená na oblasti sestává z více souborů a je reprezentována jedinou složkou odeslanou z lokálního systému souborů nebo z připojení založených na souborech ke zdrojům dat.
  • Datová aktiva ze souborů odeslaných z lokálního systému souborů nebo z připojení založených na souborech ke zdrojům dat, s těmito formáty:

    • CSV
    • XLS, XLSM, XLSX (profilován je pouze první list v sešitu.)
    • TSV
    • Avorová
    • Parket

    Strukturované datové soubory však nejsou profilovány, když se datová aktiva výslovně neodkazují na ně, jako je například za těchto okolností:

    • Soubory jsou v rámci připojeného aktiva složky. K souborům, které jsou přístupné z připojeného aktiva složky, se nezachází jako s aktivy a nejsou profilovány.
    • Soubory se nacházejí v archivním souboru. Archivní soubor je odkazován datovým aktivem a komprimované soubory nejsou profilovány.

V katalozích se zásadou vynucení zásady jsou profily pro strukturovaná datová aktiva vytvářeny automaticky, když jsou datová aktiva přidána do katalogu, pokud nejsou datová aktiva publikována z obohacení metadat. Taková aktiva již mají profil, který byl přidán do katalogu společně s aktivem. Také aktiva z připojení, která jsou konfigurována pro použití osobních pověření, nejsou automaticky profilována.

V projektech a v katalozích bez vynucení pravidla ochrany dat můžete vytvořit profily pro ruční strukturovaná datová aktiva.

Chcete-li profilovat velké sady datových aktiv v jedné oblasti, vytvořte a spusťte aktivum obohacení metadat. Viz Správa obohacení metadat.

Nestrukturovaná data

Profil datového aktiva, který obsahuje dokument s nestrukturovanými daty, zobrazuje informace, které umožňují některé hodnocení obsahu dokumentu vysoké úrovně pro rizika: přiřazené datové třídy, statistiky hodnot a metadata, jako je jazyk, velikost souboru nebo počet slov.

Pro profilování nestrukturovaných datových aktiv je prostý text extrahován z dokumentu a je analyzováno prvních 5 MB extrahovaného textu. Během profilování se do extrahovaného obsahu dokumentu používá několik vzorů za účelem identifikace určitých typů informací. Chcete-li zjistit takové informace, strukturu informací, blízký kontext, celý extrahovaný obsah a jazyk, v němž je dokument zapsán, je považován za "uvažovaný". Výsledky se pak mapují na předdefinované datové třídy. Je-li například zjištěna čísla bankovních účtů, je k dokumentu přiřazena datová třída IBAN. Nebo pokud dokument obsahuje názvy měst, přiřadí se to městu datové třídy.

Vždy však mějte na paměti, že jakákoli logika detekce, která se používá u nestrukturovaných dat, nelze očekávat, že bude 100% přesná, což může vést k chybným klasifikacím.

Přiřazené datové třídy nelze použít k blokování přístupu k datům nebo maskování dat v nestrukturovaných datových aktivech se zásadami.

Je možné profilovat dokumenty o velikosti až 100 MB. Větší dokumenty nejsou profilovány.

Tyto typy dokumentů lze profilovat:

  • Dokumenty Microsoft Word s těmito typy MIME:
    • application/mword
    • application/vnd.openxmlformats-officedocument.wordprocessingml.document
  • Dokumenty PDF s aplikací typu MIME/pdf
  • Prosté textové dokumenty s typem MIME text/plain
  • Dokumenty HTML s typem MIME text/html

Profily pro nestrukturovaná data aktiv se vždy vytvářejí automaticky. Aktiva dat však musí být odeslána přímo do projektu nebo katalogu. Nestrukturované dokumenty přidané jako připojená aktiva nejsou profilovány.

Další informace

Nadřízené téma: Nalezení a zobrazení aktiva v katalogu