0 / 0
Přejít zpět na anglickou verzi dokumentace
Profily datových aktiv

Profily datových aktiv

Profil aktiva zahrnuje vygenerovaná metadata a statistiky týkající se obsahu aktiva a pomáhá vám porozumět, jaké akce mají být provedeny ke zlepšení kvality dat. Profil se zobrazí na stránce Profil aktiva.

Profily mohou být vytvořeny pro datová aktiva, která obsahují relační nebo strukturovaná data.

Požadavky a omezení

Profil aktiv si můžete prohlédnout za následujících okolností.

Požadovaná služba
Služba Watson Knowledge Catalog .
Požadovaná oprávnění
Chcete-li tuto stránku zobrazit, můžete mít jakoukoli roli v projektu nebo katalogu.
Chcete-li vytvořit nebo aktualizovat profil nebo spustit obohacení metadat v projektu, musíte mít v projektu roli Administrátor nebo Editor .
Chcete-li vytvořit nebo aktualizovat profil v katalogu, musíte mít v katalogu roli Administrátor , nebo musíte mít roli Editor a musíte být vlastníkem aktiva nebo členem aktiva.
Pracovní prostory
V těchto pracovních prostorech si můžete prohlédnout profil aktiva:
  • Projekty
  • Katalogy
Typy aktiv
Tyto typy aktiv mají profil:
  • Datová aktiva z relačních nebo nerelačních databází z připojení ke zdrojům dat, s výjimkou Cloudant

  • Datová aktiva z rozdělených datových sad, kde se dělená datová sada skládá z více souborů a je reprezentována jedinou složkou odeslanou z lokálního systému souborů nebo ze souborových připojení ke zdrojům dat

  • Datová aktiva ze souborů odeslaných z lokálního systému souborů nebo z připojení založených na souborech ke zdrojům dat, s těmito formáty:

    • CSV
    • XLS, XLSM, XLSX (profilován je pouze první list v sešitu.)
    • TSV
    • avro
    • parket

    Strukturované datové soubory však nejsou profilovány, když se datová aktiva výslovně neodkazují na ně, jako je například za těchto okolností:

    • Soubory jsou v rámci připojeného aktiva složky. K souborům, které jsou přístupné z připojeného aktiva složky, se nezachází jako s aktivy a nejsou profilovány.
    • Soubory se nacházejí v archivním souboru. Archivní soubor je odkazován datovým aktivem a komprimované soubory nejsou profilovány.
  • Datová aktiva, která obsahují dokumenty s nestrukturovanými daty. Je možné profilovat dokumenty o velikosti až 100 MB. Větší dokumenty nejsou profilovány. Tyto typy dokumentů lze profilovat:

    • Dokumenty Microsoft Word s těmito typy MIME:
      • application/msword
      • application/vnd.openxmlformats-officedocument.wordprocessingml.document
    • Dokumenty PDF s aplikací typu MIME/pdf
    • Prosté textové dokumenty s typem MIME text/plain
    • Dokumenty HTML s typem MIME text/html

Způsoby vytvoření profilu

Profily datových aktiv s relačními a strukturovanými daty a profily datových aktiv s nestrukturovanými daty jsou vytvářeny odlišně.

Relační a strukturovaná data

Profily pro datová aktiva, která obsahují strukturovaná nebo relační data, lze vytvářet různými způsoby:

  • V regulovaných katalozích jsou profily individuálních datových aktiv vytvářeny automaticky, když jsou datová aktiva přidána do katalogu s těmito výjimkami:

    • Zakázali jste automatické profilování pro katalog.
    • Aktivum pochází z připojení, které je nakonfigurováno pro použití osobních pověření.
    • Aktivum bylo profilováno pomocí obohacení metadat dříve, než bylo publikováno. Taková aktiva již mají profil, který byl přidán do katalogu společně s aktivem.
  • V projektech a v katalozích bez vynucení pravidla ochrany dat můžete ručně vytvořit profily pro jednotlivá datová aktiva. Můžete také vytvořit profil ručně v upravovaném katalogu, pokud nebylo aktivum profilované dříve.

  • V projektech můžete vytvořit a spustit aktivum obohacení metadat pro profilování velkých sad datových aktiv v rámci jednoho toku. Tyto profily aktiv jsou k dispozici v projektu. Sbohacená aktiva můžete publikovat s jejich profily do libovolného typu katalogu. Viz Správa obohacení metadat.

V rámci jednoho účtu se výsledky profilování kopírují s datovým aktivem, když publikujete aktivum z projektu do katalogu, nebo jej přidáte z katalogu do projektu. Pokud však katalog a projekt patří k různým účtům, profily se nezkopírují, protože sada dostupných datových tříd může být odlišná.

Profil individuálního aktiva můžete aktualizovat ze stránky Profil aktiva v projektu nebo v katalogu. Pokud ručně aktualizujete profil datového aktiva, který je zahrnut do obohacení metadat, informace o profilu a analýze se odrazí také v příslušných výsledcích obohacení. Profily se také aktualizují, když jsou publikovány nové výsledky obohacení.

Když aktualizujete existující profil, můžete změnit třídy dat, které se mají zahrnout do profilu. Pokud vyloučíte datovou třídu, která byla dříve přiřazena ke sloupci, aktualizovaný profil zobrazí Třída vyloučená (z profilu) pro příslušný sloupec, pokud nebyla přiřazena jiná datová třída. Také uvidíte Třída vyloučená (z profilu) pro všechny sloupce, kde nemáte přístup k přiřazené datové třídě.

Nestrukturovaná data

Profily pro nestrukturovaná data aktiv se vždy vytvářejí automaticky. Aktiva dat však musí být odeslána přímo do projektu nebo katalogu. Nestrukturované dokumenty přidané jako připojená aktiva nejsou profilovány.

Co je analyzováno během profilování?

Analýza datových aktiv s relačními a strukturovanými daty a profily datových aktiv s nestrukturovanými daty se provádí jinak.

Relační a strukturovaná data

Pokud vytvoříte nebo aktualizujete profil pro datové aktivum se strukturovanými nebo relačními daty ze stránky Profil v projektu nebo katalogu, sloupce se analyzují.

Když je profilováno jedno aktivum v projektu nebo katalogu, profil se standardně vytvoří na základě prvních 5000 řádků dat. Má-li datové aktivum více než 250 sloupců, profil se vytvoří na základě prvních 1 000 řádků dat. Je-li profil vytvořen prostřednictvím obohacení metadat, je odběr vzorků určen nastavením obohacení metadat.

Chcete-li identifikovat strukturu a obsah vašich dat a klasifikovat ji, analýza zahrnuje následující úlohy:

  • Vypočítat statistiky o datech každého analyzovaných sloupců.
  • Výpočetní datové typy pro sloupce a rozdělení datových typů.
  • Vypočítává formáty dat pro distribuci sloupců a formátů.
  • Klasifikujte data a vypočítejte kandidáty třídy dat pro sloupce.
  • Distribuce frekvencí zachycení.

Nestrukturovaná data

Pro profilování nestrukturovaných datových aktiv je prostý text extrahován z dokumentu a je analyzováno prvních 5 MB extrahovaného textu. Během profilování se do extrahovaného obsahu dokumentu používá několik vzorů za účelem identifikace určitých typů informací. Chcete-li zjistit takové informace, strukturu informací, blízký kontext, celý extrahovaný obsah a jazyk, v němž je dokument zapsán, je považován za "uvažovaný". Výsledky se pak mapují na předdefinované datové třídy. Je-li například zjištěna čísla bankovních účtů, je k dokumentu přiřazena datová třída IBAN. Nebo pokud dokument obsahuje názvy měst, přiřadí se to městu datové třídy.

Vždy však mějte na paměti, že jakákoli logika detekce, která se používá u nestrukturovaných dat, nelze očekávat, že bude 100% přesná, což může vést k chybným klasifikacím.

Přiřazené datové třídy nelze použít k blokování přístupu k datům nebo maskování dat v nestrukturovaných datových aktivech se zásadami.

Informace o profilu

Obsah profilu závisí na tom, zda datové aktivum obsahuje relační nebo strukturovaná data nebo nestrukturovaná data.

Relační a strukturovaná data

Profil datového aktiva, který obsahuje relační nebo strukturovaná data, zobrazí informace o každém sloupci v datové sadě.

Na kartě Profil jsou uvedeny některé obecné informace a přehled výsledků analýzy:

  • Kdy byl profil vytvořen nebo naposledy aktualizován.

  • Počet sloupců a řádků, které byly analyzovány.

  • Odvozená datová třída pro každý sloupec a důvěryhodnost pro danou datovou třídu. Datové třídy popisují obsah dat ve sloupci: např. město, číslo účtu nebo číslo kreditní karty. Datové třídy lze použít k maskování dat nebo k omezení přístupu k datovým aktivům pomocí pravidel ochrany dat. Datové třídy se zobrazují pro každý sloupec na stránce Přehled aktiva a na stránce Profil .

    Důvěra datové třídy je procentní část hodnot, které nejsou null, které se shodují s třídou dat.

    Několik datových tříd je více generických identifikátorů, které jsou zjišťovány a přiřazovány na úrovni sloupce. Tyto datové třídy jsou přiřazeny, když nelze na úrovni hodnoty identifikovat více specifických tříd dat. Generické identifikátory mají vždy důvěryhodnost 100% a zahrnují následující datové třídy: kód, datum, identifikátor, indikátor, množství a text.

  • Procentní část shody, chybné shody nebo chybějící data pro každý sloupec.

  • Distribuce frekvence pro všechny hodnoty uvedené ve sloupci.

  • Statistika o datech pro každý sloupec, jako je například počet různých hodnot, procentní podíl jedinečných hodnot, minimum, maximum nebo střední hodnota a někdy směrodatná odchylka v daném sloupci. Počet hodnot distinct označuje, kolik různých hodnot existuje v datech vzorku pro sloupec. Procento jedinečných hodnot označuje procentní podíl odlišných hodnot, které se objevují pouze jednou ve sloupci.

    V závislosti na datovém formátu sloupce se statistiky mírně liší. Například statistiky pro sloupec datového typu integer mají minimální, maximální a střední hodnoty a směrodatnou odchylku, zatímco statistika sloupce datového typu má minimální délku, maximální délku a střední hodnoty délky.

Další podrobné informace o datech sloupce jsou k dispozici po klepnutí na název sloupce. Viz Podrobné výsledky profilování.

Nestrukturovaná data

Profil datového aktiva, který obsahuje dokument s nestrukturovanými daty, zobrazuje informace, které umožňují některé hodnocení obsahu dokumentu vysoké úrovně pro rizika: přiřazené datové třídy, statistiky hodnot a metadata, jako je jazyk, velikost souboru nebo počet slov.

Další informace

Nadřízené téma: Typy a vlastnosti aktiv

Generaliztive AI vyhledávání a odpověď
Tyto odpovědi jsou generovány rozsáhlým jazykovým modelem v souboru watsonx.ai na základě obsahu z dokumentace produktu. Další informace