Profily datových aktiv | IBM Cloud Pak for Data as a Service

Translation not up to date

The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.

Go back to the English version of the documentation

Profily datových aktiv

Profil aktiva zahrnuje generovaná metadata a statistiky o obsahu aktiva a pomáhá vám pochopit, jaké akce je třeba provést pro zlepšení kvality dat. Profil můžete zobrazit na stránce Profil aktiva.

Profily lze vytvořit pro datová aktiva, která obsahují relační nebo strukturovaná data.

Požadavky a omezení
Způsoby vytvoření profilu
Co je analyzováno během profilování?
Informace o profilu

Požadavky a omezení

Profil aktiv můžete zobrazit za následujících okolností.

Nezbytná služba

Služba Watson Knowledge Catalog .

Nezbytná oprávnění

Chcete-li zobrazit tuto stránku, můžete mít jakoukoli roli v projektu nebo katalogu.

Chcete-li vytvořit nebo aktualizovat profil nebo spustit obohacení metadat v projektu, musíte mít v projektu roli Administrátor nebo Editor .

Chcete-li vytvořit nebo aktualizovat profil v katalogu, musíte mít roli Administrátor v katalogu, nebo musíte mít roli Editor a musí být vlastníkem aktiva nebo členem aktiva.

Pracovní prostory

Profil aktiva můžete zobrazit v těchto pracovních prostorech:

Projekty
Katalogy

Typy aktiv

Tyto typy aktiv mají profil:

Datová aktiva z relačních nebo nerelačních databází z připojení ke zdrojům dat, s výjimkou Cloudant .
Datová aktiva z rozdělených datových sad, kde rozdělená datová sada sestává z více souborů a je reprezentována jednou složkou odeslanou z lokálního systému souborů nebo z připojení založených na souborech ke zdrojům dat.
Datová aktiva ze souborů odeslaných z lokálního systému souborů nebo z připojení založených na souborech ke zdrojům dat s těmito formáty:
- CSV
- XLS, XLSM, XLSX (profiluje se pouze první list v sešitu).
- TSV
- avro
- parket
Strukturované datové soubory však nejsou profilovány, pokud na ně datová aktiva výslovně neodkazují, například za těchto okolností:
- Soubory jsou v rámci připojeného aktiva složky. Soubory, které jsou přístupné z připojeného aktiva složky, nejsou považovány za aktiva a nejsou profilovány.
- Soubory jsou v archivním souboru. Na archivní soubor odkazuje datové aktivum a komprimované soubory nejsou profilovány.

Způsoby vytvoření profilu

Profily aktiv lze vytvářet různými způsoby:

V řízených katalozích jsou profily pro jednotlivá datová aktiva vytvářeny automaticky, když jsou datová aktiva přidána do katalogu s těmito výjimkami:
- Zakázali jste automatické profilování pro katalog.
- Aktivum pochází z připojení, které je nakonfigurováno pro použití osobních pověření.
- Aktivum bylo profilováno pomocí obohacení metadat před jeho publikováním. Taková aktiva již mají profil, který je přidán do katalogu spolu s aktivem.
V projektech a v katalozích bez vynucení pravidla ochrany dat můžete ručně vytvořit profily pro jednotlivá datová aktiva. Profil můžete také vytvořit ručně v regulovaném katalogu, pokud nebylo aktivum předtím profilováno.
V projektech můžete vytvořit a spustit aktivum obohacení metadat pro profilování velkých sad datových aktiv najednou. Tyto profily aktiv jsou k dispozici v projektu. Obohacená aktiva s jejich profily můžete publikovat do libovolného typu katalogu. Viz Správa obohacení metadat.

V rámci jednoho účtu se výsledky profilování zkopírují s datovým aktivem, když publikujete aktivum z projektu do katalogu nebo jej přidáte z katalogu do projektu. Pokud však katalog a projekt patří k různým účtům, profily se nezkopírují, protože sada dostupných tříd dat se může lišit.

Můžete aktualizovat individuální profil aktiva ze stránky Profil aktiva v projektu nebo katalogu. Pokud ručně aktualizujete profil datového aktiva, které je zahrnuto v obohacení metadat, informace o profilu a analýze se také projeví ve výsledcích příslušného obohacení. Profily jsou také aktualizovány při publikování nových výsledků obohacení.

Při aktualizaci existujícího profilu můžete změnit třídy dat tak, aby byly zahrnuty do profilu. Pokud vyloučíte datovou třídu, která byla dříve přiřazena ke sloupci, aktualizovaný profil zobrazí třídu vyloučenou (z profilu) pro příslušný sloupec, pokud nebyla přiřazena jiná datová třída. Zobrazí se také Třída vyloučená (z profilu) pro všechny sloupce, kde nemáte přístup k přiřazené datové třídě.

Co je analyzováno během profilování?

Pokud vytvoříte nebo aktualizujete profil aktiva ze stránky Profil v projektu nebo katalogu, budou analyzovány sloupce.

Když je profilováno jediné aktivum v projektu nebo katalogu, profil je standardně vytvořen na základě prvních 5 000 řádků dat. Pokud má datové aktivum více než 250 sloupců, profil se vytvoří na základě prvních 1000 řádků dat. Pokud je profil vytvořen prostřednictvím obohacení metadat, je vzorkování určeno nastavením obohacení metadat.

Chcete-li identifikovat strukturu a obsah dat a klasifikovat je, zahrnuje analýza následující úlohy:

Vypočte statistiku o datech každého analyzovaného sloupce.
Vypočítat datové typy pro distribuci sloupců a datových typů.
Vypočítá datové formáty pro distribuci sloupců a formátů.
Klasifikujte data a vypočítejte kandidáty na třídy dat pro sloupce.
Zachyťte rozdělení frekvence.

Informace o profilu

Profil datového aktiva zobrazuje informace o každém sloupci datového aktiva.

Karta Profil poskytuje některé obecné informace a přehled výsledků analýzy:

Kdy byl profil vytvořen nebo naposledy aktualizován.
Kolik sloupců a řádků bylo analyzováno.
Odvozená datová třída pro každý sloupec a hodnověrnost pro tuto datovou třídu. Datové třídy popisují obsah dat ve sloupci: například město, číslo účtu nebo číslo kreditní karty. Třídy dat lze použít k maskování dat nebo k omezení přístupu k datovým aktivům pomocí pravidel ochrany dat. Třídy dat se zobrazí pro každý sloupec na stránce Přehled aktiva a na stránce Profil .

Hodnověrnost datové třídy je procento nenulových hodnot, které odpovídají datové třídě.

Několik tříd dat je více generických identifikátorů, které jsou zjištěny a přiřazeny na úrovni sloupce. Tyto třídy dat jsou přiřazeny, když nelze na úrovni hodnoty identifikovat specifičtější třídu dat. Generické identifikátory mají vždy důvěryhodnost 100% a zahrnují následující datové třídy: kód, datum, identifikátor, indikátor, množství a text.
Procento shody, neshody nebo chybějících dat pro každý sloupec.
Rozdělení frekvence pro všechny hodnoty identifikované ve sloupci.
Statistiky o datech pro každý sloupec, jako je například počet různých hodnot, procento jedinečných hodnot, minimum, maximum nebo střední hodnota, a někdy směrodatná odchylka v tomto sloupci. Počet odlišených hodnot označuje, kolik různých hodnot existuje v ukázkových datech pro sloupec. Procentní část jedinečných hodnot označuje procentní část odlišených hodnot, které se ve sloupci objevují pouze jednou.

V závislosti na datovém formátu sloupce se statistiky mírně liší. Například statistika pro sloupec datového typu integer má minimální, maximální a střední hodnoty a hodnotu směrodatné odchylky, zatímco statistika pro sloupec datového typu string má minimální délku, maximální délku a střední délku.

Podrobnější informace o datech sloupce jsou k dispozici po klepnutí na název sloupce. Viz Podrobné výsledky profilování.

Další informace

Nadřízené téma: Typy a vlastnosti aktiv