0 / 0
Go back to the English version of the documentation
Informace o profilu na úrovni sloupce
Last updated: 03. 8. 2023
Informace o profilu na úrovni sloupce

Každý profil obsahuje několik úrovní informací.

Statistika

Karta Statistika obsahuje souhrn o struktuře analyzovaných dat ve sloupci a různých typech vizualizací pro tyto strukturální informace. To, jaké informace se přesně zobrazují, závisí na tom, zda sloupec obsahuje souvislé (kvantitativní) nebo nominální (kvalitativní) data.

Grafy

V závislosti na typu dat ve sloupci si můžete vybrat mezi různými typy vizualizací:

  • Jmenovitá data:

    • Pruhový graf
    • Proporce nebo výsečový graf
    • Paretův graf
  • Spojitá data:

    • Histogram grafu
    • zákresový graf
    • zákresový graf kvantily kvantily (Q-Q)

Distribuční graf je k dispozici pro všechny typy dat. Distribuční tabulka obvykle uvádí alespoň ty nejčastější hodnoty (nebo intervaly) ve sloupci a jejich počty. Tabulka může zobrazit další informace, jako jsou formáty, typy nebo třídy dat. Chcete-li zobrazit jednotlivé řádky, které obsahují určitou hodnotu, klepněte na volbu Zobrazit řádky.

V pruhovém nebo histogramu grafu máte možnost vybrat sloupec překryvu, abyste viděli, jak jsou jeho hodnoty distribuovány v každé hodnotě sloupce, na který se momentálně díváte. Pokud například máte sloupec s prodaným hotovým zbožím a vyberete sloupec s překryvným sloupcem, můžete vidět, jak se prodej určitého pekařského výrobku za každou sezónu liší. Pro sloupec překryvu si můžete vybrat ze všech sloupců v datovém aktivu, které obsahuje nominální data.

Souhrn

Dlaždice Souhrn poskytuje obecné informace o datech ve vybraném sloupci:

  • Datový typ sloupce, jak je definován ve zdroji dat
  • Datový typ odvozený z analýzy
  • Počet různých formátů dat v tomto sloupci
  • Nejčastější odvozený formát pro tento sloupec
  • Přiřazená třída dat
  • Typ měření dat (nominal nebo continuous)
  • Počet řádků (tj. počet hodnot), které byly zkontrolovány

Základní statistiky

Základní statistiky poskytují obecné informace o distribuci a rozptylu hodnot ve vybraném sloupci. V závislosti na datovém formátu sloupce se statistiky mírně liší. Například statistika pro sloupec datového typu integer má minimální, maximální a střední hodnotu, zatímco statistika pro sloupec datového typu řetězec má minimální délku, maximální délku a střední hodnoty délky.

Ukazatel Popis Zobrazen pro tento typ dat
Kardinalita Procentní část jedinečných odlišených hodnot ve sloupci, včetně mezer a hodnot null. Vypočítává se vydělením celkového počtu odlišených hodnot ve sloupci celkovým počtem hodnot v tomto sloupci. Nepřetržitá
Odlišený Počet různých hodnot, které existují v datech vzorku pro sloupec. Nepřetržitá
Entropie Tato hodnota vyčísluje množství informací, které sloupec obsahuje. Obecněji platí, že entropie lze použít k kvantifikaci informací v události a náhodné proměnné. Tato částka se odhaduje nejen na základě počtu různých hodnot, které jsou obsaženy v proměnné, ale také podle množství neočekávaných hodnot. Nominální
Gini Stupeň pravděpodobnosti, že specifický prvek je nesprávně klasifikován při výběru náhodně a variací Giniho koeficientu. Index Gini se může lišit od 0 do 1, kde 0 označuje, že všechny prvky patří do určité třídy, nebo že existuje pouze jedna třída. Giniho index 1 označuje, že všechny prvky jsou náhodně distribuovány napříč různými třídami. Hodnota 0.5 označuje, že prvky jsou jednotně rozděleny mezi některé třídy. Nominální
Maximální Největší hodnota číselné proměnné Nepřetržitá
Střední Aritmetický průměr, součet vydělený počtem hodnot Nepřetržitá
Medián Hodnota nad a pod níž polovina hodnot padne. Existuje-li sudý počet hodnot, střední hodnota je průměr dvou středních hodnot, když jsou seřazeny. Medián není ovlivněn odlivy. Nepřetržitá
Minimální Nejmenší hodnota číselné proměnné. Nepřetržitá
Chybějící Počet řádků v ukázce, které nemají hodnotu. Kontinuální
nominální
Režim Nejčastější hodnota ve sloupci. Pokud se vyskytuje několik hodnot se stejnou frekvencí, každý z nich je režim. Kontinuální
nominální
Odlehlé hodnoty Počet hodnot v datech sloupce, které jsou daleko od většiny ostatních hodnot ve sloupci. Nepřetržitá
Rozsah Rozdíl mezi maximálními a minimálními hodnotami ve sloupci. Nepřetržitá
Součet Součet nebo součet hodnot ve všech sloupcích, které mají hodnoty. Nepřetržitá
Jedinečný Počet odlišených hodnot, které se objevují pouze jednou v aktuálním sloupci. Kontinuální
nominální
Platný Počet hodnot, které jsou považovány za platné, což znamená, že prázdné nebo chybějící hodnoty sloupce jsou vyloučeny. Kontinuální
nominální

Rozšířené poznatky

Nesprávné informace o distribuci a rozptylu hodnot ve vybraném sloupci. Tyto informace se zobrazí pouze pro souvislá data:

Ukazatel Popis
25th percentil Hodnota pod ní 25% a nad níž 75% zjištěných hodnot padne.
75. percentil Hodnota, nad kterou spadá 25% a pod níž 75% zjištěných hodnot padne.
Kurtóza Měřítko rozsahu, do kterého jsou odlehlé hodnoty (tailholy distribuce). Nadměrná špičatost je úroveň rozložení v poměru k normálnímu rozdělení. Pro běžnou distribuci je hodnota statistiky špičatosti rovna nule. Kladná špičatost indikuje, že data vykazují extrémnější odlehlé hodnoty než normální rozdělení. Negativní špičatost indikuje, že data vykazují méně extrémní odlehlé hodnoty než normální rozdělení.

Distribuce se střední špičatou (střední ocasy) jsou mesokurtika. Distribuce s nízkou špičatou (tenké ocasy) jsou platykurtic.
Střední hodnota. Chyba Ukazatel průměrné střední hodnoty (průměru) dat pravděpodobně od střední hodnoty populace.
Směrodat. odchylka Ukazatel disperze kolem střední hodnoty. S nízkou směrodatnou odchylkou jsou hodnoty obvykle blízko průměru. S vysokou směrodatnou odchylkou je rozsah hodnot širší.
Šikmost Ukazatel asymetrie rozdělení. Distribuce je asymetrická, když její levé a pravé strany nejsou zrcadlovými obrazy. Distribuce může mít právo (nebo kladné), levé (nebo záporné) nebo nulové šikmost (symetrické rozdělení).
Odchylka Ukazatel disperze kolem střední hodnoty. Je to očekávání druhé mocniny náhodné veličiny ze střední hodnoty jejich populace nebo střední hodnoty vzorku.

Datové třídy

Pro přiřazení třídy dat se zobrazí následující informace:

  • Vybraná datová třída, což je datová třída přiřazená ke sloupci. Je to stejné jako zjištěná datová třída, pokud jste ji ručně nezměnili.

  • Zjištěná třída dat, což je nejlepší odpovídající datová třída pro sloupec, jak byla zjištěna analýzou.

  • Skóre důvěry přiřazené datové třídy. Důvěra datové třídy je procentní část nenull hodnot, které se shodují s třídou dat. Několik datových tříd je více generických identifikátorů, které jsou zjišťovány a přiřazovány na úrovni sloupce. Tyto datové třídy jsou přiřazeny, když nelze na úrovni hodnoty identifikovat více specifických tříd dat. Generické identifikátory budou vždy mít důvěru 100% a budou zahrnovat následující datové třídy: Kód, Datum, Identifikátor, Indikátor, Množství a Text.

  • Seznam všech datových tříd, které byly zjištěny během analýzy v sestupném pořadí, s nejlepší shodou (nejvyšší sebedůvěrou) v horní části. Pro každou datovou třídu se zobrazí skóre důvěry a priorita datové třídy.

  • Pro každou zjištěnou datovou třídu mohou být zobrazeny další informace v závislosti na rozsahu datové třídy.

    Pro datové třídy, kde je porovnání provedeno na základě dat sloupce, jsou vypsány hodnoty sloupců, které odpovídají kritériím pro tuto specifickou třídu dat. Sloupec Počet (%) zobrazuje, jak mnoho řádků v ukázce obsahuje specifickou hodnotu a procentní část řádků s touto hodnotou. Kromě toho se zobrazí formát každé vyhovující hodnoty.

    Pro datové třídy, kde se provádí porovnání na základě jména sloupce a pro generické datové třídy Kód, Datum, Identifikátor, Indikátor, Množství a Text, nejsou zobrazeny žádné další informace. Tyto datové třídy se používají, když datové hodnoty nepovolují identifikaci určité třídy dat. Generické datové třídy mají vždy důvěru ve 100%.

Další informace najdete v tématu Datové třídy.

Formáty

Formát odvozený pro sloupec, počet zjištěných formátů, a seznam všech zjištěných formátů je zobrazen.

Formát představuje vzorek znaků datové hodnoty. Každý abecední znak je reprezentován velkými nebo malými písmeny A, v závislosti na kapitalizaci znaku. Každý číselný znak je reprezentován číslem 9. Mezery a speciální znaky se zobrazí tak, jak se objevují.

Seznam zjištěných formátů ukazuje, kolik hodnot se specifickým formátem bylo nalezeno, a celkové procento hodnot s tímto formátem. Klepněte na položku, abyste viděli hodnoty, které odpovídají vzoru. Všimněte si, že pro zobrazení se načte pouze 100 hodnot, takže seznam hodnot nemusí obsahovat všechny hodnoty, nebo může být dokonce prázdný.

Typy

Jsou zobrazeny následující informace:

  • Datový typ sloupce, jak je definován ve zdroji dat
  • Datový typ odvozený z analýzy
  • Minimální délka hodnoty v tomto sloupci
  • Maximální délka hodnoty v tomto sloupci
  • Průměrná délka hodnot sloupce
  • Seznam všech datových typů ve sloupci

Datový typ popisuje, zda sloupec obsahuje data určitého typu, jako např. celé číslo, řetězec nebo typ data.

Typicky je optimální datový typ sloupce je jasný, protože většina nebo všechny hodnoty sloupce jsou stejného datového typu. Pokud však seznam obsahuje více různých datových typů, zkontrolujte četnost četnosti odvozeného datového typu. Je-li tento počet četností nízký vzhledem k počtu řádků v tabulce, mohou neplatné datové hodnoty způsobit, že bude odvozen chybný datový typ.

Další informace

Nadřízené téma: Přezkoumání výsledků obohacení metadat

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more