0 / 0
Go back to the English version of the documentation
Shromažďování statistiky v produktu Watson Query
Last updated: 31. 3. 2023
Shromažďování statistiky v produktu Watson Query

Chcete-li optimalizovat výkon dotazů, můžete shromažďovat statistické údaje o datech, na která se dotazujete.

Rozhodnutí optimalizátoru založeného na nákladech jsou rozhodující pro dotaz na výkon. Optimalizátor provádí svá rozhodnutí pomocí statistických informací o datech, na která se dotazujete. Přesná a aktuální statistika zajišťuje optimální výkon dotazů. Shromažďujte statistiky vždy, když platí následující podmínky.

  • Vytvoří se nová tabulka a naplní se daty.
  • Data existující tabulky procházejí významnými změnami, jako jsou následující podmínky:
    • Nová data se přidají.
    • Původní data budou odebrána.
    • Existující data jsou aktualizována.

Watson Query shromažďuje statistické údaje pro následující položky, aby optimalizátor měl dostatek informací k sestavení účinných plánů provedení:

  • Libovolná tabulka, na kterou se odkazuje v dotazu.
  • Všechny sloupce, které jsou odkazovány v predikátech (včetně predikátů spojení) a agregačních funkcí, na které se odkazuje v dotazech.

Nemusíte shromažďovat statistiky pro sloupce, které se objeví pouze v prvním seznamu příkazu SELECT dotazu.

Důležité: Shromažďování statistiky je kritické pro dobrý výkon dotazu, takže je důležité mít statistiky o připojení k datu. Shromažďování statistických údajů může být náročné na prostředky a může trvat delší dobu, pokud má virtualizovaná tabulka mnoho řádků nebo statistiky jsou shromažďovány pro mnoho sloupců. Zvažte shromažďování statistických údajů, je-li systém méně vytížený. Vyvarovat se plánování mnoha úloh shromažďování statistiky ve stejném časovém rámci.
V produktu Watson Queryse shromažďují následující základní statistiky:
Kardinalita tabulky (CARD
Počet řádků v tabulce.
Kardinalita sloupce (COLCARD)
Počet odlišených hodnot ve sloupci.
Vysoký klíč (HIGH2KEY)
Buď nejvyšší nebo druhá nejvyšší hodnota dat sloupce, v závislosti na vzdáleném zdroji dat virtualizované tabulky a typu kolekce, který se používá.
Nízký klíč (LOW2KEY)
Nejnižší nebo druhá nejnižší hodnota dat sloupce, v závislosti na vzdáleném zdroji dat virtualizované tabulky a typu kolekce, který se používá.
Počet hodnot null (NUMNULLS)
Počet hodnot null ve sloupci. Toto číslo je jediná statistika, která je shromažďována pro sloupce typu LOB.

Typy kolekcí statistiky

Watson Query podporuje dva typy kolekcí statistiky:
remote-catalog
Tento typ shromažďování statistických údajů je podporován pouze pro virtualizované tabulky ve vzdálených zdrojích dat, které podporují lokální metodu shromažďování statistických údajů. Statistiky, které jsou uloženy v tabulkách katalogu na vzdáleném zdroji dat, se načtou a pak uloží do katalogu statistiky Watson Query . Je důležité zajistit, aby byly ve vzdáleném zdroji dat k dispozici přesné statistiky. Typ remote-catalog kolekce statistik není podporován pro seskupené tabulky.
remote-query
Tento typ kolekce statistik používá dotazy SQL pro virtualizovanou tabulku k výpočtu statistiky. Tento typ může být náročný na prostředky a dokončení může trvat dlouho, pokud má virtualizovaná tabulka mnoho řádků nebo statistik, které jsou shromažďovány pro mnoho sloupců.

Doporučené postupy

Pro vzdálené zdroje dat, které podporují lokální nástroje pro shromažďování statistických údajů, jako například IBM® Db2® a Oracle, Nejlepším postupem pro shromažďování statistických údajů v produktu Watson Query je zajistit, aby lokální statistika ve vzdáleném zdroji dat byla přesná a aktuální, zejména základní statistiky sloupců pro sloupce klíčů, které se používají v predikátech dotazů. Je dobrým nápadem vytvořit úlohu shromažďování statistických údajů ve webovém klientu Watson Query pro tento účel.

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more