0 / 0
Go back to the English version of the documentation
Ograniczenia dotyczące gromadzenia statystyk w programie Watson Query
Last updated: 28 kwi 2023
Ograniczenia dotyczące źródła danych dotyczące gromadzenia statystyk w programie Watson Query

Źródła danych różnią się od siebie w obsłudze gromadzenia statystyk lokalnych i obsługują różne statystyki kolumn. Obsługują one również różne metody gromadzenia statystyk.

Program Watson Query obsługuje dwa typy gromadzenia danych statystycznych.
remote-catalog
Ten typ gromadzenia danych statystycznych jest obsługiwany tylko w przypadku tabel zwirtualizowanych w zdalnych źródłach danych, które obsługują lokalną metodę gromadzenia statystyk. Dane statystyczne zapisane w tabelach katalogu w zdalnym źródle danych są pobierane, a następnie zapisywane w katalogu statystyk Watson Query . Kluczowe znaczenie ma zapewnienie, że dokładne statystyki są dostępne w zdalnym źródle danych. Typ gromadzenia statystyk remote-catalog nie jest obsługiwany w przypadku tabel pogrupowanych.
remote-query
Ten typ gromadzenia statystyk używa zapytań SQL dla zwirtualizowanej tabeli w celu obliczenia statystyk. Ten typ może być wymagający użycia zasobów i może zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn.

W poniższej tabeli przedstawiono źródła danych, które obsługują gromadzenie statystyk lokalnych, a także informacje o tym, które statystyki kolumn są dostępne.

Źródło danych Dostępne podstawowe statystyki Obsługiwane
remote-catalog
Obsługiwane
remote-query
Amazon Redshift KARTA, KOLCARD, NUMNULLS
Cloudera Impala KARTA, KOLCARD, NUMNULLS. Ostatnie wersje produktu Impala (1.4 i nowsze) nie gromadzą wartości NUMNULLS.
Databases for PostgreSQL KARTA, KOLCARD, NUMNULLS
Db2® CARD, COLCARD, HIGH2KEY, LOW2KEY, NUMNULLS
Db2 Big SQL CARD, COLCARD, HIGH2KEY, LOW2KEY, NUMNULLS
Db2 for z/OS CARD, COLCARD, HIGH2KEY, LOW2KEY
Db2 on Cloud CARD, COLCARD, HIGH2KEY, LOW2KEY, NUMNULLS
Greenplum KARTA, KOLCARD, NUMNULLS
Hive CARD, COLCARD, HIGH2KEY, LOW2KEY, NUMNULLS
(Nie zalecane)
Informix CARD, COLCARD
MariaDB CARD, HIGH2KEY, LOW2KEY, NUMNULLS
Microsoft SQL Server CARD, COLCARD
MySQL CARD, COLCARD
Netezza Performance Server CARD, COLCARD, HIGH2KEY, LOW2KEY, NUMNULLS
Oracle CARD, COLCARD, HIGH2KEY, LOW2KEY, NUMNULLS
SAP ASE CARD
SAP HANA CARD, COLCARD
Snowflake CARD
Teradata KARTA, KOLCARD, NUMNULLS
źródła danychIBM Cloud Object Storage, Amazon S3lub Ceph Więcej informacji na ten temat zawiera sekcja Gromadzenie statystyk danych w pamięci masowej obiektów.  
Pliki tekstowe, które nie znajdują się w obiektowej pamięci masowej Patrz sekcja Gromadzenie statystyk dla plików tekstowych, które nie są w pamięci masowej obiektów.  
Wszystkie inne obsługiwane źródła danych Więcej informacji na ten temat zawiera sekcja Gromadzenie statystyk dla wszystkich innych źródeł danych. Brak obsługi

Amazon Redshift

Aby gromadzić lokalne statystyki tabel, należy użyć komendy ANALYZE zgodnie z opisem w dokumentacji produktu Amazon Redshift . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .

Amazon Redshift nie obsługuje statystyki HIGH2KEY ani LOW2KEY . Ponadto komenda ANALYZE nie gromadzi statystyk dla danych kolumny CHAR i NCHAR, jeśli długość danych kolumny przekracza 1020 bajtów. Jeśli kolumna zawiera tylko wartości NULL, statystyki kolumn nie są gromadzone.

Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.

Cloudera Impala

Aby gromadzić lokalne statystyki tabel, należy użyć instrukcji COMPUTE STATS , zgodnie z opisem w dokumentacji produktu Cloudera Impala . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .

Opcja Cloudera Impala nie obsługuje statystyki HIGH2KEY ani LOW2KEY , a nowsze wersje Impala nie obsługują statystyki NUMNULLS. Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.

Bazy danych dla PostgreSQL

Aby gromadzić lokalne statystyki tabel, należy użyć komendy ANALYZE zgodnie z opisem w dokumentacji produktu PostgreSQL . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .

Parametr PostgreSQL nie obsługuje statystyki HIGH2KEY ani LOW2KEY . Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.

Db2 i Db2 on Cloud

Aby gromadzić statystyki tabel lokalnych dla tych źródeł danych, należy użyć komendy RUNSTATS . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog . W przypadku tego typu wartości HIGH2KEY i LOW2KEY (oznaczające drugą najwyższą i drugą najniższą wartość w tabeli) są kopiowane z katalogu Db2 . W przypadku typu remote-query wartości parametrów HIGH2KEY i LOW2KEY reprezentują najwyższe i najniższe wartości w tabeli.

Db2 Big SQL

Aby zgromadzić statystykę tabeli lokalnej, należy użyć komendy ANALYZE . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog . W przypadku obu typów wartości HIGH2KEY i LOW2KEY reprezentują najwyższe i najniższe wartości w tabeli.

Db2 for z/OS

Aby zgromadzić statystykę tabeli lokalnej, należy użyć komendy RUNSTATS . Statystyki nie są gromadzone dla typów LOB. Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog . W przypadku tej metody wartości HIGH2KEY i LOW2KEY (reprezentujące drugą najwyższą i drugą najniższą wartość w tabeli) są kopiowane z katalogu Db2 . W przypadku typu kolekcji remote-query wartości parametrów HIGH2KEY i LOW2KEY reprezentują najwyższe i najniższe wartości w tabeli.

Baza danych Db2 for z/OS® nie obsługuje statystyki NUMNULLS. Jeśli zapytania korzystałyby z tej statystyki, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.

Greenplum

Aby gromadzić lokalne statystyki tabel, należy użyć komendy ANALYZE , zgodnie z opisem w dokumentacji produktu Greenplum . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .

Opcja Greenplum nie obsługuje statystyki HIGH2KEY ani LOW2KEY . Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.

Hive

Aby gromadzić lokalne statystyki tabel, należy użyć komendy ANALYZE zgodnie z opisem w dokumentacji produktu Hive . Typ gromadzenia danych statystycznych remote-catalog w sekcji Hive nie jest zalecany ze względu na znane problemy z kolekcją statystyk w obszarze Hive. Zamiast tego należy użyć typu kolekcji statystyk produktu remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.

Nie ma wsparcia dla zbierania statystyk dla kolumn zdefiniowanych za pomocą typów złożonych, takich jak typ UNION.

Informix

Aby gromadzić lokalne statystyki tabel, należy użyć instrukcji UPDATE STATISTICS , zgodnie z opisem w dokumentacji produktu Informix® . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .

Baza danych Informix nie obsługuje statystyki HIGH2KEY, LOW2KEYani NUMNULLS. Gromadzi on tylko CARD (liczność tabeli) i COLCARD (liczność kolumny). Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query .. Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.

MariaDB

Aby zgromadzić statystykę tabeli lokalnej, należy użyć komendy ANALYZE zgodnie z opisem w dokumentacji produktu MariaDB . Statystyki dla typu TEXT lub kolumn typu BLOB nie są gromadzone. Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog . Użytkownik musi posiadać uprawnienia administracyjne, aby uzyskać dostęp do statystyk katalogu, co jest wymagane, gdy używany jest typ gromadzenia statystyk produktu remote-catalog .

MariaDB nie obsługuje statystyki COLCARD. Jeśli zapytania korzystałyby z tej statystyki, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.

Microsoft SQL Server

Aby gromadzić statystyki tabel lokalnych, należy użyć instrukcji UPDATE STATISTICS , zgodnie z opisem w dokumentacji produktu Microsoft SQL Server . Statystyki dla kolumn typu XML nie są gromadzone. Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .

Microsoft SQL Server gromadzi tylko CARD (liczność tabeli) i COLCARD (liczność kolumny). Nie obsługuje on statystyki HIGH2KEY, LOW2KEYani NUMNULLS. Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.

MySQL

Aby gromadzić statystyki tabel lokalnych, należy użyć instrukcji ANALYZE TABLE , zgodnie z opisem w dokumentacji produktu MySQL . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .

MySQL gromadzi tylko CARD (liczność tabeli) i COLCARD (liczność kolumny). Nie obsługuje on statystyki HIGH2KEY, LOW2KEYani NUMNULLS. Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.

Netezza Performance Server

Aby gromadzić lokalne statystyki tabel, należy użyć komendy GENERATE STATISTICS , zgodnie z opisem w dokumentacji produktu Netezza® . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog . W przypadku obu typów wartości HIGH2KEY i LOW2KEY reprezentują najwyższe i najniższe wartości w tabeli.

Oracle

Aby zgromadzić statystykę tabeli lokalnej, należy użyć komendy ANALYZE zgodnie z opisem w dokumentacji produktu Oracle . Alternatywnie można gromadzić statystyki za pomocą komendy DBMS_STATS.GATHER_TABLE_STATS . Można również skonfigurować automatyczne gromadzenie statystyk w zdalnym źródle danych Oracle . Statystyki nie są gromadzone dla typów LOB. Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog . W przypadku obu typów wartości HIGH2KEY i LOW2KEY reprezentują najwyższe i najniższe wartości w tabeli.

SAP ASE

Aby gromadzić statystyki tabel lokalnych, należy użyć instrukcji UPDATE STATISTICS , zgodnie z opisem w dokumentacji produktu SAP ASE . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .

SAP ASE gromadzi tylko CARD (liczność tabeli). Nie obsługuje on statystyki COLCARD, HIGH2KEY, LOW2KEYani NUMNULLS. Użyj typu gromadzenia danych statystycznych remote-query dla kolumn klucza używanych w predykatach. Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.

SAP HANA

Aby gromadzić statystyki tabel lokalnych, należy użyć instrukcji CREATE STATISTICS ON , zgodnie z opisem w dokumentacji produktu SAP HANA . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .

SAP HANA gromadzi tylko CARD (liczność tabeli) i COLCARD (liczność kolumny). Nie obsługuje on statystyki HIGH2KEY, LOW2KEYani NUMNULLS. Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.

Snowflake

Snowflake nie obsługuje jawnej metody gromadzenia statystyk. Jednak kolumna ROW_COUNT w schemacie INFORMATION_SCHEMA.TABLES przechowuje wartość liczności tabeli (CARD) jako część kolekcji statystyk Watson Query . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .

Snowflake gromadzi tylko CARD (liczność tabeli). Nie obsługuje on statystyki COLCARD, HIGH2KEY, LOW2KEYani NUMNULLS. Użyj typu gromadzenia danych statystycznych remote-query dla kolumn klucza używanych w predykatach. Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.

Teradata

Aby gromadzić lokalne statystyki tabel, należy użyć komendy COLLECT STATISTICS zgodnie z opisem w dokumentacji produktu Teradata . Należy określić opcję THRESHOLD, aby uniknąć nadmiarowej kolekcji statystyk. Jeśli ta opcja jest dostępna, jeśli ilość danych, które uległy zmianie od czasu ostatniego gromadzenia statystyk, znajduje się poniżej określonego progu, lub jeśli statystyki są nowsze niż określony wiek, Teradata nie powoduje ponownego tworzenia statystyk. Statystyki nie są gromadzone dla typu PERIOD (z wyjątkiem wyrażeń BEGIN i END), typu XML, BLOB lub CLOB lub dowolnego typu zdefiniowanego przez użytkownika (innego niż typ geoprzestrzenny). Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .

Opcja Teradata nie obsługuje statystyki HIGH2KEY ani LOW2KEY . Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.

Źródła danych IBM Cloud Object Storage, Amazon S3lub Ceph

Aby gromadzić statystyki dotyczące zwirtualizowanych tabel w źródłach danych IBM® Cloud Object Storage, Amazon S3lub Ceph ® , należy użyć komendy ANALYZE .

Jeśli tabela zawiera dużą ilość danych, należy określić opcję TABLESAMPLE , aby gromadzić statystyki dla podzbioru danych, tak aby operacja analizy mogła zostać zakończona wcześniej.

Patrz także sekcja Gromadzenie statystyk danych w obiektowej pamięci masowej.

Pliki tekstowe, które nie znajdują się w obiektowej pamięci masowej

Aby gromadzić dane statystyczne na temat zwirtualizowanych tabel w plikach tekstowych przy użyciu metody gromadzenia danych statystycznych opartych na danych, należy użyć procedury SYSPROC.NNSTAT procedura składowana.

Patrz także Collecting statistics for flat files not in object storage.

Wszystkie inne obsługiwane źródła danych

Aby gromadzić dane statystyczne dla kolumn klucza predykatu w tabelach zwirtualizowanych dla wszystkich innych źródeł danych, należy użyć procedury składowanej COLLECT_STATISTICS w bazie danych Watson Query.

Typ remote-query jest jedynym obsługiwanym typem gromadzenia danych statystycznych dla tych źródeł danych.

Patrz także sekcja Gromadzenie statystyk dla wszystkich innych źródeł danych.

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more