Translation not up to date
Źródła danych różnią się od siebie w obsłudze gromadzenia statystyk lokalnych i obsługują różne statystyki kolumn. Obsługują one również różne metody gromadzenia statystyk.
- remote-catalog
- Ten typ gromadzenia danych statystycznych jest obsługiwany tylko w przypadku tabel zwirtualizowanych w zdalnych źródłach danych, które obsługują lokalną metodę gromadzenia statystyk. Dane statystyczne zapisane w tabelach katalogu w zdalnym źródle danych są pobierane, a następnie zapisywane w katalogu statystyk Watson Query . Kluczowe znaczenie ma zapewnienie, że dokładne statystyki są dostępne w zdalnym źródle danych. Typ gromadzenia statystyk remote-catalog nie jest obsługiwany w przypadku tabel pogrupowanych.
- remote-query
- Ten typ gromadzenia statystyk używa zapytań SQL dla zwirtualizowanej tabeli w celu obliczenia statystyk. Ten typ może być wymagający użycia zasobów i może zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn.
W poniższej tabeli przedstawiono źródła danych, które obsługują gromadzenie statystyk lokalnych, a także informacje o tym, które statystyki kolumn są dostępne.
Źródło danych | Dostępne podstawowe statystyki | Obsługiwane remote-catalog
|
Obsługiwane remote-query
|
---|---|---|---|
Amazon Redshift | KARTA, KOLCARD, NUMNULLS | ✓ | ✓ |
Cloudera Impala | KARTA, KOLCARD, NUMNULLS. Ostatnie wersje produktu Impala (1.4 i nowsze) nie gromadzą wartości NUMNULLS. | ✓ | ✓ |
Databases for PostgreSQL | KARTA, KOLCARD, NUMNULLS | ✓ | ✓ |
Db2® | CARD, COLCARD, HIGH2KEY, LOW2KEY, NUMNULLS | ✓ | ✓ |
Db2 Big SQL | CARD, COLCARD, HIGH2KEY, LOW2KEY, NUMNULLS | ✓ | ✓ |
Db2 for z/OS | CARD, COLCARD, HIGH2KEY, LOW2KEY | ✓ | ✓ |
Db2 on Cloud | CARD, COLCARD, HIGH2KEY, LOW2KEY, NUMNULLS | ✓ | ✓ |
Greenplum | KARTA, KOLCARD, NUMNULLS | ✓ | ✓ |
Hive | CARD, COLCARD, HIGH2KEY, LOW2KEY, NUMNULLS | ✓ (Nie zalecane)
|
✓ |
Informix | CARD, COLCARD | ✓ | ✓ |
MariaDB | CARD, HIGH2KEY, LOW2KEY, NUMNULLS | ✓ | ✓ |
Microsoft SQL Server | CARD, COLCARD | ✓ | ✓ |
MySQL | CARD, COLCARD | ✓ | ✓ |
Netezza Performance Server | CARD, COLCARD, HIGH2KEY, LOW2KEY, NUMNULLS | ✓ | ✓ |
Oracle | CARD, COLCARD, HIGH2KEY, LOW2KEY, NUMNULLS | ✓ | ✓ |
SAP ASE | CARD | ✓ | ✓ |
SAP HANA | CARD, COLCARD | ✓ | ✓ |
Snowflake | CARD | ✓ | ✓ |
Teradata | KARTA, KOLCARD, NUMNULLS | ✓ | ✓ |
źródła danychIBM Cloud Object Storage, Amazon S3lub Ceph | Więcej informacji na ten temat zawiera sekcja Gromadzenie statystyk danych w pamięci masowej obiektów. | ✓ | |
Pliki tekstowe, które nie znajdują się w obiektowej pamięci masowej | Patrz sekcja Gromadzenie statystyk dla plików tekstowych, które nie są w pamięci masowej obiektów. | ✓ | |
Wszystkie inne obsługiwane źródła danych | Więcej informacji na ten temat zawiera sekcja Gromadzenie statystyk dla wszystkich innych źródeł danych. | Brak obsługi | ✓ |
Amazon Redshift
Aby gromadzić lokalne statystyki tabel, należy użyć komendy ANALYZE zgodnie z opisem w dokumentacji produktu Amazon Redshift . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .
Amazon Redshift nie obsługuje statystyki HIGH2KEY ani LOW2KEY . Ponadto komenda ANALYZE nie gromadzi statystyk dla danych kolumny CHAR i NCHAR, jeśli długość danych kolumny przekracza 1020 bajtów. Jeśli kolumna zawiera tylko wartości NULL, statystyki kolumn nie są gromadzone.
Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.
Cloudera Impala
Aby gromadzić lokalne statystyki tabel, należy użyć instrukcji COMPUTE STATS , zgodnie z opisem w dokumentacji produktu Cloudera Impala . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .
Opcja Cloudera Impala nie obsługuje statystyki HIGH2KEY ani LOW2KEY , a nowsze wersje Impala nie obsługują statystyki NUMNULLS. Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.
Bazy danych dla PostgreSQL
Aby gromadzić lokalne statystyki tabel, należy użyć komendy ANALYZE zgodnie z opisem w dokumentacji produktu PostgreSQL . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .
Parametr PostgreSQL nie obsługuje statystyki HIGH2KEY ani LOW2KEY . Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.
Db2 i Db2 on Cloud
Aby gromadzić statystyki tabel lokalnych dla tych źródeł danych, należy użyć komendy RUNSTATS . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog . W przypadku tego typu wartości HIGH2KEY i LOW2KEY (oznaczające drugą najwyższą i drugą najniższą wartość w tabeli) są kopiowane z katalogu Db2 . W przypadku typu remote-query wartości parametrów HIGH2KEY i LOW2KEY reprezentują najwyższe i najniższe wartości w tabeli.
Db2 Big SQL
Aby zgromadzić statystykę tabeli lokalnej, należy użyć komendy ANALYZE . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog . W przypadku obu typów wartości HIGH2KEY i LOW2KEY reprezentują najwyższe i najniższe wartości w tabeli.
Db2 for z/OS
Aby zgromadzić statystykę tabeli lokalnej, należy użyć komendy RUNSTATS . Statystyki nie są gromadzone dla typów LOB. Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog . W przypadku tej metody wartości HIGH2KEY i LOW2KEY (reprezentujące drugą najwyższą i drugą najniższą wartość w tabeli) są kopiowane z katalogu Db2 . W przypadku typu kolekcji remote-query wartości parametrów HIGH2KEY i LOW2KEY reprezentują najwyższe i najniższe wartości w tabeli.
Baza danych Db2 for z/OS® nie obsługuje statystyki NUMNULLS. Jeśli zapytania korzystałyby z tej statystyki, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.
Greenplum
Aby gromadzić lokalne statystyki tabel, należy użyć komendy ANALYZE , zgodnie z opisem w dokumentacji produktu Greenplum . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .
Opcja Greenplum nie obsługuje statystyki HIGH2KEY ani LOW2KEY . Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.
Hive
Aby gromadzić lokalne statystyki tabel, należy użyć komendy ANALYZE zgodnie z opisem w dokumentacji produktu Hive . Typ gromadzenia danych statystycznych remote-catalog w sekcji Hive nie jest zalecany ze względu na znane problemy z kolekcją statystyk w obszarze Hive. Zamiast tego należy użyć typu kolekcji statystyk produktu remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.
Nie ma wsparcia dla zbierania statystyk dla kolumn zdefiniowanych za pomocą typów złożonych, takich jak typ UNION.
Informix
Aby gromadzić lokalne statystyki tabel, należy użyć instrukcji UPDATE STATISTICS , zgodnie z opisem w dokumentacji produktu Informix® . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .
Baza danych Informix nie obsługuje statystyki HIGH2KEY, LOW2KEYani NUMNULLS. Gromadzi on tylko CARD (liczność tabeli) i COLCARD (liczność kolumny). Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query .. Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.
MariaDB
Aby zgromadzić statystykę tabeli lokalnej, należy użyć komendy ANALYZE zgodnie z opisem w dokumentacji produktu MariaDB . Statystyki dla typu TEXT lub kolumn typu BLOB nie są gromadzone. Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog . Użytkownik musi posiadać uprawnienia administracyjne, aby uzyskać dostęp do statystyk katalogu, co jest wymagane, gdy używany jest typ gromadzenia statystyk produktu remote-catalog .
MariaDB nie obsługuje statystyki COLCARD. Jeśli zapytania korzystałyby z tej statystyki, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.
Microsoft SQL Server
Aby gromadzić statystyki tabel lokalnych, należy użyć instrukcji UPDATE STATISTICS , zgodnie z opisem w dokumentacji produktu Microsoft SQL Server . Statystyki dla kolumn typu XML nie są gromadzone. Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .
Microsoft SQL Server gromadzi tylko CARD (liczność tabeli) i COLCARD (liczność kolumny). Nie obsługuje on statystyki HIGH2KEY, LOW2KEYani NUMNULLS. Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.
MySQL
Aby gromadzić statystyki tabel lokalnych, należy użyć instrukcji ANALYZE TABLE , zgodnie z opisem w dokumentacji produktu MySQL . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .
MySQL gromadzi tylko CARD (liczność tabeli) i COLCARD (liczność kolumny). Nie obsługuje on statystyki HIGH2KEY, LOW2KEYani NUMNULLS. Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.
Netezza Performance Server
Aby gromadzić lokalne statystyki tabel, należy użyć komendy GENERATE STATISTICS , zgodnie z opisem w dokumentacji produktu Netezza® . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog . W przypadku obu typów wartości HIGH2KEY i LOW2KEY reprezentują najwyższe i najniższe wartości w tabeli.
Oracle
Aby zgromadzić statystykę tabeli lokalnej, należy użyć komendy ANALYZE zgodnie z opisem w dokumentacji produktu Oracle . Alternatywnie można gromadzić statystyki za pomocą komendy DBMS_STATS.GATHER_TABLE_STATS . Można również skonfigurować automatyczne gromadzenie statystyk w zdalnym źródle danych Oracle . Statystyki nie są gromadzone dla typów LOB. Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog . W przypadku obu typów wartości HIGH2KEY i LOW2KEY reprezentują najwyższe i najniższe wartości w tabeli.
SAP ASE
Aby gromadzić statystyki tabel lokalnych, należy użyć instrukcji UPDATE STATISTICS , zgodnie z opisem w dokumentacji produktu SAP ASE . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .
SAP ASE gromadzi tylko CARD (liczność tabeli). Nie obsługuje on statystyki COLCARD, HIGH2KEY, LOW2KEYani NUMNULLS. Użyj typu gromadzenia danych statystycznych remote-query dla kolumn klucza używanych w predykatach. Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.
SAP HANA
Aby gromadzić statystyki tabel lokalnych, należy użyć instrukcji CREATE STATISTICS ON , zgodnie z opisem w dokumentacji produktu SAP HANA . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .
SAP HANA gromadzi tylko CARD (liczność tabeli) i COLCARD (liczność kolumny). Nie obsługuje on statystyki HIGH2KEY, LOW2KEYani NUMNULLS. Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.
Snowflake
Snowflake nie obsługuje jawnej metody gromadzenia statystyk. Jednak kolumna ROW_COUNT w schemacie INFORMATION_SCHEMA.TABLES przechowuje wartość liczności tabeli (CARD) jako część kolekcji statystyk Watson Query . Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .
Snowflake gromadzi tylko CARD (liczność tabeli). Nie obsługuje on statystyki COLCARD, HIGH2KEY, LOW2KEYani NUMNULLS. Użyj typu gromadzenia danych statystycznych remote-query dla kolumn klucza używanych w predykatach. Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.
Teradata
Aby gromadzić lokalne statystyki tabel, należy użyć komendy COLLECT STATISTICS zgodnie z opisem w dokumentacji produktu Teradata . Należy określić opcję THRESHOLD, aby uniknąć nadmiarowej kolekcji statystyk. Jeśli ta opcja jest dostępna, jeśli ilość danych, które uległy zmianie od czasu ostatniego gromadzenia statystyk, znajduje się poniżej określonego progu, lub jeśli statystyki są nowsze niż określony wiek, Teradata nie powoduje ponownego tworzenia statystyk. Statystyki nie są gromadzone dla typu PERIOD (z wyjątkiem wyrażeń BEGIN i END), typu XML, BLOB lub CLOB lub dowolnego typu zdefiniowanego przez użytkownika (innego niż typ geoprzestrzenny). Sprawdzona procedura polega na zapewnieniu, że statystyki są gromadzone w zdalnym źródle danych i w celu korzystania z typu kolekcji statystyk produktu remote-catalog .
Opcja Teradata nie obsługuje statystyki HIGH2KEY ani LOW2KEY . Jeśli zapytania korzystałyby z tych statystyk, należy użyć typu gromadzenia danych statystycznych remote-query . Ten typ może być wymagający użycia zasobów i zająć dużo czasu, jeśli zwirtualizowana tabela zawiera wiele wierszy lub statystyk jest zbieranych dla wielu kolumn. Rozważ zbieranie statystyk, gdy system jest mniej zajęty. Unikaj planowania wielu zadań gromadzenia danych statystycznych w tym samym czasie.
Źródła danych IBM Cloud Object Storage, Amazon S3lub Ceph
Aby gromadzić statystyki dotyczące zwirtualizowanych tabel w źródłach danych IBM® Cloud Object Storage, Amazon S3lub Ceph ® , należy użyć komendy ANALYZE .
Jeśli tabela zawiera dużą ilość danych, należy określić opcję TABLESAMPLE , aby gromadzić statystyki dla podzbioru danych, tak aby operacja analizy mogła zostać zakończona wcześniej.
Patrz także sekcja Gromadzenie statystyk danych w obiektowej pamięci masowej.
Pliki tekstowe, które nie znajdują się w obiektowej pamięci masowej
Aby gromadzić dane statystyczne na temat zwirtualizowanych tabel w plikach tekstowych przy użyciu metody gromadzenia danych statystycznych opartych na danych, należy użyć procedury SYSPROC.NNSTAT procedura składowana.
Patrz także Collecting statistics for flat files not in object storage.
Wszystkie inne obsługiwane źródła danych
Aby gromadzić dane statystyczne dla kolumn klucza predykatu w tabelach zwirtualizowanych dla wszystkich innych źródeł danych, należy użyć procedury składowanej COLLECT_STATISTICS w bazie danych Watson Query.
Typ remote-query jest jedynym obsługiwanym typem gromadzenia danych statystycznych dla tych źródeł danych.
Patrz także sekcja Gromadzenie statystyk dla wszystkich innych źródeł danych.