Translation not up to date
Produkt Watson Query obsługuje następujące relacyjne i nierelacyjne źródła danych w systemie IBM Cloud Pak® for Data as a Service.
Nie można połączyć się ze źródłem danych jako połączenie z istniejącym połączeniem platformy, jeśli połączenie platformy korzysta z integracji chmury, Secure Gatewaylub Satellite Link. Funkcje te nie są obsługiwane przez produkt Watson Query podczas nawiązywania połączenia z platformą. Zostanie wyświetlony komunikat o błędzie, który jest podobny doCannot reach the network destination of the data sourceMożna skonfigurować źródło danych przy użyciu integracji z produktem Cloud, Secure Gatewaylub Satellite Link , a następnie podać nazwę hosta lub punkt końcowy IP bezpośrednio do programu Watson Query jako nowe połączenie.
Źródła danych IBM
W poniższej tabeli znajduje się lista źródeł danych IBM® , z którymi można się połączyć z programu Watson Query.
Konektor | Ograniczenia | Dodatkowe informacje |
---|---|---|
IBM Cloud Databases for MongoDB | Opcja Databases for MongoDB jest dostępna jako wersja beta. Następujące typy danych MongoDB są obsługiwane w produkcie Watson Query: INT32, INT64, DOUBLE, STRING, BOOLEAN, DATE i BINARY. | |
IBM Cloud® Databases for MySQL | ||
Bazy danych IBM Cloud dla PostgreSQL | To połączenie jest zoptymalizowane w celu wykorzystania możliwości zapytań w tym źródle danych. |
|
IBM Cloud Object Storage | Aby nawiązać połączenie z tym źródłem danych, należy zapoznać się z sekcji Nawiązywanie połączenia z usługą Cloud Object Storage w systemie Watson Query. W przypadku ograniczeń patrz sekcja Źródła danych w obiektowej pamięci masowej w programie Watson Query. |
|
IBM Watson™ Query | Ważne: Nie należy tworzyć połączenia z instancją produktu Watson Query .
|
|
IBM Data Virtualization Manager for z/OS® | Nie można nawiązać połączenia z programem Data Virtualization Manager for z/OS , jeśli połączenie korzysta z integracji w chmurze, Secure Gatewaylub Satellite Link. Opcje te nie są obsługiwane przez produkt Watson Query. Zostanie wyświetlony komunikat o błędzie, który jest podobny doCannot reach the network destination of the data source. | |
IBM Db2 |
|
To połączenie jest zoptymalizowane w celu wykorzystania możliwości zapytań w tym źródle danych. |
IBM Db2 Big SQL | To połączenie jest zoptymalizowane w celu wykorzystania możliwości zapytań w tym źródle danych. |
|
IBM Db2 for i | ||
IBM Db2 for z/OS | ||
IBM Db2 on Cloud | Typy NCHAR i NVARCHAR nie są obsługiwane w programie Watson Query. | |
IBM Db2 Warehouse | ||
IBM Informix® |
|
|
IBM Netezza® Performance Server |
|
To połączenie jest zoptymalizowane w celu wykorzystania możliwości zapytań w tym źródle danych. |
IBM Planning Analytics | Program Watson Query może wirtualizować tylko widoki TM1® z jednym wymiarem kolumny. Agregacja nie może zostać przesunięta w dół do TM1. Jeśli zapytanie skierowane do programu TM1 zawiera operację agregacyjną, taką jak COUNT, SUM, AVG, MAX, MIN lub GROUP BY, można dodać następującą opcję serwera:
Program Watson Query obsługuje tylko typy danych VARCHAR i DOUBLE w programie TM1. Program TM1 nie rozpoznaje języka SQL. Rodzimy język zapytań programu TM1 to MDX, który nie ma pojęcia "pushdown". Oznacza to, że to źródło danych nie jest skonfigurowane do obsługi optymalnego przekazywania predykatu. |
Źródła danych innych firm
W poniższej tabeli znajduje się lista źródeł danych innych firm, z którymi można się połączyć z programu Watson Query.
Konektor | Ograniczenia | Dodatkowe informacje |
---|---|---|
Amazon RDS for MySQL | Ponieważ baza danych MySQL nie obsługuje izolacji bazy danych, należy utworzyć tylko jedno połączenie z bazą danych w źródle danych MySQL , aby uniknąć duplikowania wierszy na stronie Wirtualizacja . Typy BIT nie są obsługiwane w programie Watson Query. |
|
Amazon RDS for Oracle |
|
To połączenie jest zoptymalizowane w celu wykorzystania możliwości zapytań w tym źródle danych. |
Amazon RDS for PostgreSQL | To połączenie jest zoptymalizowane w celu wykorzystania możliwości zapytań w tym źródle danych. |
|
Amazon Redshift | Typy danych SPATIAL, SKETCH i SUPER są przekształcane w obiekty CLOB w produkcie Watson Query. | To połączenie jest zoptymalizowane w celu wykorzystania możliwości zapytań w tym źródle danych. |
Amazon S3 | Informacje na temat nawiązywania połączenia z tym źródłem danych zawiera sekcja Nawiązywanie połączenia z produktem Amazon S3 w temacie Watson Query. W przypadku zasobników nazw w programie Amazon S3mają zastosowanie określone reguły. Więcej informacji na ten temat zawiera sekcja Bucket naming rules w dokumentacji Amazon S3 . Jeśli w nazwie porcji zostaną włączone kropki, nie można używać adresowania w stylu hosta wirtualnego za pośrednictwem protokołu HTTPS, o ile nie zostanie wykonane własne sprawdzenie poprawności certyfikatu. Certyfikaty bezpieczeństwa, które są używane do wirtualnego hostingu zasobników, nie działają na wiadra z kropkami w ich nazwach. Więcej informacji na ten temat zawiera sekcja Źródła danych w obiektowej pamięci masowej w programie Watson Query. |
|
Apache Derby | To połączenie jest zoptymalizowane w celu wykorzystania możliwości zapytań w tym źródle danych. |
|
Apache Hive |
|
To połączenie jest zoptymalizowane w celu wykorzystania możliwości zapytań w tym źródle danych. |
Ceph | Informacje na temat nawiązywania połączenia z tym źródłem danych zawiera sekcja Nawiązywanie połączenia z produktem Ceph w produkcie Watson Query. Informacje na temat ograniczeń można znaleźć w sekcji Źródła danych w obiektowej pamięci masowej w programie Watson Query. |
|
Cloudera Impala | ||
Ogólne S3 | Uwaga: Ten konektor jest wyświetlany w interfejsie użytkownika, ale nie jest obsługiwany.
|
|
Google BigQuery | Aby nawiązać połączenie z tym źródłem danych, należy zapoznać się z sekcji Nawiązywanie połączenia z produktem Google BigQuery w programie Watson Query.
|
To połączenie jest zoptymalizowane w celu wykorzystania możliwości zapytań w tym źródle danych. |
Greenplum | ||
MariaDB | Typy BIT, LONGTEXT i LONGBLOB nie są obsługiwane w programie Watson Query. Ponieważ program MariaDB nie obsługuje izolacji bazy danych, należy utworzyć tylko jedno połączenie z bazą danych w źródle danych MariaDB , aby uniknąć duplikowania wierszy na stronie Wirtualizowanie . Użytkownik musi mieć uprawnienia administratora dla źródła danych MariaDB dla operacji zaawansowanych, takich jak gromadzenie statystyk. |
To połączenie jest zoptymalizowane w celu wykorzystania możliwości zapytań w tym źródle danych. |
Microsoft Azure Data Lake Storage | Uwaga: Ten konektor jest wyświetlany w interfejsie użytkownika, ale nie jest obsługiwany.
|
|
Microsoft Azure SQL Database | ||
Microsoft SQL Server |
|
To połączenie jest zoptymalizowane w celu wykorzystania możliwości zapytań w tym źródle danych. |
MongoDB | Typy BIT, LONGTEXT i LONGBLOB nie są obsługiwane w programie Watson Query. Użytkownik musi mieć uprawnienia administratora dla źródła danych MongoDB dla operacji zaawansowanych, takich jak gromadzenie statystyk. |
|
MySQL (My SQL Community Edition)
(My SQL Enterprise Edition) |
Ponieważ baza danych MySQL nie obsługuje izolacji bazy danych, należy utworzyć tylko jedno połączenie z bazą danych w źródle danych MySQL , aby uniknąć duplikowania wierszy na stronie Wirtualizacja . Typy BIT nie są obsługiwane w programie Watson Query. |
|
Oracle |
|
To połączenie jest zoptymalizowane w celu wykorzystania możliwości zapytań w tym źródle danych. |
PostgreSQL | To połączenie jest zoptymalizowane w celu wykorzystania możliwości zapytań w tym źródle danych. |
|
Salesforce.com | ||
SAP ASE | ||
SAP OData | Nie można wyświetlić podglądu ani nie tworzyć zapytań do tabel nieczytelnych z następujących przyczyn:
|
|
Snowflake | Informacje na temat łączenia się z tym źródłem danych zawiera sekcja Nawiązywanie połączenia z płatkiem śniegu w programie Watson Query.
|
To połączenie jest zoptymalizowane w celu wykorzystania możliwości zapytań w tym źródle danych. |
Teradata Teradata JDBC Driver 17.00 Copyright (C) 2015-2017 by Teradata. Wszelkie prawa zastrzeżone. IBM udostępnia wbudowane użycie sterownika Teradata JDBC na licencji z serwisu Teradata wyłącznie do użytku w ramach usługi IBM Watson® . |
|
To połączenie jest zoptymalizowane w celu wykorzystania możliwości zapytań w tym źródle danych. |
Źródła danych w obiektowej pamięci masowej w programie Watson Query
Do tworzenia tabel wirtualnych można używać danych zapisanych jako pliki w źródłach danych IBM Cloud Object Storage, Amazon S3lub Ceph . Aby uzyskać dostęp do danych zapisanych w bazie danych IBM Cloud Object Storage, należy utworzyć połączenie ze źródłem danych, w którym znajdują się pliki.
Istnieje możliwość segmentowania lub łączenia danych z jednego lub większej liczby plików w celu utworzenia tabeli wirtualnej. Dostęp do plików w obiektowej pamięci masowej w programie Watson Query jest zbudowany w oparciu o możliwości Db2 Big SQL , które korzystają z obsługi tabel zewnętrznych Hadoop . Więcej informacji na ten temat zawiera sekcja Instrukcja CREATE TABLE (HADOOP).
Użycie notatek
- Zasobnik jest abstrakcją logiczną, która jest używana do udostępniania kontenera danych. Nie istnieje pojęcie folderu w obiektowej pamięci masowej; tylko wiadra i klucze. Porcje mogą być tworzone tylko w interfejsach IBM Cloud Object Storage, Amazon S3lub Ceph . Nie mogą zostać utworzone w programie Watson Query.
- Ścieżka do pliku to pełna ścieżka do pliku, w którym mają być przechowywane dane. Implementacja systemu plików S3 pozwala na traktowanie plików o zerowej długości, takich jak katalogi, a nazwy plików zawierające ukośnik (/) są traktowane jak katalogi zagnieżdżone. Ścieżka do pliku zawiera nazwę porcji, opcjonalną ścieżkę do pliku i nazwę pliku. W obiektowej pamięci masowej ścieżka do pliku jest używana podczas tworzenia tabeli. Wszystkie pliki w tej samej ścieżce przyczyniają się do danych tabeli. Można dodać kolejne dane, dodając inny plik do ścieżki do pliku.
Jeśli dostęp do danych obiektowej pamięci masowej będzie uzyskiwany za pośrednictwem zwirtualizowanej tabeli, pliki, które mają być wirtualizowane, muszą znajdować się w pojedynczej ścieżce pliku i w obrębie pojedynczego zasobnika, a zasobnik musi zawierać co najmniej jeden plik, który zostanie dodany do koszyka. Wszystkie pliki w tej ścieżce pliku będą częścią zwirtualizowanej tabeli. Po dodaniu większej liczby danych do tabeli (nowe pliki są tworzone w ścieżce do pliku), dane będą widoczne podczas uzyskiwania dostępu do zwirtualizowanej tabeli. Wszystkie pliki w ścieżce muszą używać tego samego formatu pliku, aby były one zwirtualizowane jako jedna tabela.
Jeśli pliki mają być wirtualizowane w wielu ścieżkach plików jako jedna tabela, można zwirtualizować zasobnik zawierający wszystkie pliki. Na przykład, jeśli istnieją ścieżki do plików A/B/C/T1a, A/B/C/T1b, A/B/D/T1ci A/B/D/T1d, można zwirtualizować ścieżkę do pliku A/B/. Wszystkie pliki w tej ścieżce i zagnieżdżone ścieżki będą częścią dostępnego obiektu.
Ograniczenia
- Watson Query obsługuje PARQUET (lub PARQUETFILE), ORC (zoptymalizowany wiersz kolumnowy), CSV (wartości rozdzielane przecinkami), TSV (wartości rozdzielane tabulacją) oraz formaty plików JSON. Inne formaty plików nie są obsługiwane.
- W przypadku PARQUET (lub PARQUETFILE) rozszerzenia plików nie są wymagane. Metadane są wyodrębniane z pliku danych.
- W przypadku ORC rozszerzenia plików nie są wymagane. Metadane są wyodrębniane z pliku danych.
- W przypadku plików CSV i TSV rozszerzenie pliku .csv lub .tsv jest wymagane.
- W przypadku plików JSON rozszerzenie pliku .json jest wymagane. Pliki JSON muszą być zakodowane w taki sposób, aby każdy wiersz był poprawnym obiektem JSON. Wiersze muszą być rozdzielone znakiem nowego wiersza (
\n
). Format tekstowy linii JSON, zwany również znakami JSON z ogranicznikami typu newline, jest jedynym obsługiwanym formatem JSON. W tym formacie przechowywane są dane ustrukturyzowane, które mogą być przetwarzane w danym momencie. - Wszystkie inne formaty plików zwracają błąd. Więcej informacji na ten temat zawiera sekcja Komunikat o błędzie w przypadku próby użycia nieobsługiwanego formatu pliku w Cloud Object Storage.
- W przypadku plików tekstowych w formacie CSV, TSV lub JSON obsługiwane jest tylko kodowanie znaków UTF-8 w programie Watson Query. Cloud Object Storage formaty binarne, takie jak ORC lub PARQUET, są niezmienione, ponieważ w przezroczysty sposób kodują typy znaków.
- Nie można utworzyć dwóch obiektów (tabel, schematów lub kolumn) o tej samej nazwie, nawet jeśli używane są identyfikatory z ogranicznikami i mieszana wielkość liter. Na przykład nie można mieć tabeli o nazwie t1 i innej tabeli o nazwie T1. Nazwy te są uważane za zduplikowane nazwy w obiektowej pamięci masowej (Hive). Więcej informacji na ten temat zawiera sekcja Identyfikatory.
- Watson Query nie obsługuje typu danych TIME w zwirtualizowanej tabeli w obiektowej pamięci masowej.
- Program Watson Query nie obsługuje produktu
quotechar
w programie IBM Cloud Object Storage. Podgląd zawiera znaki cudzysłowu w danych kolumny. - W przypadku używania typów danych, takich jak STRING lub TEXT dla kolumn w tabeli zwirtualizowanej, kolumny są definiowane jako VARCHAR (32672), co może mieć wpływ na wydajność i zwiększyć wymagania dotyczące pamięci dla instrukcji, które odwołują się do tabeli. Aby zwiększyć wydajność, należy użyć VARCHAR (n) o określonej długości zamiast łańcucha STRING. Aby zmienić tabelę w celu zdefiniowania odpowiedniej długości dla kolumny, należy użyć następującej składni.
ALTER TABLE <schema>.<table> ALTER COLUMN <col> SET DATA TYPE VARCHAR(<size>)
- Nie ma obsługi skompresowanych plików tekstowych.
- Patrz także sekcja
Ograniczenia
w instrukcji CREATE TABLE (HADOOP). - Przed usunięciem połączenia z obiektem Cloud Object Storagenależy usunąć wszystkie zwirtualizowane tabele w ramach połączenia obiektowej pamięci masowej. Jeśli połączenie zostanie usunięte, a użytkownik podejmie próbę usunięcia tabeli w tym połączeniu, zostanie wyświetlony błąd. Informacje na ten temat zawiera sekcja Komunikat o błędzie referencji podczas usuwania zwirtualizowanej tabeli w pamięci masowej obiektów.
Zwiększanie wydajności
Aby zoptymalizować wydajność zapytań, można gromadzić statystyki dotyczące danych, które są odpytywane. Program Watson Query korzysta z komendy ANALYZE do gromadzenia statystyk dotyczących zwirtualizowanych tabel w pamięci masowej obiektów.
- Zagadnienia dotyczące typów danych
- Aby zwiększyć wydajność zapytań, nie należy używać typu danych STRING lub TEXT. Użyj typu danych VARCHAR (n), z wartością n ustawionym na wartość odpowiednią dla danych kolumny.
- Uwagi dotyczące partycjonowania
- Partycjonowanie danych w celu zwiększenia wydajności zapytań. Partycjonowane dane są grupowane według wspólnego atrybutu. Program Watson Query może wykryć i wykorzystać partycje w celu zmniejszenia ilości danych, które muszą być przetwarzane przez zapytania. Odpytywanie całego zestawu danych może nie być możliwe lub nawet konieczne. Aby zwiększyć wydajność zapytań, należy wykonać zapytanie tylko do partycji, której potrzebujesz.
Domyślnie zakłada się, że partycjonowane kolumny znakowe są kolumnami STRING, a sprawdzoną procedurą jest dokładne zdefiniowanie partycjonowanych typów kolumn.