Tworzenie zwirtualizowanej tabeli z plików w obszarze Cloud Object Storage w programie Watson Query

Translation not up to date

The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.

Go back to the English version of the documentation

Tworzenie zwirtualizowanej tabeli z plików w katalogu Cloud Object Storage w programie Watson Query

Last updated: 15 maj 2023

Tworzenie zwirtualizowanej tabeli z plików w obszarze Cloud Object Storage w programie Watson Query

Do tworzenia tabel wirtualnych można użyć danych zapisanych w postaci plików w IBM® Cloud Object Storage, Amazon S3lub Ceph ® . Segmentuj lub połącz dane z jednego lub większej liczby plików w celu utworzenia tabeli wirtualnej.

Zanim rozpoczniesz

Aby uzyskać dostęp do danych w obiektowej pamięci masowej w chmurze, należy utworzyć połączenie ze źródłem danych, w którym znajdują się pliki, takie jak Amazon S3, Cephlub IBM Cloud Object Storage. Więcej informacji na temat źródeł danych obiektowej pamięci masowej zawiera sekcja Źródła danych w obiektowej pamięci masowej w programie Watson Query.

O tym zadaniu

Obejrzyj poniższy film wideo w celu zapoznania się z przeglądem plików zwirtualizowanych w programie Cloud Object Storage w programie Watson Query.

Ten film wideo udostępnia metodę wizualną jako alternatywę dla poniższych kroków opisowych w tej dokumentacji.

Procedura

W menu nawigacyjnym kliknij opcję Dane > Data virtualization.
Domyślnie menu usług zostanie otwarte na stronie Źródła danych .
W menu usługi: kliknij opcję Wirtualizacja > Wirtualizacja , a następnie kliknij kartę Pliki .
Zostanie wyświetlona lista dostępnych źródeł danych. Możliwe jest zawężenie wyświetlanych zasobów aplikacyjnych przy użyciu dostępnych filtrów.
Jeśli podczas konfigurowania połączenia ze źródłem danych podano nazwę porcji, kliknij przycisk , aby rozwinąć szczegóły połączenia obiektowej pamięci masowej, aby wyświetlić informacje o typie usługi i Bukiecie . Jeśli podczas konfigurowania połączenia ze źródłem danych nie podano nazwy porcji, można użyć pola wejściowego Bucket w celu znalezienia konkretnego zasobnika w punkcie końcowym.

Jeśli lista źródeł danych nie jest wyświetlana, kliknij przycisk Odśwież.
Wybierz punkt końcowy obiektowej pamięci masowej, w którym mają być przeglądane pliki i ścieżki plików.
W przypadku opcji Cloud Object Storagepunkt końcowy jest adresem URL dla pamięci masowej obiektu.
Zostanie wyświetlona lista ścieżek do plików lub zasobników w punkcie końcowym. Można przejść przez strukturę ścieżki pliku lub kliknąć przycisk , aby wyświetlić szczegółowe informacje na temat zawartości pierwszego pliku w ścieżce do pliku.
Nie można dodać zasobnika do koszyka. Aby dodać ścieżkę do pliku do koszyka, należy wybrać ścieżkę do pliku w celu wyświetlenia podglądu plików w ścieżce, a następnie kliknąć opcję Dodaj do koszyka. Nie można wybrać pliku na poziomie porcji, należy dodać ten plik do ścieżki do pliku w porcji.
Wybierz plik lub ścieżkę do pliku, który ma być wirtualizowany, a następnie kliknij opcję Dodaj do koszyka.
Ważne:
- Nie można zwirtualizować pojedynczego pliku w ścieżce do pliku, która zawiera wiele plików. Adres URL jest tłumaczony na ścieżkę nadrzędną, w której znajduje się plik, a cała ścieżka do pliku jest zwirtualizowana. Jeśli chcesz zwirtualizować pojedynczy plik, możesz przenieść go do osobnego katalogu. Osobny katalog nie może być podkatalogiem żadnego innego katalogu, który jest lub będzie, zwirtualizowany.
- Pliki, które mają być wirtualizowane, muszą znajdować się w ścieżce do pliku, a nie na tym samym poziomie co zasobnik. Na przykład nie można zwirtualizować pliku s3a://mynewbigsqlbucket/mydata.csv. Należy umieścić mydata.csv w ścieżce pliku i wirtualizować s3a://mynewbigsqlbucket/fi1epath1/mydata.csv , ponieważ proces wirtualizacji nie może utworzyć tabeli zewnętrznej przy użyciu tylko nazwy porcji bez ścieżki.
Kliknij opcję Wyświetl koszyk , aby wyświetlić podgląd wyborów danych pliku jako pliku wirtualnego.
W tym oknie można edytować nazwy schematów, wyświetlać podgląd plików, które biorą udział w scalonym tabeli, lub usunąć zaznaczenie z koszyka.
Jeśli jest zainstalowany produkt Watson™ Knowledge Catalog , można opublikować tabelę wirtualną w katalogu. Więcej informacji na ten temat zawiera sekcja Publikowanie wirtualnych danych w katalogu w produkcie Watson Query.
Zalecane: aktualizacja typu partycjonowanych kolumn z łańcucha STRING do czegoś bardziej odpowiedniego. Sprawdź ręcznie i określ odpowiednie typy kolumn partycjonowania, aby uzyskać najlepszą wydajność.
Opcjonalnie: Kliknij przycisk i wybierz opcję Modyfikuj kolumny.
Za pomocą menu rozwijanego można edytować dowolną nazwę kolumny, która nie jest oznaczana jako Kolumna partycjonowania , a następnie zmieniać typy kolumn. Jeśli edycje są szczęśliwe, kliknij przycisk Zastosuj. Zaktualizowane nazwy kolumn są wyświetlane po wirtualizowaniu tabeli.
Uwaga:

Nazwy kolumn w języku japońskim nie są wyświetlane poprawnie

W przypadku wirtualizowania plików JSON z danymi japońskimi w produkcie IBM Cloud Object Storagenazwy kolumn w języku japońskim mogą być tłumaczone na wartości szesnastkowe. Aby rozwiązać ten problem, można użyć opcji allownonalphanumeric . Jednak opcja allownonalphanumeric jest domyślnie wyłączona, a użytkownik musi skontaktować się z działem wsparciaIBM® Cloud , aby otworzyć zgłoszenie, w którym opcja ta ma włączoną opcję.

Wybierz odpowiednią opcję, aby przypisać tabelę wirtualną, która ma zostać utworzona na podstawie danych pliku:

Przypisane do	Kiedy używać tej opcji
Projekt	Wybierz opcję Projekt , jeśli tabela wirtualna została utworzona w celu użycia w konkretnym projekcie. Następnie wybierz odpowiedni projekt. Tabela jest również wyświetlana w sekcji Wirtualizowane dane.
Wirtualizowane dane	Wybierz opcję Wirtualizowane dane , jeśli tabela nie została utworzona w celu użycia w konkretnym projekcie. To ustawienie jest domyślne, jeśli nie istnieją żadne projekty.

Wybierz opcję Publikuj w katalogu , jeśli chcesz również opublikować go w wybranym katalogu.
Lista dostępnych katalogów jest wyświetlana w menu rozwijanym. Każdy katalog jest oznaczony jako Governed lub Not zarządzanej.
Uwaga: Użytkownik musi mieć co najmniej jeden katalog w katalogu Watson Knowledge Catalog.
Użytkownik musi mieć uprawnienia do publikowania w katalogu. Administrator może włączyć, czy wszystkie obiekty wirtualne są publikowane do wybranego katalogu zarządzanego, co uniemożliwia użytkownikowi publikowanie do określonego katalogu.
Określ schemat w polu Schemat .
Aby utworzyć schemat, wykonaj następujące kroki.
- Jeśli użytkownik ma przypisaną rolę Watson Query Engineer lub User , pozostaw pole Schemat jako domyślne, aby utworzyć schemat z identyfikatorem użytkownika.
- Jeśli użytkownik ma przypisaną rolę Watson Query Manager , pozostaw pole Schemat jako domyślne, aby utworzyć schemat z identyfikatorem użytkownika lub wprowadź nową nazwę schematu w polu Schemat .
Więcej informacji na ten temat zawiera sekcja Tworzenie schematów dla obiektów wirtualnych.
Kliknij opcję Wirtualizuj , aby zakończyć proces.
Po wyświetleniu okna statusu można wybrać, aby wyświetlić zwirtualizowane dane lub wirtualizować więcej danych.

Co dalej

Wyświetl strukturę tabeli i metadane.
Edytuj nazwy kolumn i typy zasobów pamięci masowej obiektów, aby można było przygotować dokładne dane na potrzeby wirtualizacji.
Zarządzanie dostępem do tabeli.
Zbierz statystykę dla zwirtualizowanej tabeli, aby zoptymalizować wydajność zapytań. Więcej informacji na ten temat zawiera sekcja Gromadzenie statystyk w programie Watson Query.
Opcjonalnie, na stronie Wirtualizowane dane , opublikuj obiekt wirtualny w katalogu. Więcej informacji na ten temat zawiera sekcja Publikowanie wirtualnych danych w katalogu w produkcie Watson Query.