Data Virtualizationでは、オブジェクト・ストレージ上にファイルとして保存されているデータを仮想化して使用することができます。
以下のオブジェクト・ストレージ・データ・ソース内のファイルのデータを仮想化できます。
- IBM® Cloud Object Storage
- Amazon S3
- Ceph®
- 汎用 S3
1つまたは複数のファイルのデータを分割または結合して、仮想テーブルを作成します。
このタスクについて
Data Virtualizationにおける「Cloud Object Storage」の仮想化ファイルの概要については、以下のビデオをご覧ください。
このビデオでは、本書に記載されている手順を踏む代わりに、視覚的な方法で紹介しています。
手順
- ナビゲーション・メニューで、 をクリックします。
サービス・メニューは、デフォルトで「データ・ソース」ページを開きます。
- サービス・メニューで、 をクリックしてから、 「ファイル」 タブをクリックします。
使用可能なデータ・ソースのリストが表示されます。 使用可能なフィルターを使用して、表示される資産を絞り込むことができます。
データ・ソース接続のセットアップ時にバケット名を指定した場合は、 をクリックしてオブジェクト・ストレージ接続の詳細を展開し、 「サービス・タイプ」 および 「バケット」 情報を表示します。 データ・ソース接続のセットアップ時にバケット名を指定しなかった場合は、「バケット」 入力フィールドを使用して、エンドポイントの特定のバケットを検索できます。
データ・ソースのリストが表示されない場合は、 「最新表示」をクリックします。
- ファイルおよびファイル・パスを参照するObject Storageエンドポイントを選択します。
Cloud Object Storageの場合、エンドポイントはObject Storageの URL です。
エンドポイント内のファイル・パスまたはバケットのリストが表示されます。 ファイル・パス構造をナビゲートすることも、
をクリックしてファイル・パス内の最初のファイルの内容の詳細を表示することもできます。
カートにバケットを追加することはできません。 カートにファイル・パスを追加するには、パス内のファイルをプレビューするファイル・パスを選択してから、カートに追加をクリックする必要があります。 バケット・レベルでファイルを選択することはできません。バケット内のファイル・パスにファイルを追加する必要があります。
- 仮想化するファイルまたはファイル・パスを選択し、 「カートに追加」をクリックします。
重要:
- 複数のファイルを含むファイル・パス内の単一ファイルを仮想化することはできません。 URL は、ファイルが配置されている親パスに解決され、ファイル・パス全体が仮想化されます。 単一のファイルを仮想化する場合は、そのファイルを別のファイル・パスに移動できます。 別個のファイル・パスは、仮想化された他のファイル・パスのサブファイル・パスであってはなりません。
- 仮想化するファイルは、バケットと同じレベルではなく、ファイル・パス内になければなりません。 例えば、ファイル s3a://mynewbigsqlbucket/mydata.csv を仮想化することはできません。仮想化プロセスはパスなしのバケット名だけでは外部表を作成できないため、mydata.csv をファイル・パスに入れて、s3a://mynewbigsqlbucket/fi1epath1/mydata.csv を仮想化する必要があります。
- ファイル・データ選択を仮想ファイルとしてプレビューするには、 「カートの表示」 をクリックします。
- 推奨: パーティション化された列のタイプを STRING からより適切なものに更新します。 パフォーマンスを最適化するためには、パーティション列の適切なタイプを手作業で検査し指定します。
- オプション: をクリックし、 「列の編集」を選択します。
ドロップダウン・メニューを使用して、 「パーティション列」 としてタグ付けされていない列名を編集したり、列タイプを変更したりすることができます。 編集内容に問題がなければ、「Apply」をクリックします。 テーブルを仮想化すると、更新されたカラム名が表示されます。注: IBM Cloud Object Storage で日本語データを使用して JSON ファイルを仮想化し、日本語の列名が正しく表示されない場合は、
allownonalphanumeric
オプションを使用して、仮想化された日本語の列見出しを正しく表示することができます。 このオプションはデフォルトで無効になっているため、有効にする必要があります。 詳しくは、
日本語の列名が仮想化データで正しく表示されないを参照してください。
- ファイル・データから作成される仮想表に割り当てる適切なオプションを以下から選択します。
割り当て先 |
このオプションを使用する条件 |
Project |
特定のプロジェクトで使用する仮想表を作成した場合は、 「プロジェクト」 を選択します。 次に、該当するプロジェクトを選択します。 テーブルは 仮想化データにも表示されます。 |
仮想化データ |
特定のプロジェクトで使用する表が作成されていない場合は、 「仮想化データ」 を選択します。 この設定は、プロジェクトが存在しない場合のデフォルトです。 |
- 選択したカタログにも公開する場合は、 「カタログに公開」 を選択します。
使用可能なカタログのリストがドロップダウン・メニューに表示されます。 各カタログには、
「ガバナンス対象」 または
「ガバナンス対象外」のタグが付けられます。
注: IBM Knowledge Catalogに少なくとも1つのカタログが必要です。
カタログに公開する権限が必要です。 管理者は、選択されたガバナンス対象カタログにすべての仮想オブジェクトを公開するかどうかを有効にすることができ、ユーザーが指定されたカタログに公開するのを防ぐことができます。
- 「スキーマ」 フィールドにスキーマを指定します。
以下のステップに従ってスキーマを作成することもできます。
- Data Virtualization EngineerまたはUserのロールがある場合は、 Schemaフィールドをデフォルトのままにして、ユーザーIDでスキーマを作成します。
- Data Virtualization Managerロールがある場合は、 Schemaフィールドをデフォルトのままにしてユーザー ID でスキーマを作成するか、Schemaフィールドに新しいスキーマ名を入力します。
- プロセスを完了するには、 「仮想化」 をクリックします。
状況ウィンドウが表示されたら、仮想化データを表示するか、さらにデータを仮想化するかを選択できます。