Data Virtualizationで「Cloud Object Storage」のファイルから仮想化テーブルを作成する

最終更新: 2025年3月21日
Data Virtualizationにおける Cloud Object Storageのファイルからの仮想化テーブルの作成
Data Virtualization では、オブジェクトストレージにファイルとして保存されているデータを仮想化して使用することができます。 次のオブジェクトストレージデータソース内のファイルのデータを仮想化できます。1つまたは複数のファイルからデータを分割または結合して、仮想テーブルを作成します。

始める前に

クラウド・オブジェクト・ストレージ内のデータにアクセスするには、ファイルが配置されているデータ・ソースへの接続を作成する必要があります。 オブジェクトストレージデータソースの詳細については、 オブジェクトストレージ内のデータソース Data Virtualization をご覧ください。

このタスクについて

Data Virtualizationにおける「Cloud Object Storage」の仮想化ファイルの概要については、以下のビデオをご覧ください。

このビデオでは、このドキュメントのコンセプトとタスクを視覚的に学習する方法を提供しています。

手順

  1. ナビゲーションメニューで、 「データ 」> Data virtualization サービスメニューを表示します。
    サービス・メニューは、デフォルトで「データ・ソース」ページを開きます。
  2. サービスメニューで、 仮想化 > 仮想化の順にクリックし、次にファイルタブをクリックします。
    使用可能なデータ・ソースのリストが表示されます。 使用可能なフィルターを使用して、表示される資産を絞り込むことができます。

    データソース接続の設定時にバケット名を指定した場合は、 下向きのシェブロン・アイコン をクリックしてオブジェクトストレージ接続の詳細を展開し、 サービスタイプバケット情報を確認します。 データ・ソース接続のセットアップ時にバケット名を指定しなかった場合は、「バケット」 入力フィールドを使用して、エンドポイントの特定のバケットを検索できます。

    データソースのリストが表示されない場合は、 更新ボタンをクリックしてください。最新表示アイコン

  3. ファイルおよびファイル・パスを参照するObject Storageエンドポイントを選択します。
    Cloud Object Storageの場合、エンドポイントはObject Storageの URL です。
    エンドポイント内のファイル・パスまたはバケットのリストが表示されます。 ファイルパス構造をナビゲートすることもできますし、 ビュー・アイコン をクリックして、ファイルパスの最初のファイルの内容の詳細を確認することもできます。

    カートにバケットを追加することはできません。 カートにファイル・パスを追加するには、パス内のファイルをプレビューするファイル・パスを選択してから、カートに追加をクリックする必要があります。 バケット・レベルでファイルを選択することはできません。バケット内のファイル・パスにファイルを追加する必要があります。

  4. 仮想化するファイルまたはファイル・パスを選択し、 「カートに追加」をクリックします。
    重要:
    • 複数のファイルを含むファイル・パス内の単一ファイルを仮想化することはできません。 URL は、ファイルが配置されている親パスに解決され、ファイル・パス全体が仮想化されます。 単一のファイルを仮想化する場合は、そのファイルを別のファイル・パスに移動できます。 別個のファイル・パスは、仮想化された他のファイル・パスのサブファイル・パスであってはなりません。
    • 仮想化するファイルは、バケットと同じレベルではなく、ファイル・パス内になければなりません。 例えば、ファイル s3a://mynewbigsqlbucket/mydata.csv を仮想化することはできません。仮想化プロセスはパスなしのバケット名だけでは外部表を作成できないため、mydata.csv をファイル・パスに入れて、s3a://mynewbigsqlbucket/fi1epath1/mydata.csv を仮想化する必要があります。
  5. ファイル・データ選択を仮想ファイルとしてプレビューするには、 「カートの表示」 をクリックします。
    このウィンドウでは、スキーマ名の編集、マージされたテーブルに含まれるファイルのプレビュー、カートからの選択の削除を行うことができます。

    IBM Knowledge Catalog をインストールしている場合、仮想テーブルをカタログに公開することができます。 詳細については、 仮想データをカタログに公開する Data Virtualization をご覧ください。

  6. 推奨: パーティション化された列のタイプを STRING からより適切なものに更新します。 パフォーマンスを最適化するためには、パーティション列の適切なタイプを手作業で検査し指定します。
  7. オプション: オーバーフロー・メニュー・アイコン をクリックし、 列の編集を選択します
    ドロップダウン・メニューを使用して、 「パーティション列」 としてタグ付けされていない列名を編集したり、列タイプを変更したりすることができます。 編集内容に問題がなければ、「Apply」をクリックします。 テーブルを仮想化すると、更新されたカラム名が表示されます。
    注: IBM Cloud Object Storage で日本語データを使用して JSON ファイルを仮想化し、日本語の列名が正しく表示されない場合は、 allownonalphanumeric オプションを使用して、仮想化された日本語の列見出しを正しく表示することができます。 このオプションはデフォルトで無効になっているため、有効にする必要があります。 詳細は、 仮想化データでは日本語の列名が正しく表示されないを参照してください。
  8. 仮想化されたテーブルに適切な共有オプションを選択します。
  9. 選択したカタログにも公開する場合は、 「カタログに公開」 を選択します。
    使用可能なカタログのリストがドロップダウン・メニューに表示されます。 各カタログには、「ガバナンス対象」 または 「ガバナンス対象外」のタグが付けられます。
    注: IBM Knowledge Catalog に少なくとも1つのカタログを用意する必要があります。

    カタログに公開する権限が必要です。 管理者は、選択されたガバナンス対象カタログにすべての仮想オブジェクトを公開するかどうかを有効にすることができ、ユーザーが指定されたカタログに公開するのを防ぐことができます。

  10. 「スキーマ」 フィールドにスキーマを指定します。
    以下のステップに従ってスキーマを作成することもできます。
    • Data Virtualization EngineerまたはUserのロールがある場合は、 Schemaフィールドをデフォルトのままにして、ユーザーIDでスキーマを作成します。
    • Data Virtualization Managerロールがある場合は、 Schemaフィールドをデフォルトのままにしてユーザー ID でスキーマを作成するか、Schemaフィールドに新しいスキーマ名を入力します。
    詳しくは、仮想オブジェクトのスキーマの作成を参照してください。
  11. プロセスを完了するには、 「仮想化」 をクリックします。
    状況ウィンドウが表示されたら、仮想化データを表示するか、さらにデータを仮想化するかを選択できます。

次の作業

  • 表の構造とメタデータを表示します。
  • 表へのアクセスを管理します。
  • 仮想化のために正確なデータを準備できるように、オブジェクト・ストレージ資産の列名とタイプを編集します。
  • 仮想表の統計を収集して、照会のパフォーマンスを最適化します。 詳しくは、Data Virtualization での統計の収集を参照してください。
  • 仮想化データ ページで、仮想オブジェクトをカタログに公開することもできます。 詳細については、 仮想データをカタログに公開する Data Virtualization をご覧ください。