0 / 0
資料の 英語版 に戻る
Data Virtualizationで「Cloud Object Storage」のファイルから仮想化テーブルを作成する
最終更新: 2024年11月26日
Data Virtualizationにおける Cloud Object Storageのファイルからの仮想化テーブルの作成

Data Virtualizationでは、オブジェクト・ストレージ上にファイルとして保存されているデータを仮想化して使用することができます。

以下のオブジェクト・ストレージ・データ・ソース内のファイルのデータを仮想化できます。
  • IBM® Cloud Object Storage
  • Amazon S3
  • Ceph®
  • 汎用 S3
1つまたは複数のファイルのデータを分割または結合して、仮想テーブルを作成します。

始める前に

クラウド・オブジェクト・ストレージ内のデータにアクセスするには、ファイルが配置されているデータ・ソースへの接続を作成する必要があります。 オブジェクト・ストレージのデータ・ソースの詳細については、 Data Virtualization化のオブジェクト・ストレージのデータ・ソースを参照。

このタスクについて

Data Virtualizationにおける「Cloud Object Storage」の仮想化ファイルの概要については、以下のビデオをご覧ください。

このビデオでは、本書に記載されている手順を踏む代わりに、視覚的な方法で紹介しています。

手順

  1. ナビゲーション・メニューで、 「データ」 > Data virtualizationをクリックします。
    サービス・メニューは、デフォルトで「データ・ソース」ページを開きます。
  2. サービス・メニューで、 「仮想化」 > 「仮想化」 をクリックしてから、 「ファイル」 タブをクリックします。
    使用可能なデータ・ソースのリストが表示されます。 使用可能なフィルターを使用して、表示される資産を絞り込むことができます。

    データ・ソース接続のセットアップ時にバケット名を指定した場合は、 下向きのシェブロン・アイコン をクリックしてオブジェクト・ストレージ接続の詳細を展開し、 「サービス・タイプ」 および 「バケット」 情報を表示します。 データ・ソース接続のセットアップ時にバケット名を指定しなかった場合は、「バケット」 入力フィールドを使用して、エンドポイントの特定のバケットを検索できます。

    データ・ソースのリストが表示されない場合は、 「最新表示」最新表示アイコンをクリックします。

  3. ファイルおよびファイル・パスを参照するObject Storageエンドポイントを選択します。
    Cloud Object Storageの場合、エンドポイントはObject Storageの URL です。
    エンドポイント内のファイル・パスまたはバケットのリストが表示されます。 ファイル・パス構造をナビゲートすることも、 ビュー・アイコン をクリックしてファイル・パス内の最初のファイルの内容の詳細を表示することもできます。

    カートにバケットを追加することはできません。 カートにファイル・パスを追加するには、パス内のファイルをプレビューするファイル・パスを選択してから、カートに追加をクリックする必要があります。 バケット・レベルでファイルを選択することはできません。バケット内のファイル・パスにファイルを追加する必要があります。

  4. 仮想化するファイルまたはファイル・パスを選択し、 「カートに追加」をクリックします。
    重要:
    • 複数のファイルを含むファイル・パス内の単一ファイルを仮想化することはできません。 URL は、ファイルが配置されている親パスに解決され、ファイル・パス全体が仮想化されます。 単一のファイルを仮想化する場合は、そのファイルを別のファイル・パスに移動できます。 別個のファイル・パスは、仮想化された他のファイル・パスのサブファイル・パスであってはなりません。
    • 仮想化するファイルは、バケットと同じレベルではなく、ファイル・パス内になければなりません。 例えば、ファイル s3a://mynewbigsqlbucket/mydata.csv を仮想化することはできません。仮想化プロセスはパスなしのバケット名だけでは外部表を作成できないため、mydata.csv をファイル・パスに入れて、s3a://mynewbigsqlbucket/fi1epath1/mydata.csv を仮想化する必要があります。
  5. ファイル・データ選択を仮想ファイルとしてプレビューするには、 「カートの表示」 をクリックします。
    このウィンドウでは、スキーマ名の編集、マージされたテーブルに含まれるファイルのプレビュー、カートからの選択の削除を行うことができます。

    IBM Knowledge Catalogインストールされていれば、仮想テーブルをカタログに公開できます。 詳細については、Data Virtualization化のカタログへの仮想データのパブリッシュを参照してください。

  6. 推奨: パーティション化された列のタイプを STRING からより適切なものに更新します。 パフォーマンスを最適化するためには、パーティション列の適切なタイプを手作業で検査し指定します。
  7. オプション: オーバーフロー・メニュー・アイコン をクリックし、 「列の編集」を選択します。
    ドロップダウン・メニューを使用して、 「パーティション列」 としてタグ付けされていない列名を編集したり、列タイプを変更したりすることができます。 編集内容に問題がなければ、「Apply」をクリックします。 テーブルを仮想化すると、更新されたカラム名が表示されます。
    注: IBM Cloud Object Storage で日本語データを使用して JSON ファイルを仮想化し、日本語の列名が正しく表示されない場合は、 allownonalphanumeric オプションを使用して、仮想化された日本語の列見出しを正しく表示することができます。 このオプションはデフォルトで無効になっているため、有効にする必要があります。 詳しくは、 日本語の列名が仮想化データで正しく表示されないを参照してください。
  8. ファイル・データから作成される仮想表に割り当てる適切なオプションを以下から選択します。
    割り当て先 このオプションを使用する条件
    Project 特定のプロジェクトで使用する仮想表を作成した場合は、 「プロジェクト」 を選択します。 次に、該当するプロジェクトを選択します。 テーブルは 仮想化データにも表示されます。
    仮想化データ 特定のプロジェクトで使用する表が作成されていない場合は、 「仮想化データ」 を選択します。 この設定は、プロジェクトが存在しない場合のデフォルトです。
  9. 選択したカタログにも公開する場合は、 「カタログに公開」 を選択します。
    使用可能なカタログのリストがドロップダウン・メニューに表示されます。 各カタログには、「ガバナンス対象」 または 「ガバナンス対象外」のタグが付けられます。
    注: IBM Knowledge Catalogに少なくとも1つのカタログが必要です。

    カタログに公開する権限が必要です。 管理者は、選択されたガバナンス対象カタログにすべての仮想オブジェクトを公開するかどうかを有効にすることができ、ユーザーが指定されたカタログに公開するのを防ぐことができます。

  10. 「スキーマ」 フィールドにスキーマを指定します。
    以下のステップに従ってスキーマを作成することもできます。
    • Data Virtualization EngineerまたはUserのロールがある場合は、 Schemaフィールドをデフォルトのままにして、ユーザーIDでスキーマを作成します。
    • Data Virtualization Managerロールがある場合は、 Schemaフィールドをデフォルトのままにしてユーザー ID でスキーマを作成するか、Schemaフィールドに新しいスキーマ名を入力します。
    詳しくは、仮想オブジェクトのスキーマの作成を参照してください。
  11. プロセスを完了するには、 「仮想化」 をクリックします。
    状況ウィンドウが表示されたら、仮想化データを表示するか、さらにデータを仮想化するかを選択できます。

次の作業

  • 表の構造とメタデータを表示します。
  • 表へのアクセスを管理します。
  • 仮想化のために正確なデータを準備できるように、オブジェクト・ストレージ資産の列名とタイプを編集します。
  • 仮想表の統計を収集して、照会のパフォーマンスを最適化します。 詳しくは、Data Virtualization での統計の収集を参照してください。
  • 仮想化データ ページで、仮想オブジェクトをカタログに公開することもできます。 詳細については、Data Virtualization化のカタログへの仮想データのパブリッシュを参照してください。

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細