0 / 0
Go back to the English version of the documentation
在Data Virtualization中根据 "Cloud Object Storage中的文件创建虚拟表
Last updated: 2024年11月26日
在Data Virtualization Cloud Object Storage中从文件创建虚拟表

Data Virtualization中,您可以虚拟化并使用以文件形式存储在对象存储上的数据。

您可以在以下对象存储数据源中虚拟化文件中的数据:
  • IBM® Cloud Object Storage
  • Amazon S3
  • Ceph®
  • 通用 S3
对来自一个或多个文件的数据进行分段或组合以创建虚拟表。

准备工作

要访问云对象存储器中的数据,必须创建与文件所在数据源的连接。 有关对象存储数据源的更多信息,请参阅 Data Virtualization中对象存储中的数据源

关于本任务

观看以下视频,了解Data Virtualization中 "Cloud Object Storage的虚拟化文件概述。

除了遵循本文档中的书面步骤,您还可以观看此视频了解相关操作。

过程

  1. 在导航菜单上,单击 数据 > Data virtualization
    缺省情况下,服务菜单将打开到 " 数据源 " 页面。
  2. 在服务菜单上,单击 虚拟化 > 虚拟化 ,然后单击 文件 选项卡。
    这样会显示可用数据源的列表。 您可以使用可用过滤器来缩小显示的资产的范围。

    如果在设置数据源连接时指定了存储区名称,请单击 向下 V 形图标 以展开对象存储器连接详细信息,以查看 服务类型存储区 信息。 如果在设置数据源连接时未指定存储区名称,那么可以使用 存储区 输入字段在端点中查找特定存储区。

    如果未显示数据源列表,请单击 刷新刷新图标

  3. 选择要在其中浏览文件和文件路径的对象存储器端点。
    对于 Cloud Object Storage,端点是对象存储器的 URL。
    将显示端点中的文件路径或存储区的列表。 您可以浏览文件路径结构,也可以单击 视图图标 以查看文件路径中第一个文件的内容详细信息。

    无法将存储区添加到购物车。 要将文件路径添加到购物车,必须选择文件路径以预览路径中的文件,然后单击 添加到购物车。 不能在存储区级别选择文件,必须将该文件添加到存储区中的文件路径。

  4. 选择要虚拟化的文件或文件路径,然后单击 添加到购物车
    重要说明:
    • 不能虚拟化包含多个文件的文件路径中的单个文件。 URL 解析为文件所在的父路径,并且整个文件路径已虚拟化。 如果要虚拟化单个文件,可以将其移至单独的文件路径。 单独的文件路径不得是已虚拟化或将虚拟化的任何其他文件路径的子文件路径。
    • 要虚拟化的文件必须位于文件路径中,而不是与存储区处于同一级别。 例如,无法虚拟化文件 s3a://mynewbigsqlbucket/mydata.csv; 必须将 mydata.csv 放入文件路径并虚拟化 s3a://mynewbigsqlbucket/fi1epath1/mydata.csv ,因为虚拟化过程无法仅使用没有路径的存储区名称来创建外部表。
  5. 单击 查看购物车 以预览作为虚拟文件的文件数据选择。
    在此窗口中,您可以编辑模式名称,预览参与合并表的文件,或者从购物车中除去选择。

    如果安装了IBM Knowledge Catalog,就可以将虚拟表发布到目录中。 有关详细信息,请参阅 Data Virtualization中的将虚拟数据发布到目录

  6. 建议: 将 STRING 中的分区列类型更新为更合适的内容。 手动检查并指定分区列的正确类型以获取最佳性能。
  7. 可选: 单击 溢出菜单图标 ,然后选择 编辑列
    您可以编辑未标记为 分区列 的任何列名,并使用下拉菜单更改列类型。 当您对编辑感到满意时,请单击 应用。 将表虚拟化后,将显示已更新的列名。
    注: 使用 IBM Cloud Object Storage 上的日语数据虚拟化 JSON 文件时,如果未正确显示日语列名,那么可以使用 allownonalphanumeric 选项来正确查看虚拟化日语列标题。 缺省情况下,此选项处于禁用状态,您必须将其启用。 有关更多信息,请参阅 未在虚拟化数据中正确显示日语列名
  8. 选择相应的选项以分配要基于文件数据创建的虚拟表:
    分配目标 何时使用此选项
    Project 如果已创建要在特定项目中使用的虚拟表,请选择 项目 。 然后,选择相应的项目。 该表还显示在 虚拟化数据中。
    虚拟化数据 如果未创建要在特定项目中使用的表,请选择 虚拟化数据 。 如果不存在任何项目,那么此设置是缺省设置。
  9. 如果还想要发布到所选目录,请选择 发布到目录
    下拉菜单中显示了可用目录的列表。 每个目录都标记为 受管不受管
    注意:您必须在IBM Knowledge Catalog中至少有一个目录。

    您必须有权发布到目录。 管理员可以启用是否将所有虚拟对象发布到所选受管目录,这将阻止用户发布到指定目录。

  10. 模式 字段中指定模式。
    您还可以通过执行以下步骤来创建模式。
    • 如果您具有Data Virtualization 工程师用户角色,请模式字段保留为默认值,以便用您的用户 ID 创建模式
    • 如果您具有Data Virtualization 管理器角色,请模式字段保留为默认值,以便使用您的用户 ID 创建模式,或在模式字段中输入新模式名称。
    有关更多信息,请参阅 为虚拟对象创建模式
  11. 单击 虚拟化 以完成此过程。
    在显示状态窗口时,您可以选择查看虚拟化数据或虚拟化更多数据。

下一步操作

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more