您可以导入技术元数据以将数据资产添加到项目或目录。 在项目中,您可以在将数据发布到目录之前对其进行准备和分析。
将元数据作为数据资产导入到项目中,以在将数据发布到目录之前对其进行准备和分析。 对此类数据资产进行概要分析,分析数据质量,并通过运行元数据扩充来分配术语以提供业务环境。 要执行更深入的质量分析,请对数据资产运行数据质量规则。 如果数据准备好共享而无需进一步准备,那么还可以将数据资产直接添加到目录。
您可以使用 API 代替用户界面来检索受支持连接的列表或创建元数据导入资产。 这些 API 的链接在 了解更多信息 部分中列出。
- 资产类型
表示从连接到外部数据源的表或文件的数据资产。
注: 对于 Microsoft Excel 工作簿,每个工作表都作为单独的数据资产导入。 数据资产名称等于 Excel 工作表的名称。- 支持的连接
请参阅 支持的连接器中的 Metadata import 列。
- 所需许可权
要创建,管理和运行元数据导入,您必须具有以下角色和许可权:
- 项目中的 管理员 或 编辑者 角色。
- 要导入或发布资产的目录中的 管理员 或 编辑者 角色。
- 对要导入的数据资产的数据源的连接以及对相应数据库的 SELECT 或类似许可权的访问权。
概述
导入用于发现的元数据涉及以下过程:
- 识别您要从中进行导入的数据源。 您可能已经定义了与此数据源的连接。 否则,请确保您有连接到该数据源的凭证。 有关受支持连接的列表,请参阅 受支持的连接器。
- 在项目中,创建元数据导入资产以配置导入详细信息,例如导入的作用域和目标以及导入作业的调度。
- 将资产导入到项目或目录。 访问导入的数据资产时,数据是从数据源动态检索而得。
- 分析并预览导入到项目的元数据,并将其共享到目录。 您可以从每个资产的 概要文件 选项卡一次为单个资产创建一个概要文件。 您还可以并行为多个数据资产创建概要文件,并通过创建和运行 元数据扩充资产向这些资产添加业务上下文。
观看此简短视频,了解如何将资产元数据从外部源导入到项目中。
此视频提供了一种可视方法来学习本文档中的概念和任务。
创建元数据导入资产并导入元数据
要创建元数据导入资产和用于将元数据导入到项目或目录中的作业,请执行以下操作:
打开一个项目,转到项目的资产页面并点击新资产 > 导入数据资产的元数据。
指定元数据导入的名称。 (可选)您可以提供描述。
可选: 选择要分配给元数据导入资产的标记以简化搜索。 可通过输入标记名称并按 Enter 键来创建新标记。
选择导入目标。 您可以将元数据导入到您正在其中工作的项目中,也可以导入到您是其成员的任何目录中。
将元数据导入到项目进行分析,然后再决定要将哪些资产共享到目录以供其他用户处理。 在项目中,可以对导入的数据资产运行元数据扩充和数据质量规则。
如果您很熟悉数据资产的内容,可以将其元数据直接导入到目录中。
如果您的项目标记为敏感,那么只能导入到项目中,而不能导入到目录中。
定义元数据导入的作用域。
定义是否要运行调度的导入作业。 如果未设置调度,请在保存元数据导入资产时运行导入。 随时可以手动重新运行导入。 如果选择按特定调度运行导入,请定义您希望作业运行的日期和时间。 可以调度单次运行和重复运行。 如果调度单次运行,那么作业将在指定的日期和时间正好运行一次。 如果调度重现运行,那么作业将首次以 重复 部分中指示的时间戳记运行。
(可选)更改导入作业的名称。 缺省名称为 metadata_import_name 作业。
稍后可以从元数据导入资产或项目的 " 作业 " 页面中访问您创建的导入作业。 请参阅作业。
可选。 定制导入行为。 您可以选择阻止更新特定属性,并删除未包含在重新导入中的现有资产。
- 重新导入时更新
- 缺省情况下,在重新导入资产时将更新所有资产属性。 如果您不希望在重新导入时更新资产名称,资产描述或任何列描述,请清除相应的复选框。
- 重新导入时删除
- 缺省情况下,当您重新运行导入时,不会从目标项目或目录中删除任何资产。 要清除目标项目或目录,可以选择删除在重新导入时从导入作用域中除去的数据源或资产中不再可用的资产。
- 从导入中排除
- 对于在关系数据库上运行的元数据导入,可以选择是要导入所有类型的关系资产,还是要排除表,视图,别名和同义词。 这些选项是互斥的。
- 导入其他属性
- 对于在关系数据库上运行的元数据导入,您可以选择是否导入可能在数据库中定义的主键和外键。
其他导入选项:
- 增量导入
启用增量导入以在重新运行导入时仅导入新的或已修改的数据资产。 此选项仅适用于支持增量导入的数据源:
更新或除去数据源中资产的描述不会更改资产的修改日期。 对于从导入的资产列表中除去的资产,修改日期也不会更改。 因此,不考虑将此类资产用于增量导入。 此外,不会通过增量导入来检测从数据源或作用域中删除的资产。 因此,不会将此类资产标记为 已除去 ,也不会按照 重新导入时删除 设置中指定的那样将其删除。 要查看反映的此类更改,请禁用增量导入以重新导入数据作用域中的所有资产。
要点: 如果数据源和从中访问 Cloud Pak for Data 帐户的位置位于不同的时区,那么增量导入可能不起作用。 如果您在数据源时区之前的时区中访问 Cloud Pak for Data 帐户,那么元数据导入作业可能不会检测上次导入运行后添加或修改的资产。 在这种情况下,请禁用增量导入,以便在重新运行导入时包含所有资产。
要使增量导入生效,数据源必须处于 GMT 时区,而不考虑 Cloud Pak for Data 帐户的时区。- 从数据库目录收集元数据
对于在关系数据库上运行的元数据导入,可以选择从数据库目录导入元数据。 因此,运行导入的用户只需要访问数据库目录,但不需要对实际数据具有 SELECT 许可权。 无法对导入的资产进行概要分析,也无法在元数据扩充中使用导入的资产。
复查元数据导入配置。 要进行更改,请单击磁贴上的 编辑 图标 并更新设置。
单击创建。 元数据导入资产将添加到项目,并且将创建元数据导入作业。 如果未配置调度,那么将立即运行导入。 如果配置了调度,那么导入将在定义的调度上运行。
重要信息: 来自已通过不同元数据导入导入的相同连接的资产不会重新导入,而是会更新。 此类资产不再显示在初始元数据导入中。 只有最近运行的元数据导入包含资产。
根据元数据导入作业运行的结果,将显示完成消息或错误通知。
当作业运行成功完成,已完成但有警告或已完成但有错误时,将显示一条完成消息。 如果整个作业运行失败,将显示错误通知。 任一类型的通知都包含指向作业运行日志的链接,该日志提供有关特定作业运行的详细信息。
导入完成后,您可以看到具有以下信息的资产列表:
- 资产名称,提供指向项目或目录中的资产的链接。
- 资产类型 (例如
Data
) 和格式 (例如Relational table
)。 - 资产上下文,如父或文件路径。
- 上次导入资产的日期和时间。
- 导入状态,对于成功导入的数据,可以为
Imported
,如果无法重新导入资产,可以为In progress
或Removed
。
您可以使用与已连接的数据资产相同的方式来处理大多数导入的数据资产。 导入的资产自动分配了反映资产父级 (如果适用) 的标记。
要对导入的数据资产进行概要分析,分析和提供业务环境,请创建元数据扩充资产并将元数据导入资产包含在数据作用域中。
了解更多信息
后续步骤
父主题: 导入元数据