导入元数据时,必须决定要导入的元数据类型、导入目标和范围、是否安排导入作业以及如何自定义导入行为。
进口目标
导入元数据的第一步是定义导入目标。 您必须决定导入哪种类型的元数据,以及是在项目中使用导入的资产,还是直接将其发布到目录中。
通常情况下,元数据导入是更大数据整理计划的一部分。 例如,在为数据资产导入元数据后,可以通过运行元数据充实功能为导入的数据资产添加业务元数据。 您还可以运行数据质量规则。 最后,您可以将完成的数据资产发布到目录中,与组织共享。 在设计元数据导入之前,请确保您了解您的选择对整个策划计划的影响。 请参阅 "策展规划"。
例如,典型的数据资产整理流程包括以下任务:
- 使用导入资产元数据选项运行元数据导入,将数据资产添加到项目中。
- 在数据资产上运行元数据充实,对数据进行剖析,进行基本的数据质量分析,并通过术语分配提供业务背景。
- 在资产上运行数据质量规则。
- 将资产发布到目录中。
- 使用 "导入世系元数据选项为相同的数据资产运行元数据导入,为目录中的这些资产添加世系信息。
您可以将其他类型的资产直接添加到目录中,因为元数据充实和数据质量评估并不适用。 您可以同时选择导入资产元数据和导入系列元数据选项,以便在将资产添加到目录的同 时导入资产的技术元数据和系列元数据。
您可以选择以下导入方法:
- 导入资产元数据
- 资产技术元数据提供资产详细信息、关系和资产预览信息。 您可以将其添加到项目中进行进一步处理,也可以在导入后立即将其发布到目录中。
- 导入沿袭元数据
- 脉络元数据提供了有关数据流的信息,包括数据的来源、变化方式以及随时间推移的位置。 世系元数据存储在世系存储库中。
导入目标
你可以将元数据导入到你正在工作的项目中,或者导入到你拥有编辑或管理角色的任何目录中。
项目
在项目中,您可以在数据资产上运行元数据充实和数据质量规则。 在对导入的数据资产的业务元数据分配和数据质量感到满意后,将其发布到目录中。
血统信息可在目录和项目中找到。 只有在使用Metadata import时导入了资产行系的情况下,项目中才会提供行系信息。
如果项目被标记为敏感项目,则只能将元数据导入项目,而不能导入目录。 有关详细信息,请参阅将项目标记为敏感项目。
目录
如果对数据资产的内容了如指掌,又不想运行元数据充实或数据质量规则,可以直接将其元数据导入目录。 导入完成后,资产将在所选目录中公开。
您可以将元数据导入任何您拥有编辑或管理角色的目录,除非该目录是标记为敏感的项目的一部分。
如果导入目录,请确保目标目录已将重复资产处理设置为更新原始资产,而不是允许重复资产。 请参见重复资产处理。
如果要在导入的数据资产上执行数据保护规则,则必须选择受管理目录作为导入目标。
数据源
有关支持的数据源列表,请参阅用于整理和数据质量的支持数据源。
要连接到数据源,必须指定以下详细信息:
数据源定义。 导入世系元数据时需要使用,导入资产元数据时则可选。 它用于通过端点唯一标识数据源。 端点包括主机名或 IP 地址、端口号以及数据库名称或实例标识符等信息。 例如,当你有多个Microsoft SQL Server数据库时,数据源定义会识别其中一个。 或者,当你的Teradata集群包含多个具有不同主机名的节点时,数据源定义会将整个集群识别为一个实体。 有关详细信息,请参阅创建数据源定义。 在开始创建元数据导入之前,请先创建数据源定义。
扫描仪。 它用于提取和处理元数据,以创建世系。 当导入序列的数据源可以承载多种技术的元数据时,您可以选择扫描仪。 例如,Microsoft SQL Server可用作Microsoft SQL ServerIntegration Services 的元数据存储。 在这种情况下,可从数据库Microsoft SQL Server)或 ETL 作业Microsoft SQL ServerIntegration Services)导入世系元数据。 您选择一个扫描仪来导入特定类型的世系元数据。
连接。 连接详情包括凭证。 您可以为一个数据源创建多个连接,例如使用不同的主机名进行连接,或连接到具有特定权限的各种用户账户。 连接到特定数据源所需的详细信息在连接器部分的每个连接主题中都有描述。 导入资产元数据时,必须选择数据源定义或连接。 在开始创建元数据导入之前创建连接。 您可以在要导入数据的项目中创建连接,也可以创建平台连接,然后将其添加到项目中。 有关详细信息,请参阅在项目中添加数据源连接。
连接必须分配给数据源定义。 如果首先创建数据源定义,然后创建连接,则应手动创建分配。 请参阅将端点添加到新的或现有的数据源定义中。
进口范围
决定要导入的数据范围。 根据数据源的大小和内容,您可能不想导入所有资产,而只想导入选定的子集。 可以包含完整的模式或文件夹,或者向下钻取到各个表或文件。 选择某个模式或文件夹时,可以立即看到其中包含的项数。 因此,您可以决定是要包含整个集合,还是其中一部分能更好地满足您的需要。
如果模式名称包含特殊字符,则无法从模式中导入数据。
世系元数据的包含和排除列表
定义提取世系元数据的作用域时,可以添加要包括在提取中或不包括在提取中的资产列表。 该列表通常是正则表达式,其格式取决于所选数据源。 有关详情,请参阅 "连接器"部分的特定连接主题。
外部输入
导入世系元数据时,可以为某些数据源提供额外的手动输入,以便最终世系包含更完整的数据。 您有下列选项:
- 从文件中添加输入
- 您通常会添加一个 .zip 文件,该文件的结构要符合特定数据源的要求。 结构要求在连接器部分的每个连接主题中都有详细说明。
- 从外部代理程序摄入元数据
- 您可以手动连接到代理文件系统或Git仓库。 然后下载资产并用于元数据提取。
占位符替换值
为线性分析添加外部输入时,可以用真实值替换环境变量等占位值。 下表举例说明了如何修改数据显示以进行世系分析。
替换范围 | 范围处理格式 | 占位符值 | 替换值 |
---|---|---|---|
(未选择正则表达式,使用纯文本) | ${table_name} | 客户 | |
.*bteq | 正则表达式 | ${db} | dwh |
另一种提供占位符替换的方法是创建 CSV 文件,并将其添加到作为外部输入上传的 .zip 文件中。 该文件必须命名为 "replace.csv
,其结构必须如下:
"PLACEHOLDER","REPLACEMENT_VALUE"[,SCOPE]
其中:
PLACEHOLDER
是您要替换的值。REPLACEMENT_VALUE
是取代原始值的新值。SCOPE
是一个过滤器,用于仅对所选资产进行替换。 此栏为可选项。 它被解释为正则表达式。 该文件中可使用的路径示例为 "\MyBD\MySchema\MyScript.sql
。
每个替换配对必须放在单独的一行。 每个值必须用双引号("")括起来。
调度选项
如果不设置日程,则会在最初保存元数据导入资产时运行导入。 随时可以手动重新运行导入。
如果选择按特定调度运行导入,请定义您希望作业运行的日期和时间。 您可能希望协调同一资产的计划元数据导入和相应的元数据丰富工作。
如果选择按特定调度运行导入,请定义您希望作业运行的日期和时间。 可以调度单次运行和重复运行。 如果安排单次运行,作业就会在指定的日期和时间准确运行一次。 如果您安排重复运行,作业会在 "重复发生"部分中指示的时间戳首次运行。
导入任务的默认名称为metadata_import_name任务。 在设置元数据导入时,您可以更改名称以适应您的命名模式。 但是,您以后不能更改名称。 您可以从元数据导入资产或项目的 "任务"页面访问您创建的导入任务。 请参阅作业。
您可以通过编辑元数据导入资产来更新元数据导入的时间表。
沿袭导入阶段
世系元数据导入是一个包含多个阶段的过程。 为优化导入以满足您的需求,您可以决定在每个元数据导入任务中运行哪些阶段。 例如,可以只在最近刷新的选定连接上运行提取阶段,以提高性能。 此阶段完成后,您可以对所有连接(刷新的连接和之前提取的连接)运行分析。
下面的列表简要说明了每个血统导入阶段运行的流程:
- 词典提取
- 将沿袭资产(表格、视图、同义词等)提取并导入沿袭存储库。
- 转换提取
- 从数据源中提取转换定义。
- 提取的输入分析
- 分析自动提取转换的数据沿袭。
- 外部输入数据获取
- 从代理文件系统或 Git 存储库获取外部输入。
- 外部输入分析
- 分析元数据导入作业摄取或上传的外部输入的数据沿袭。
高级导入选项
您可以自定义一般导入行为,以及重新运行元数据导入时导入资产的情况。
导入资产元数据选项
- 防止更新特定属性
- 默认情况下,重新导入资产时会更新所有资产属性。 如果不想在重新导入时更新资产名称、资产描述或任何列描述,请清除重新导入时更新列表中的相应复选框。
- 删除不包括在重新导入中的现有资产
- 默认情况下,重新运行导入时不会从目标项目或目录中删除任何资产。 要清理目标项目或目录,请从重新导入时删除选项中进行选择。
- 在数据源中找不到资产或从导入中排除:在这些情况下,重新运行导入时从导入目标中删除先前导入的资产:
- 数据源中不再提供该资产。
- 重新运行时,"从导入中排除"设置已更改,因此资产现在已从导入中排除(仅适用于在关系数据库上运行的元数据导入)。
- 从导入范围中移除的资产:在重新运行导入时,删除上次从导入目标运行后从该元数据范围中移除的资产。
- 在数据源中找不到资产或从导入中排除:在这些情况下,重新运行导入时从导入目标中删除先前导入的资产:
- 不导入特定类型的关系型资产
对于在关系数据库上运行的元数据导入,在 "从导入中排除"设置中,可以选择是要导入所有类型的关系资产,还是要排除表、视图、别名和同义词。 这些选项是互斥的。
- 导入其他资产属性
对于在关系数据库上运行的元数据导入,可以选择是否导入数据库中可能定义的主键和外键。
- 启用其他导入选项
启用增量导入,以便在重新运行导入时只导入新的或修改过的数据资产。 该选项仅适用于在关系数据库上运行的元数据导入,且所选数据源支持增量导入:
- Amazon RDS for Oracle
- IBM Db2
- IBM Db2 Big SQL
- IBM Db2 on Cloud
- IBM Netezza Performance Server
- IBM Data Virtualization
- Microsoft Azure SQL Database
- Microsoft SQL Server
- Oracle
- Teradata
更新或删除数据源中的资产描述不会更改资产的修改日期。 从导入资产列表中删除的资产,修改日期也不会改变。 因此,此类资产不在增量进口考虑之列。 此外,增量导入不会检测到从数据源或范围中删除的资产。 因此,这些资产不会被标记为 "已删除,也不会按照 "重新导入时删除设置被删除。 要查看此类更改的反映,请禁用增量导入,重新导入数据范围中的所有资产。
重要说明:如果数据源和Cloud Pak for Data客户端工作站位于不同的时区,增量导入可能不起作用。 如果客户端所在时区早于数据源时区,元数据导入任务可能无法检测到上次导入运行后添加或修改的资产。 在这种情况下,请禁用增量导入,以便在重新运行导入时包含所有资产。
For incremental imports to work, the data source must be in the GMT time zone regardless of the client's time zone.- 从数据库目录收集元数据
对于在关系数据库上运行的元数据导入,可以选择从数据库目录导入元数据。 因此,运行导入的用户只需要访问数据库目录,而不需要拥有实际数据的 SELECT 权限。 无法对导入的资产进行概要分析,也无法在元数据扩充中使用导入的资产。
- 导入资产时间戳记
您可以加入资产最后修改时间的信息。
metadata_modification_token
属性被添加到资产的 "extended_metadata
属性中。
导入世系元数据选项
行式的高级选项取决于您选择的数据源。 有关详情,请参阅 "连接器"部分的特定连接主题。
了解更多信息
父主题: 导入元数据