0 / 0
Go back to the English version of the documentation
计划将数据整理到目录中
Last updated: 2024年12月19日
计划将数据整理到目录中

组织过程包括创建数据资产,将监管工件和其他元数据分配给数据资产,将数据资产发布到目录,然后在底层数据或业务词汇表更改时更新资产元数据。 在数据管理员将高质量,丰富的数据资产添加到目录后,数据使用者可以找到并使用这些数据资产。

虽然您可以单独组织数据资产,但该过程不可扩展。 您可以使用 Metadata import 和元数据扩充工具自动执行许多整理任务,通过这些工具可以发现,创建,扩充和发布数据资产集。

要尽可能自动执行数据整理,请完成以下任务以设置整理项目,将整理的数据资产添加到目录,并更新数据资产以保持元数据最新:

任务 必填? 频率
设置项目 一次性
向数据源添加连接 一次性
导入元数据以创建数据资产 重复
使用元数据和其他信息扩充数据资产 重复
解析实体数据以创建数据的 360 度视图 False 重复
定制数据质量分析 False 重复
将数据资产发布到目录 重复

整理数据周期包含表中列出的步骤。

创建元数据导入和元数据扩充资产时,可以将其调度为自动运行或按需运行。 您可以在 UI 中或使用 API 设置作业调度。 例如,可以调度特定时间和日期的元数据导入。 然后,可以将相同资产的元数据扩充调度为在元数据导入完成后运行。 元数据扩充完成后,复审结果,进行必要的调整,然后将对数据资产的更新发布到目录。

设置项目以进行组织

项目是一个协作工作空间,人们在其中使用数据来实现共享目标。

为了提高一致性,您可以为项目创建约定,例如:

  • 项目名称: 以一致的方式 (例如,按用途,日期范围或团队) 识别项目。
  • 项目需求: 在项目的 "读我" 文件中描述并链接到外部系统中的需求和任务。
  • 连接名称: 以一致的方式 (例如,通过数据源,表名或用途) 识别连接。

数据整理项目通常包含以下类型的项,这些项由数据管理者显式添加或作为过程的结果创建:

  • 包含要组织的数据的数据源的连接资产
  • 由元数据导入创建的已连接数据资产
  • Metadata import 资产
  • 元数据扩充资产
  • 数据质量定义和规则资产
  • 通过运行数据质量规则创建的 DataStage 流资产
  • 包含数据质量规则输出表的数据资产
  • 包含由元数据扩充创建的频率分布表的数据资产
  • 通过运行资产创建的作业

了解有关创建项目的更多信息

添加与数据源的连接

在数据专员可以导入元数据以创建已连接的数据资产之前,他们需要相关数据源的连接资产。 数据源可包括数据库(如Db2)或文件系统(如IBM Cloud Object Storage)。

通常,组织会将连接添加到 Platform assets catalog ,以便所有用户都可以找到并使用这些连接。 例如,数据工程师可以在 Platform assets catalog中创建连接资产,然后所有用户都可以轻松地将这些连接添加到其项目中。 或者,可以在项目中创建连接。

创建连接时,必须决定如何处理连接凭证。 缺省情况下,连接凭证标记为共享,这允许所有用户使用相同的凭证来访问数据。 如果希望每个用户输入其个人凭证,请在创建连接时禁用共享凭证。 但是,如果您的连接需要个人凭证,那么必须确保数据管理员具有他们进行管理所需的所有连接的凭证。

Cloud Pak for Data 支持许多连接,但并非所有连接都支持用于元数据导入,元数据扩充和数据质量分析。

了解有关添加连接的更多信息

导入元数据以创建数据资产

Metadata import 会检测可从指定的数据源连接访问的所有表或文件。 您可以选择为所有表或文件或选择的表或文件创建已连接的数据资产。 元数据导入过程还会创建元数据导入资产,您可以将其重新运行或指定为元数据扩充的输入。

通常,组织为单个数据源创建多个元数据导入资产。 每个元数据导入都包含对结构,模式或数据行进行类似更改的表或文件。 然后,可以按不同的调度运行每个元数据导入。 例如,您可以创建具有以下特征的元数据导入:

  • 具有您调度为每周运行的频繁更新的表的元数据导入。
  • 针对具有您调度为每月运行的不频繁更新的表的 metdata 导入。
  • 具有必要时手动运行的罕见更新的表的元数据导入。

重新运行元数据导入以检测数据源中以下类型的更改:

  • 添加或除去的资产
  • 已变更的表模式
  • 资产元数据的更新,例如,名称更改或更新的描述

在重新运行元数据导入之后,重新运行元数据扩充。

了解有关导入元数据的更多信息

使用元数据和其他信息扩充数据资产

元数据扩充将信息添加到已连接的数据资产。 通过将元数据导入设置为数据作用域,可以轻松对通过元数据导入创建的所有表或文件运行元数据扩充。 元数据扩充过程还会创建可重新运行的元数据扩充作业。

通常,组织会为每个元数据导入创建元数据扩充项。 然后,您可以轻松同步元数据导入和元数据扩充的调度。 但是,您可以为单个已连接的数据资产 (例如虚拟化表) 创建元数据扩充项。

对数据资产运行元数据扩充时,将根据所选扩充选项添加信息:

  • 仅用于剖析:添加数据类和统计数据,并建议使用主键。
  • 元数据扩展:生成显示名称和描述。
  • 质量分析和概要分析: 添加质量得分,数据类和统计信息。
  • 术语分配:根据所选方法分配术语和分类。 根据与数据类的关系分配术语需要进行剖析。 对于基于基因人工智能的学期作业,元数据也应扩展。 在任何情况下,都可以通过机器学习算法和名称匹配来分配术语。
  • 关系生成:确定主键和外键,并提出资产之间的关系。
  • 监控数据质量:检查数据质量是否符合定义的数据质量服务水平协议,并报告违规情况。 可能会触发补救工作流程。

您可以通过设置数据的采样大小来平衡准确性与速度。 数据的采样大小越大,数据类和业务术语分配和数据质量分析越准确,但元数据扩充作业持续时间越长。

虽然可以指定自动分配数据类和业务术语,但必须查看结果。 准确分配数据类和业务术语至关重要。 否则,敏感信息可能不会被数据保护规则屏蔽或保护。 运行元数据扩充并调整数据类和业务术语分配的次数越多,自动分配算法就越准确。

在以下情况下重新运行元数据扩充和标准数据质量分析:

  • 重新运行元数据导入后。 根据您期望的数据更改数,在导入的整个数据作用域上重新运行元数据扩充,或者仅在新的或已更改的数据上重新运行元数据扩充,例如,选取新的表或列。 对列中数据值的更改可能会影响数据质量得分或数据类和业务术语分配。
  • 对可用数据类和业务术语进行更改后。 对数据类和业务术语的更改可能会影响其对列的分配。

元数据扩充作业可能需要大量时间,具体取决于数据大小。 他们还会使用向您的帐户计费的计算资源。

了解有关扩充元数据的更多信息

解析实体数据以创建数据的 360 度视图

要确保用户和系统具有客户数据的总视图,可信视图和统一视图,请使用 IBM Match 360 来匹配和合并来自不同源的数据,并建立数据的 360 度视图 (称为主数据)。

为主数据定义数据模型,然后从整个企业装入数据资产并将其映射到模型。 接下来,开始配置系统以满足组织的独特需求。 配置匹配算法并运行该算法以创建主数据实体。 查看提供的统计信息和图形以评估匹配结果。 根据您的结果,您可以通过完成对复审或更改匹配的权重和阈值来进一步调整算法并改进匹配结果。

当您完善了匹配算法后,业务用户可以搜索和探索您的主数据以获取关键洞察。 数据专员可以编辑,维护和补救数据,然后将其导出为已连接的数据或 CSV 格式以供其他位置使用。

了解有关解析实体数据的更多信息

定制数据质量分析

要定制数据质量分析,请创建并运行数据质量规则。 每个数据质量规则都适用于单个数据源中的数据资产或文件中的单个数据资产。 您按如下方式运行数据质量规则DataStage流量,这需要DataStage服务。 和DataStage,您可以在支持的区域中运行数据质量规则。 借助DataStage as a Service Anywhere,您可以使用远程引擎在IBM Cloud之外运行数据质量规则。 有关设置远程引擎的详细信息,请参阅DataStage as a Service Anywhere文档

定义数据质量规则条件的格式和方式取决于要接收的结果类型。

结果 格式 方法
返回列符合规则条件的程度。 数据质量定义 您可以创建在一个或多个数据质量规则中引用的数据质量定义资产。 通过在画布上排列块元素或通过在自由格式编辑器中输入表达式来指定规则逻辑。
返回规则条件失败的列。 SQL 语句 在每个数据质量规则中输入 SQL 语句。

如果创建包含数据质量定义的数据质量规则,那么有以下选项:

  • 在数据质量规则中多次复用相同的数据质量定义。
  • 在数据质量规则中包含多个数据质量定义。
  • 将数据质量定义发布到目录,并在多个项目中复用这些定义。
  • 创建直接绑定数据的简单规则,并 (可选) 为绑定创建连接。
  • 创建复杂规则,其中数据在 DataStage 流中进行预处理,并且可以将输出路由到 DataStage 输出链接。
  • 为绑定创建连接以使用输出表中的多个表中的数据。
  • 在项目中创建参数集,以管理与规则变量绑定的字面值和列。 您还可以将参数集发布到目录,并在多个项目中复用该参数集。
  • 设置要评估的最大记录数和采样方法。

您可以选择将数据质量规则输出发送到外部数据库,以维护规则结果的详细记录。 例如,您可能想要运行报告或将信息发送到数据管理团队以进行质量修复。

了解有关数据质量分析的更多信息

将数据资产发布到目录

您可以在一个操作中从元数据扩充资产内或从项目中的 资产 选项卡将多个扩充数据资产发布到目录。

资产 选项卡发布与从元数据扩充资产发布之间的主要差别在于 处理重复资产。 下表比较了您拥有的选项及其影响。

发布方法 批量发布? 重复处理选项 业务术语分配
资产 选项卡 是,您可以选择多个要一起发布的资产。 更新原始资产
覆盖原始资产
允许重复项 (如果目录设置包含此选项)
保留原始资产并拒绝重复项
可以除去原始业务术语分配。
元数据扩充资产 是,您可以选择多个要一起发布的资产。 更新原始资产 新资产中的业务术语将添加到原始资产。 未除去任何原始业务术语分配。

了解有关发布到目录的更多信息

为目录中的数据资产导入世系

数据脉络是关于数据来源、数据如何变化以及随时间变化的信息。 您可以为导入、丰富并发布到目录中的数据资产导入世系信息。 必须启用数据行。 要导入世系,可使用导入世系元数据选项创建元数据导入。 lineage 服务会扫描目标数据源并分析数据流。 这些世系元数据与数据资产一起导入,如有转换脚本,也一并导入。

通常情况下,企业在运行元数据导入和丰富并发布更新的数据资产后,会重新运行元数据导入以捕获脉络信息。

了解有关导入血统的更多信息

先前的规划任务

下一个规划任务

父主题: 规划以实施数据监管

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more