要识别数据资产之间的关键关系,或者要识别列中的重叠或冗余数据,请运行关系分析。
关系是包含相关信息的数据资产之间的连接。 您可以通过指示一个数据资产中的键值与一个或多个其他数据资产中的键值相对应来创建此类关系。 识别这些连接可帮助您了解数据如何组合在一起。
键关系分析用于识别主键和外键对,这些主键和外键在关系数据库中的两个数据资产之间具有一对多关系。 主键是唯一标识数据资产中每条记录的列或一组列。 外键是一个数据资产中引用另一个数据资产中的主键列的列或一组列。 您可以使用关系信息来确定如何连接数据资产。
重叠 是指内容在多个源中可用时。 重叠分析通过比较一个数据资产内或跨数据资产的列值来查找数据资产中的相同或相似结构。 因此,重叠分析可帮助您确定数据是唯一的还是相似的,以及数据可能重叠的程度。
关系分析的结果是累积的。 每次运行分析时,分析都会添加新关系或更新先前分析运行中标识的关系。
先决条件
必须部署 DataStage 服务以运行关系分析。
作为元数据扩充的一部分运行的所有操作都需要凭证以进行安全授权。 通常,用户 API 密钥用于在不中断的情况下执行此类长时间运行的操作。 如果尝试运行密钥关系分析或重叠分析时凭证不可用,那么系统会提示您创建 API 密钥。 然后,该 API 密钥将保存为您的任务凭证。 请参阅 管理用户 API 密钥。
如果与数据源的任何连接已锁定,那么将要求您输入个人凭证。 此一次性步骤将为您永久解锁连接。
您可以在不首先创建资产概要文件的情况下运行深度关系分析。 深度键或重叠关系分析不依赖于概要文件信息,例如列值的频率分布。 而是直接分析列数据。
运行关键关系分析
运行键关系分析以识别单列键关系或复合键关系。 该分析确定潜在关系候选者,并根据每个潜在关系的置信度来建议数据资产之间的最佳关系。 对于计算关系的置信度,将考虑以下信息:
- 来自外键中存在的主键的值的数目
- 外键中孤立值的数量
- 主键和外键之间列名称的相似性
- 列在数据资产中的位置。
可以检测不同数据类型的列之间的关系,如下所示:
- 数据类型 BIGINT 和 SMALLINT
- 数据类型 BIGINT 和 DECIMAL
- 数据类型 BIGINT 和 CHAR
- 数据类型 BIGINT 和 VARCHAR
- 数据类型 DECIMAL 和 VARCHAR
- 数据类型 CHAR 和 VARCHAR
- 数据类型 VARCHAR 和 LONG VARCHAR
置信度超过定义的建议阈值的对将作为资产的候选关系列出。 您还可以启用关系的自动分配。 有关阈值的更多信息,请参阅关键关系。
此类型的关系分析将检查所选数据资产中的单个列,以获取列名和概要分析数据的相似性。 如果您不运行深入分析,则将应用默认丰富设置中设置的阈值。
如果选择运行深入分析,那么将检查实际列数据以识别主键和外键。 您还可以选择标识复合密钥关系或对数据样本而不是整个数据资产运行分析。 对于深入分析,丰富设置中定义的阈值不起作用。 相反,您可以为每个单独的分析运行设置阈值。
深度分析需要比缺省密钥关系分析更长的时间才能完成。 如果您还选择识别复合密钥,那么处理时间会显着增加。 分析可能会运行数天或更长时间。 如果列的数据类型允许进行键分析,那么仅检查相邻列,如果由于它们的数据类型不允许进行键分析,因此这些列之间的列之间的数据类型允许进行键分析,那么 相邻 意味着直接相邻列之间的相邻列之间的相邻列之间的相邻列。
要对一个或多个资产运行密钥关系分析,请执行以下操作:
打开元数据扩充资产。
在 资产 选项卡上,根据需要选择资产。
从工具栏中选择 Enrich> 标识关系 。 缺省分析类型为 键。
通常对所选数据资产中的多个列运行此类型的关系分析。 缺省情况下,复合键长度设置为 2。
深入的关键关系分析会检查实际列数据,因此是一个耗时的过程。 您可能希望对数据样本而不是整个数据资产运行分析。
关键关系的默认丰富设置不起作用。 建议和自动分配的不同默认设置适用于深入关系分析:
- 默认建议阈值为 25%。
- 已启用关系的自动分配。 默认分配阈值为 90%。
您可以为每次单独的分析运行覆盖这些默认设置。
要对数据资产中的单个列运行浅键关系分析,可以使用 设置关系 扩充选项。
单击运行。
分配,取消分配或除去密钥关系
完成关键关系分析后,您可以在此处查看和管理关系:
在资产的详细信息面板的 键 选项卡上,如果检测到候选关系,那么会看到加号图标。 单击加号图标,检查此资产的建议关系,然后分配最合适的关系。 您还可以取消分配或除去此资产的关系。
扩充项区域中的 查看密钥关系 链接处于活动状态。 单击该链接以在 密钥 选项卡上查看所有检测到的密钥关系的列表。 检查并分配建议的关系或取消分配关系。 您还可以除去建议的关系和分配的关系。
要仅查看与已分配主键的关系,请按 主键过滤列表。
从密钥关系表中,您还可以打开每个密钥关系的图形视图以检查和管理关系。 从键的溢出菜单中,选择 打开图,或者选择 查看详细信息 ,然后单击侧面板中的 查看图 。
如果取消分配关系,那么其状态将重置为 建议。 如果除去关系,那么将完全除去该关系。 重新运行分析时,可能会再次建议使用已除去的关系。
运行重叠分析
运行重叠分析以识别一个或多个数据资产的列中的重叠数据或潜在冗余数据。
要对一个或多个资产运行密钥关系分析,请执行以下操作:
打开元数据扩充资产。
在 资产 选项卡上,根据需要选择资产。
从工具栏中选择 Enrich> 标识关系 。
选择 重叠 作为分析类型。 (可选) 您可以调整采样设置。 缺省情况下,将分析数据资产的所有记录,这可能很耗时。 您可能希望选择较低百分比的数据进行检查。 减小样本大小时,将随机选取样本中包含的记录。
默认丰富设置不起作用。 重叠分析适用不同的建议和自动分配默认设置:
- 默认建议阈值为 25%。
- 已启用关系的自动分配。 默认分配阈值为 90%。
您可以为每次单独的分析运行覆盖这些默认设置。
检查重叠分析结果
查看分析结果以确定列数据的相关方式。
要检查和管理重叠关系:
单击扩充项区域中的 查看密钥关系 链接。 在 重叠 选项卡上,您可以看到每个检测到的关系的以下信息:
- 基本资产和配对资产
- 关系状态
- 相异值的最大数目
- 公共列值的总数和百分比
展开条目以查看更多信息:
显示重叠数据的基本列和成对列的名称
基本列和成对列的重叠类型:
- 相同
- 基本列和成对列具有相同的值。 两者的百分比均为 100% 和 100%。
- 子集
- 此列中的所有值都在另一列中,但另一列包含更多值。 第一列的百分比为 100% ,但另一列的百分比小于 100%。
- 超集
- 另一列中的所有值都在此列中,但并非此列中的所有值都在另一列中。 另一列的百分比为 100% ,但第一列的百分比小于 100%。
- 重叠
- 列中的某些值有一些重叠,但并非任何列中的所有值都是公共的。 两者的百分比均小于 100%。
基本列中不同值的总数,以及对配对列通用的值的数目和百分比
成对列中相异值的总数,以及基本列的公共值的数目和百分比
根据需要分配关系。
访问作业运行详细信息
当您可以从侧面板访问常规元数据扩充的作业详细信息时,必须转至项目的 作业 选项卡以查看关系分析作业。 该作业的类型为 元数据扩充资产的密钥分析。 作业名遵循模式 metadata_扩充项名称 (关系检测)。
了解更多信息
父主题: 扩充数据资产