元数据扩充缺省设置 | IBM Cloud Pak for Data as a Service

Go back to the English version of the documentation

元数据扩充缺省设置

Last updated: 2024年12月13日

元数据扩充缺省设置

要实现有用的元数据扩充结果，请配置项目中所有元数据扩充项的缺省设置。缺省设置还有助于确保一致地使用扩充选项。

对阈值设置或所选术语分配方法的更改将应用于新的元数据扩充以及在更改设置后运行的扩充作业。对类别集的更改仅应用于新的扩充。

所需许可权: 要配置元数据扩充缺省设置，您必须在项目中具有 管理员 角色。任何项目合作者都可以查看设置。

您可以通过下列其中一种方式访问缺省设置:

在现有元数据扩充资产中，单击 缺省设置。
在项目的管理页面上，转至 工具> 元数据扩充。

根据需要编辑设置。您的更改将自动保存。对于某些设置，您可以随时复原系统定义的缺省值。

配置以下功能的缺省设置:

概要分析和术语分配
高级概要分析设置
基本质量分析
数据质量输出
键关系分析

您还可以使用 API 而不是用户界面来创建，更新或检索扩充设置。 API 的链接在了解更多信息部分中列出。

概要分析和术语分配

设置概要分析和业务术语分配的阈值，选择术语分配的方法，并预选类别。您可以随时复原已更改的任何阈值设置的缺省值。

可空性

如果允许列或平面文件中的数据字段没有值，那么这些数据字段可空。

空阈值: 确定列或平面文件字段是否允许空值。如果列或平面文件具有没有值的字段，那么找到的空字段的百分比将与设置的阈值进行比较。如果它等于或大于可空性阈值，那么该字段允许空值。如果数据字段中不存在空值，或者频率百分比小于阈值，那么数据字段必须具有值。缺省设置为 5%。

基数

列的基数可以是唯一的，常量或不受约束的。唯一不同值的百分比以及找到的最常值的百分比与设置的阈值进行比较。如果相应百分比等于或大于阈值百分比，那么基数类型是唯一的或常量。否则，它不受约束。

唯一性阈值: 确定数据字段是否包含唯一值。如果列或平面文件的不同值百分比等于或大于已设置的阈值，那么该列或平面文件将视为唯一。缺省值为 95%。
常量阈值: 确定列或平面文件是否包含常量值。如果某个字段存在一个不同值，并且其频率百分比等于或大于已设置的常量阈值，那么判定该字段为常量。缺省值为 99%。

数据类分配

包含在元数据扩充项中的数据类仅在概要分析期间自动分配给列。术语分配不会影响数据类分配。阈值确定要分配或建议的数据类的最小置信度级别。分配阈值应该高于建议阈值。

还可为自动分配的数据类别自动分配相关分类。

您可以通过启用或禁用数据类的分类分配选项来控制这种行为。请参见分类任务。

分配阈值

确定数据类必须与要自动分配给列的条件匹配的值的最小百分比。缺省设置为 75%。此设置可被直接在数据类上定义的阈值覆盖。

以下预定义数据类设置了缺省阈值:

城市 (50%)
人员姓名 (50%)
名字 (50%)
中间名 (50%)
姓氏 (50%)
组织名称 (60%)

请参阅将数据匹配添加到数据类。

建议阈值

确定数据类必须与针对列建议的条件匹配的值的最小百分比。缺省设置为 25%。

主键

主键可以由一个或多个列组成，并唯一地标识表中的每个记录。每个表只能有一个主键。

建议阈值: 定义要建议作为主键的列或列组合的最小置信度。缺省设置为 80%。

显示名称

根据内置词汇表和所选充实类别中的现有业务术语缩写，使用模糊匹配为数据资产及其包含的列生成语义名称，作为比源名称更具描述性的替代名称。可以自动分配或建议这些备用名称。阈值决定了将语义名称分配或建议为显示名称的最低置信度。分配阈值应该高于建议阈值。

分配阈值: 确定自动为数据资产或列分配显示名称时必须超过的置信度。缺省设置为 90%。
建议阈值: 确定为数据资产或列建议显示名称时必须超过的置信度。缺省设置为 75%。

AI 生成的描述

生成 AI 可以生成整个数据资产的描述以及数据资产包含的列的描述。 granite.8b模型考虑了资产和列的上下文，以提供有意义的描述。可以自动分配这些描述或建议这些描述。阈值确定要分配或建议的描述的最小置信度级别。分配阈值应该高于建议阈值。

分配阈值: 确定生成的描述自动分配给数据资产或列所必须超过的置信度。默认设置为 100%。
建议阈值: 确定为数据资产或列建议生成描述时必须超过的置信度。缺省设置为 75%。

术语分配

可以将元数据扩充项 (通过类别选择) 中包含的业务术语自动分配给列或针对列建议这些业务术语。阈值确定要分配或建议的术语的最小置信度级别。分配阈值应该高于建议阈值。请注意，术语分配不会影响数据类分配。如果通过 ML 模型或通过名称匹配将与数据类关联的术语分配给列，那么也不会自动分配相关数据类。

还可为自动分配的术语自动分配相关分类。

您可以通过启用或禁用术语的分类分配选项来控制这种行为。请参见分类任务。

分配阈值: 确定要自动分配给数据资产或列的款项必须超过的匹配值的百分比。缺省设置为 90%。
建议阈值: 确定要针对数据资产或列建议的术语必须超过的匹配值的百分比。缺省设置为 75%。

提示：如果选择语义术语分配作为术语分配方法之一，请考虑将此阈值降低到 65%-70% 的范围内。否则，该方法返回的术语可能不会被考虑用于术语分配，因为置信度得分通常低于其他方法的得分。

确定在项目中使用哪种术语分配方法来生成分配和建议。根据其中一个方法返回的最高置信度分数进行赋值和建议。至少选择下列其中一种方法:

机器学习: 机器学习模型用于分配术语。您可以为每个项目定义此模型是使用项目中的资产进行训练，还是使用您选择的目录中的资产进行训练。
基于数据类的分配: 根据列的数据类分配来分配术语。数据类与术语之间的适当链接是此处质量结果的先决条件。
名称匹配: 根据术语与资产或列的名称之间的相似性来分配术语。
语义术语分配: 通过使用 slate.30m.semantic-automation.c2c 模型来分配和建议特定于域的业务术语。模型会考虑资产和列的名称和描述，并在语义上将术语与该元数据相匹配。因此，即使术语不是完全匹配项，也可以对其进行分配。

提示：此方法的置信度通常低于其他方法。因此，将建议阈值降低到 65%-70% 之间，以便在术语分配时考虑语义术语分配方法返回的术语。

缺省情况下，所选术语分配方法返回的置信度分数将根据先前的术语拒绝进行调整，这将影响总体置信度分数。

如果您不希望词汇拒绝影响置信度分数，那么可以禁用此选项。

无论您选择哪种术语分配方法，都可以启用或禁用该选项。您设置的训练作用域将应用于用于术语分配的模型和用于调整置信度分数的模型。

使用个别方法来测试和评估术语分配，例如，当您有大量定制数据类时。这样，您还可以了解项目的正确阈值设置。

有关更多信息，请参阅自动术语分配。

分类分配

当相关数据类别或术语自动分配给数据资产或列时，确定是否也分配了分类。您可以为数据类和术语单独配置。

对于 2024 年 8 月 23 日之前创建的项目，默认禁用自动分类分配。

类别

您可以将用户在创建新元数据扩充项时可以从中选择的类别集限制为与项目用途一致的类别。请注意，此选择不会确定元数据扩充项中实际使用的类别。与项目相关的预选类别。所选类别确定可用于概要分析和自动术语分配的业务术语和数据类。当手动分配数据类或术语时，此选择不会限制用户的选项。对于手动分配，用户可以从他们有权访问的任何类别中选取数据类或业务术语。

重要信息: 要选择的类别仅限于管理员有权访问的类别。这可能会导致针对不同管理员的不同类别集。

对该集所作的任何更改都将反映在新的元数据扩充项中，以及在您编辑现有元数据扩充项时。

高级概要分析设置

如果用户启用 外部输出 选项，并且可以针对每个单独的运行覆盖这些设置，那么这些设置将应用于高级数据概要分析。

确定是针对每个列捕获所有相异值还是最大数目的最频繁相异值。缺省设置是捕获 1,000 个最频繁的不同值。

设置存储捕获值的默认输出位置：

选择连接。
根据所选连接，选择模式和表，或选择目录、模式和表。您可以从现有目录、模式和表中进行选择。也可以在现有模式中创建新表。

有关支持哪些数据源作为输出目标的信息，请参阅支持的数据源中的列 输出表 。模式和表名必须遵循以下约定:

名称的第一个字符必须是字母字符。
其余名称可以由字母字符，数字字符或下划线组成。
名称不得包含空格。

基本质量分析

设置数据质量阈值，并选择当用户在元数据扩充过程中运行质量分析时要应用的数据质量检查。

数据质量阈值: 确定资产的最低必需数据质量分数，以使其具有足够的质量或良好质量。低于指定阈值的数据质量得分在扩充项结果中标有红点。等于或超过指定阈值的数据质量得分将标记为绿色。
数据质量检查: 选择在元数据扩充过程中运行质量分析时要应用的预定义数据质量检查。请至少选择一个检查。使用 运行基本数据质量分析 选项配置的元数据扩充项的每次运行都会对绑定到所选检查的数据质量维度评分产生影响。有关更多信息，请参阅预定义的数据质量检查。

数据质量输出

设置用于存储数据质量异常的缺省输出位置，并确定每次数据质量检查的最大异常记录数。必须在元数据扩充资产中启用将数据质量异常写入数据库表。

最大异常输出记录数

确定对于每次数据质量检查，每个列最多写入输出表的问题数。缺省设置为 100。

输出位置

设置用于存储数据质量异常的默认输出表：

选择连接。
根据所选连接，选择模式和表，或选择目录、模式和表来存储异常。
作为选项，选择一个表来存储发现问题的整行（异常记录）。您可以从创建异常表的模式中选择一个现有表，或在该模式中创建一个新表。

您可以从现有模式和表中进行选择，也可以在现有模式中创建新表。有关支持哪些数据源作为输出目标的信息，请参阅支持的数据源中的列 输出表 。模式和表名必须遵循以下约定:

名称的第一个字符必须是字母字符。
其余名称可以由字母字符，数字字符或下划线组成。
名称不得包含空格。

要为输出创建新表，请输入名称，而不是从可用表中进行选择。请注意，表名不得包含任何特殊字符。

为了仅存储质量问题，将使用以下列定义创建新表:

asset_id VARCHAR(40),
issue_type VARCHAR(64),
column1 VARCHAR(128),
value1 VARCHAR(64),
column2 VARCHAR(128),
value2 VARCHAR(64)

为了存储质量问题和异常记录，将使用以下列定义创建质量问题的新表:

asset_id VARCHAR(40),
issue_type VARCHAR(64),
column VARCHAR(128),
row_id VARCHAR(64)

将使用以下列定义创建用于存储异常记录的新表:

asset_id VARCHAR(40),
row_id  VARCHAR(64),
row_data CLOB

如果为任一类型的输出选择现有表，那么所选表必须具有预期输出的相应结构。

如果连接已锁定，那么将要求您输入个人凭证。这是一次性步骤，用于为您永久解锁该连接。

键关系

键关系由主键和外键组成，定义关系数据库中两个数据资产之间的关系。

建议阈值

定义建议的主键与外键之间的关系所需的最小置信度。缺省设置为 80%。

当您运行基本密钥关系分析时，将应用此阈值; 此阈值不会应用于深入的密钥关系分析或重叠分析。您可以为每个单独运行的这些分析类型设置建议阈值。请参阅识别关系。

要自动分配关系，请选择自动分配选项并设置分配阈值。

分配阈值

定义自动分配主键和外键之间关系所需的最低置信度。缺省设置为 90%。

当自动分配键关系时，父资产中的相应主键也会自动分配。但是，一个数据资产不能分配多个主键。因此，如果检测到某项资产具有多个具有不同主键的关键关系，则只能分配一种关系。具有最高置信度分数的关系候选者将被分配。该置信度分数是根据主键分析的置信度分数计算得出的。如果所有关系候选人都具有相同的置信度分数，则不会分配任何关系候选人。

当您运行基本键关系分析时，将应用这些设置。它们不适用于深入的关键关系分析或重叠分析。对于这些类型的分析，您可以启用关系的自动分配并为每次单独的运行设置分配阈值。请参阅识别关系。

了解更多信息

父主题: 扩充数据资产