0 / 0
Go back to the English version of the documentation
数据资产的概要文件
Last updated: 2024年11月28日
数据资产的概要文件

资产概要文件包含生成的有关资产内容的元数据和统计信息,并帮助您了解要采取哪些操作来提高数据质量。 您可以在资产的 " 概要文件 " 页面上查看概要文件。

可以为包含关系数据或结构化数据的数据资产创建概要文件。

要求和限制

您可以在以下情况下查看资产的概要文件。

个必需的服务

概要分析需要 IBM Knowledge Catalog 服务。

必需的许可权

您的角色可确定如何与概要文件进行交互:

  • 要查看此页面,您可以在项目或目录中具有任何角色。
  • 要创建或更新概要文件或在项目中运行元数据扩充,您必须在项目中具有 管理员编辑者 角色。
  • 要在目录中创建或更新概要文件,您必须在目录中具有 管理员 角色,或者必须具有 编辑者 角色,并且必须是资产所有者或资产成员。

工作空间

您可以在以下工作空间中查看资产概要文件:

  • 项目
  • 目录

资产类型

这些类型的资产具有概要文件:

  • 从连接到数据源的关系数据库或非关系数据库中的数据资产 ( Cloudant 除外)

  • 来自分区数据集的数据资产,其中分区数据集由多个文件组成,并由从本地文件系统或从基于文件的数据源连接上载的单个文件夹表示

  • 从本地文件系统上载的文件或从基于文件的连接到数据源的数据资产,格式如下:

    • CSV
    • XLS , XLSM 和 XLSX (仅对工作簿中的第一个工作表进行概要分析。)
    • TSV
    • Avro
    • Parquet

    但是,当数据资产未显式引用结构化数据文件时,不会对这些数据文件进行概要分析,例如在以下情况下:

    • 这些文件位于已连接的文件夹资产中。 可从已连接文件夹资产访问的文件不会被视为资产,也不会进行概要分析。
    • 这些文件位于归档文件中,例如 .zip 文件。 该归档文件由数据资产引用,并且不会对压缩文件进行概要分析。

限制

对于Data Virtualization和watsonx.data视图资产,禁止所有用户访问剖析结果,以防止意外暴露值分布。

用于创建概要文件的方法

可以通过不同方式创建资产概要文件:

  • 在受管目录中,将数据资产添加到目录时,将自动创建个别数据资产的概要文件,但存在以下例外情况:

    • 您已禁用目录的自动概要分析。
    • 资产来自配置为使用个人凭证的连接。
    • 在发布资产之前,已通过元数据扩充对其进行概要分析。 此类资产已具有与该资产一起添加到目录的概要文件。
  • 在没有数据保护规则实施的项目和目录中,可以 手动创建概要文件 以用于单个数据资产。 如果先前未对资产进行概要分析,那么还可以在受管目录中手动创建概要文件。

  • 在项目中,您可以创建并运行元数据扩充资产,以便一次性对大型数据资产集进行概要分析。 这些资产概要文件在项目中可用。 您可以将扩充资产及其概要文件发布到任何类型的目录。 请参阅管理元数据丰富

在一个帐户中,当您将资产从项目发布到目录或将其从目录添加到项目时,会将概要分析结果与数据资产一起复制。 但是,如果目录和项目属于不同的帐户,那么不会复制概要文件,因为可用数据类的集合可能不同。

您可以从资产的 " 概要文件 " 页面更新项目或目录中的单个资产概要文件。 如果手动更新包含在元数据扩充项中的数据资产的概要文件,那么概要文件和分析信息也会反映在相应的扩充项结果中。 发布新的扩充项结果时,还会更新概要文件。

更新现有概要文件时,可以更改要包含在概要文件中的数据类。 如果排除先前分配给列的数据类,那么更新后的概要文件将显示相应列的 排除的类 (从概要文件中) ,除非分配了其他数据类。 对于您无权访问已分配数据类的任何列,您还将看到 类已排除 (从概要文件中)

概要分析期间分析了哪些内容?

如果从项目或目录中的 " 概要文件 " 页面创建或更新资产概要文件,那么将分析列。

在项目或目录中对单个资产进行概要分析时,缺省情况下将根据前 5,000 行数据创建概要文件。 如果数据资产具有超过 250 列,那么将根据前 1,000 行数据创建概要文件。 如果概要文件是通过元数据扩充项创建的,那么采样由元数据扩充项设置确定。

要确定数据的结构和内容并对其进行分类,分析包括以下任务:

  • 计算有关每个已分析列的数据的统计信息。
  • 计算列的数据类型以及数据类型分布。
  • 计算列的数据格式以及格式分布。
  • 对数据进行分类,并计算列的数据类候选项。
  • 捕获频率分布。

概要文件信息

数据资产的概要文件显示有关数据资产中每个列的信息。

概要文件 选项卡提供了一些常规信息以及分析结果的概述:

  • 创建或上次更新概要文件的时间。

  • 分析了多少列和多少行。

  • 每个列的推断数据类别,以及该数据类别适用于整个列的置信度。 对于手动分配的数据类别,不显示置信度。

    数据类描述列中的数据内容,例如,城市、帐号或信用卡号。 数据类可用于 屏蔽数据 或使用数据保护规则 限制对数据资产的访问 。 每一列的数据类别都会显示在目录中资产的概述页面以及目录或项目的配置文件页面上。

    有关匹配、不匹配或缺失数据的详细信息,请查看数据质量页面或列简介中的信息。

  • 列中标识的所有值的频率分布。

  • 有关每个列的数据的统计信息,例如相异值的数量,唯一值的百分比,最小值,最大值或平均值,有时还包括该列中的标准差。 distinct 值的数量指示列的采样数据中存在的不同值的数量。 唯一 值的百分比指示仅在列中出现一次的不同值的百分比。

    根据列的数据格式,统计信息略有不同。 例如,数据类型为整数的列的统计信息具有最小值,最大值和平均值以及标准偏差值,而数据类型为字符串的列的统计信息具有最小长度,最大长度和平均长度值。

单击列名时,将提供有关列数据的更多详细信息。 请参阅 详细概要分析结果

当数据资产存在于目录或项目中时,将保留并显示最新的资产概要文件,即使数据源中的原始数据暂时或永久不可用也是如此。 要除去概要文件信息,您可以使用以下选项:

  • 您可以在 " 概要文件 " 页面上手动删除概要文件。 如果资产受任何数据保护规则约束,那么此选项不可用。
  • 您可以从项目或目录中手动删除数据资产。
  • 如果资产是通过元数据导入添加的,那么可以使用相应的 重新导入时删除 选项集来重新运行元数据导入。

了解更多信息

父主题: 资产类型和属性

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more