每个概要文件都包含多个级别的信息。
信息分组如下:
将高级剖析结果写入输出表时,无论实际数据类型如何,值都以字符串形式存储。 在这种情况下,对数据类、格式或类型进行排序时会应用字符串排序顺序。
统计信息
统计信息 选项卡提供列中已分析数据的结构的摘要以及该结构信息的不同类型的可视化。 准确显示的信息取决于列是包含 连续 (定量) 还是 名义 (定性) 数据。
图表
根据列中的数据类型,可以在不同类型的可视化之间进行选择:
名义数据:
- 条形图
- 比例或饼图
- 排列图
连续数据:
- 直方图
- 箱线图
- 分位数 (Q-Q) 散点图
分布图可用于所有类型的数据。 分布表通常至少列出列中最频繁的值 (或区间) 及其计数。 该表可能显示其他信息,例如格式,类型或数据类。 要查看包含特定值的各个行,请单击 显示行。
非数值(如字符串值)的分布统计只显示前 100 个不同的值,而不管实际存储了多少个值。 要访问输出表中的所有值,请使用标准数据库查询或 .NET Framework 4.0。
在条形图或直方图图表上,您可以选择覆盖列,以查看其值在当前查看的列的每个值中的分布情况。 例如,如果您有带有已售烘焙商品的列,并选择覆盖列季节,那么可以查看特定面包店产品的每个季节的销售额有何不同。 对于覆盖列,可以从数据资产中包含名义数据的所有列中选取。
目录
摘要 磁贴提供有关所选列中数据的常规信息:
- 数据源中定义的列的数据类型
- 通过分析推断的数据类型
- 该列中不同数据格式的数量
- 该列的最常用推断格式
- 分配的数据类
- 数据度量的类型 (
nominal
或continuous
) - 已检查的行数 (即,值数)
基本统计量
基本统计信息提供有关所选列中值的分布和离散的常规信息。 根据列的数据格式,统计信息略有不同。 例如,数据类型为整数的列的统计信息具有最小值、最大值和平均值,数据类型为字符串的列的统计信息具有最小长度值、最大长度值和平均长度值。
度量 | 描述 | 针对此类型的数据显示 |
---|---|---|
基数 | 列中唯一相异值 (包括空格和空值) 的百分比。 它通过将列中的不同值的总数除以该列中的值的总数来计算。 | 连续 |
区分 | 列的采样数据中存在的不同值的数目。 | 连续 |
熵 | 此值量化列保留的信息量。 更一般地说, en熵 可用于量化事件和随机变量中的信息。 此数量不仅根据变量中存在的不同值的数量进行估算,还根据意外值的数量进行估算。 | 名义 |
Gini | 随机选择特定元素时未正确分类的概率程度以及基尼系数的变化。 Gini 索引可以从 0 到 1 不同,其中 0 指示所有元素都属于某个类,或者只有一个类存在于该类中。 基尼索引 1 指示所有元素都随机分布在各个类中。 值 0.5 指示元素在某些类中均匀分布 | 名义 |
最大值 | 数字变量的最大值 | 连续 |
平均值 | 算术平均值,总和除以值数 | 连续 |
中位数 | 值的上半部分和下半部分。 如果存在偶数个值,那么中位数是两个中间值在排序时的平均值。 中位数不受离群值影响 | 连续 |
最小值 | 数字变量的最小值 | 连续 |
缺少 | 样本中没有值的行数。 | 连续 名义 |
方式 | 列中出现频率最高的值。 如果出现多个频率相同的值,那么每个值都是一个方式。 | 连续 名义 |
离群值 | 列数据中远离列中大多数其他值的值数。 | 连续 |
范围 | 列中的最大值与最小值之间的差值。 | 连续 |
总和 | 具有值的所有列中值的总和或总计。 | 连续 |
唯一 | 在当前列中仅出现一次的相异值的数目。 | 连续 名义 |
有效 | 被视为有效的值的数量,这意味着将排除空的或缺少的列值。 | 连续 名义 |
高级洞察
有关所选列中值的分布和离散的深入信息。 仅针对连续数据显示此信息:
度量 | 描述 |
---|---|
第 25 个百分位数 | 低于该值的 25% 和超过该值的 75% 的检测值。 |
第 75 个百分位数 | 高于此值的 25% 和低于此值的 75% 检测到的值。 |
峰度 | 存在离群值 (分布的尾数 ) 的程度的度量。 过量峰度是分布相对于正态分布的尾数。 对于正态分布,峰度统计量的值为零。 正峰度值表示数据呈现比正态分布更极端的离群值。 负峰度表示数据表现出比正态分布更少的极端离群值。 具有中峰度 (中尾) 的分布是中峰度分布。 具有低峰度 (细尾) 的分布是高原性的。 |
平均值标准误差 错误 | 数据的样本平均值 (平均值) 可能与真实总体平均值的距离的度量。 |
标准 偏差 | 对围绕平均值的离差的测量。 如果标准差较低,那么值通常接近平均值。 有了高标准差,值的范围就更广了。 |
偏度 | 一种分布不对称性的度量。 当其左右两侧不是镜像时,一个分布是不对称的。 分布可以具有右 (或正) ,左 (或负) 或零偏度 (对称分布)。 |
方差 | 对围绕平均值的离差的测量。 它是随机变量与其总体平均值或样本平均值的平方偏差的期望。 |
数据类
对于数据类分配,将显示以下信息:
所选数据类,这是分配给列的数据类。 它与检测到的数据类相同,除非您手动对其进行了更改。
检测到的数据类,这是分析检测到的列的最佳匹配数据类。
分配的数据类的 置信度分数 。 数据类的置信度是与数据类匹配的非空值的百分比。 多个数据类是在列级别检测到并分配的更通用标识。 在值级别无法识别更具体的数据类时,就会分配这些数据类。 通用标识符的置信度始终为 100%,包括以下数据类别:代码、标识符、指示符、数量和文本
按降序排列的分析期间检测到的所有数据类的列表,顶部是最佳匹配 (最高置信度)。 对于每个数据类,将显示置信度分数和数据类优先级。
对于每个检测到的数据类,可能会根据数据类的作用域显示其他信息。
对于根据列数据进行匹配的数据类,将列出与此特定数据类的条件匹配的列值。 计数 (%) 列显示样本中包含特定值的行数以及具有该值的行的百分比。 此外,还显示了每个匹配值的格式。
对于根据列名进行匹配的数据类,以及代码、标识符、指示符、数量和文本等通用数据类,不显示其他信息。 当数据值不允许标识特定数据类时,将使用这些数据类。 通用数据类始终具有 100% 的置信度。
有关更多信息,请参阅 数据类。
格式
将显示为该列推断的格式,检测到的格式数以及所有检测到的格式的列表。
格式表示数据值的字符模式。 每个字母字符都由大写或小写字母 A 表示,具体取决于字符的大写。 每个数字字符都由数字 9 表示。 空格和特殊字符在显示时显示。
检测到的格式列表显示找到了多少具有特定格式的值以及具有该格式的值的总体百分比。 单击某个条目以查看与模式匹配的值。 请注意,仅检索 100 个值以进行显示,因此值列表可能不包含所有值,甚至可能为空。
类型
显示了以下信息:
- 数据源中定义的列的数据类型
- 通过分析推断的数据类型
- 该列中值的最小长度
- 该列中值的最大长度
- 列值的平均长度
- 列中所有数据类型的列表
数据类型描述列是否包含特定类型 (例如整数,字符串或日期类型) 的数据。
通常,列的最佳数据类型很明显,因为大部分或全部列值都是相同的数据类型。 但是,当列表包含多个不同的数据类型时,请检查推断的数据类型的频率计数。 如果该频率计数相对于表的行计数较低,那么无效的数据值可能会导致推断出错误的数据类型。
了解更多信息
父主题: 查看元数据扩充结果