Go back to the English version of the documentation验证 Data Refinery 中的数据
验证 Data Refinery 中的数据
Last updated: 2024年10月07日
将数据添加到 Data Refinery后,您可以随时验证 数据。 通常,您需要在优化过程中的多个点执行此操作。
要验证数据,请执行以下操作:
在 Data Refinery 中单击概要文件选项卡。
查看每列的 度量。
根据您所了解的内容,按以下部分所述执行相应操作。
频率
频率是指某个值或指定范围内的某个值的出现次数。 每个频率分布(条形)显示列中唯一值的计数。
复审频率分布以找到数据中的异常。 如果要清理存在异常情况的数据,只需移除这些值。
对于“整数”和“日期/时间”列,您可以定制要查看的分箱(分组)数。 在缺省的多列视图中,最大值为 20。 如果展开频率图表行,最大值为 50。
统计信息
统计信息是定量数据的集合。 各列的统计信息显示该列中唯一值的最小值、最大值、平均值和数量。
根据列的数据类型,每列的统计信息将略有不同。 例如,数据类型为整数的列的统计信息具有最小值、最大值和平均值,数据类型为字符串的列的统计信息具有最小长度值、最大长度值和平均长度值。
父主题: 优化数据