0 / 0
Go back to the English version of the documentation
验证 Data Refinery 中的数据
Last updated: 2024年10月07日
验证 Data Refinery 中的数据

将数据添加到 Data Refinery后,您可以随时验证 数据。 通常,您需要在优化过程中的多个点执行此操作。

要验证数据,请执行以下操作:

  1. 在 Data Refinery 中单击概要文件选项卡。

  2. 查看每列的 度量。

  3. 根据您所了解的内容,按以下部分所述执行相应操作。

频率

频率是指某个值或指定范围内的某个值的出现次数。 每个频率分布(条形)显示列中唯一值的计数。

复审频率分布以找到数据中的异常。 如果要清理存在异常情况的数据,只需移除这些值。

对于“整数”和“日期/时间”列,您可以定制要查看的分箱(分组)数。 在缺省的多列视图中,最大值为 20。 如果展开频率图表行,最大值为 50。

统计信息

统计信息是定量数据的集合。 各列的统计信息显示该列中唯一值的最小值、最大值、平均值和数量。

根据列的数据类型,每列的统计信息将略有不同。 例如,数据类型为整数的列的统计信息具有最小值、最大值和平均值,数据类型为字符串的列的统计信息具有最小长度值、最大长度值和平均长度值。

父主题: 优化数据

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more