0 / 0
Go back to the English version of the documentation
AutoAI 实验中的数据插补
Last updated: 2024年10月07日
AutoAI 实验中的数据插补

数据插补是将数据集中的缺失值替换为替代值的方法。 如果启用插补,那么可以指定如何在数据中插入缺失值。

按实验类型插补

插补方法取决于您构建的实验类型。

  • 对于分类和回归,可以配置分类和数字插补方法。
  • 对于时间序列问题,可以从一组插补方法中选择应用于数字列。 当实验运行时,将自动应用来自集合的最佳执行方法。 您还可以指定特定值作为替换值。

启用插补

要查看和设置插补选项:

  1. 配置试验时,单击 试验设置
  2. 单击 数据源 选项。
  3. 单击 启用数据插补。 请注意,如果未显式启用数据插补,但数据源缺少值,那么 AutoAI 会警告您并应用缺省插补方法。 请参阅 插补详细信息 (imputation details)
  4. 在 "插补" 部分中选择选项。
  5. (可选) 为数据列可接受的插补百分比设置阈值。 如果缺失值的百分比超过指定的阈值,那么试验将失败。 要解决此问题,请更新数据源或调整阈值。

配置分类和回归实验的插补

选择下列其中一种方法来插补二元分类,多类分类或回归实验中的缺失数据。 请注意,可以使用一种方法来完成基于文本的 (分类) 数据的值,也可以使用另一种方法来完成数字数据的值。

方法 描述
最频繁 将缺失值替换为列中出现频率最高的值。
中位数 将缺失值替换为排序列中间的值。
平均值 将缺失值替换为列的平均值。

配置时间序列实验的插补

选择部分或全部这些方法。 选择多种方法时,会自动应用性能最佳的方法进行实验。

注: 日期或时间值不支持插补。
方法 描述
立方 通过使用 pandas/scipy 方法来填充缺失值,从而使用三次插值。
填充 选择 value 作为将缺失值替换为您指定的数字值的类型。
平铺迭代 首先将数据序列化,然后应用 Scikit-learn 迭代插补器来查找缺失值。
线性 通过使用 pandas/scipy 方法来填充缺失值,从而使用线性插值。
下一步 将缺失值替换为下一个值。
上一步 将缺失值替换为先前值。

后续步骤

时间序列实验的数据插补实现详细信息

父主题: AutoAI 概述

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more