Go back to the English version of the documentationAutoAI 实验中的数据插补
AutoAI 实验中的数据插补
Last updated: 2024年10月07日
数据插补是将数据集中的缺失值替换为替代值的方法。 如果启用插补,那么可以指定如何在数据中插入缺失值。
按实验类型插补
插补方法取决于您构建的实验类型。
- 对于分类和回归,可以配置分类和数字插补方法。
- 对于时间序列问题,可以从一组插补方法中选择应用于数字列。 当实验运行时,将自动应用来自集合的最佳执行方法。 您还可以指定特定值作为替换值。
启用插补
要查看和设置插补选项:
- 配置试验时,单击 试验设置 。
- 单击 数据源 选项。
- 单击 启用数据插补。 请注意,如果未显式启用数据插补,但数据源缺少值,那么 AutoAI 会警告您并应用缺省插补方法。 请参阅 插补详细信息 (imputation details)。
- 在 "插补" 部分中选择选项。
- (可选) 为数据列可接受的插补百分比设置阈值。 如果缺失值的百分比超过指定的阈值,那么试验将失败。 要解决此问题,请更新数据源或调整阈值。
配置分类和回归实验的插补
选择下列其中一种方法来插补二元分类,多类分类或回归实验中的缺失数据。 请注意,可以使用一种方法来完成基于文本的 (分类) 数据的值,也可以使用另一种方法来完成数字数据的值。
方法 | 描述 |
---|---|
最频繁 | 将缺失值替换为列中出现频率最高的值。 |
中位数 | 将缺失值替换为排序列中间的值。 |
平均值 | 将缺失值替换为列的平均值。 |
配置时间序列实验的插补
选择部分或全部这些方法。 选择多种方法时,会自动应用性能最佳的方法进行实验。
注: 日期或时间值不支持插补。
方法 | 描述 |
---|---|
立方 | 通过使用 pandas/scipy 方法来填充缺失值,从而使用三次插值。 |
填充 | 选择 value 作为将缺失值替换为您指定的数字值的类型。 |
平铺迭代 | 首先将数据序列化,然后应用 Scikit-learn 迭代插补器来查找缺失值。 |
线性 | 通过使用 pandas/scipy 方法来填充缺失值,从而使用线性插值。 |
下一步 | 将缺失值替换为下一个值。 |
上一步 | 将缺失值替换为先前值。 |
后续步骤
父主题: AutoAI 概述