Go back to the English version of the documentation时间序列实验的数据插补实现详细信息
时间序列实验的数据插补实现详细信息
Last updated: 2024年10月07日
用于时间序列实验中的数据插补的实验设置。
数据插补方法
在实验设置中应用这些数据插补方法之一,以提供数据集中的缺失值。
插补方法 | 描述 |
---|---|
FlattenIterative | 首先将时间序列数据序列化,然后使用 Scikit-learn 迭代插补器插补缺失值。 |
线性 | 线性插值方法用于插补缺失值。 |
立方 | 三次插值方法用于插补缺失值。 |
上一步 | 缺失值与先前值插补。 |
下一步 | 缺失值与下一个值插补。 |
填充 | 通过使用用户指定的值,样本平均值或样本中位数来插补缺失值。 |
输入设置
这些命令用于支持在 Notebook 中进行时间序列实验的数据插补。
名称 | 描述 | 值 | DefaultValue |
---|---|---|---|
use_imputation | 用于打开或关闭插补的标志。 | "真" 或 "假" | 对 |
插补列表 | 要搜索的插补者名称 (字符串) 的列表。 如果未指定列表,那么将搜索所有缺省插补。 如果传递空列表,那么将搜索所有插补。 | "FlattenIterative","线性"、"立方体"、"上一步"、"填充"、"下一步" | "FlattenIterative","、"Cubic"、"Previous" |
imputer_fill_type | "填充" 插补器的类别 | "mean"/"median"/"value" | "value" |
imputer_fill_value | 要为所有缺失值填充的单个数字值。 仅当将 "imputer_fill_type" 指定为 "value" 时才适用。 如果为 "imputer_fill_type" 指定了 "mean" 或 "median" ,那么将忽略此值。 | (负英菲尼迪,正英菲尼迪) | 0 |
Imputation_threshold | 插补阈值。 缺失值比率不得大于一列中的阈值。 否则,将导致错误。 | (0, 1) | 0.25 |
use_imputation 用法说明
如果将
use_imputation
方法指定为True
,并且输入数据具有缺失值:imputation_threshold
生效。imputer_list
中的插补器候选项将用于搜索最佳插补器。- 如果最佳插补是
Fill
,那么将应用imputer_fill_type
和imputer_fill_value
; 否则将忽略这些插补。
如果
use_imputation
方法指定为True
,并且输入数据没有缺失值:- 将忽略
imputation_threshold
。 imputer_list
中的插补器候选项用于搜索最佳插补器。 如果最佳插补是Fill
,那么将应用imputer_fill_type
和imputer_fill_value
; 否则将忽略这些插补。
- 将忽略
如果
use_imputation
方法指定为False
,但输入数据缺少值:- 打开
use_imputation
时带有警告,然后该方法遵循第一个方案的行为。
- 打开
如果
use_imputation
方法指定为False
,并且输入数据没有缺失值,那么无需进一步处理。
例如:
"pipelines": [
{
"id": "automl",
"runtime_ref": "hybrid",
"nodes": [
{
"id": "automl-ts",
"type": "execution_node",
"op": "kube",
"runtime_ref": "automl",
"parameters": {
"del_on_close": true,
"optimization": {
"target_columns": [2,3,4],
"timestamp_column": 1,
"use_imputation": true
}
}
}
]
}
]
父主题: AutoAI 实验中的数据插补