以下列表包含 AutoAI已知的常见问题。 如果 AutoAI 试验未能成功运行或部署,请查看以下一些常见问题和解决方法。
利用大型数据集加快实验训练
如果发现模型训练超时或耗时过长,请考虑以下缩短训练时间的指导原则:
从 AutoAI 工具的实验设置页面:
- 确保优化算法选择选项设置为分数和运行时间。
- 禁用 XGBRegressor 模型。 这种调整可以帮助您更快地获得结果,但分数可能会稍低一些。
对于编码实验:
- 按照SDK 文档中的描述,传递 "
daub_give_priority_to_runtime
参数。注意: 该参数会增加实验的不确定性(不可再现性)。
将不完整的输入值或离群值传递到部署可能会导致离群值预测
部署机器学习模型后,请注意,提供与用于训练模型的数据明显不同的输入数据可能会生成离群值预测。 当向线性回归算法 (例如岭和 LinearRegression ) 传递超出刻度的输入值时,模型会推断这些值并为其分配相对较大的权重,从而生成不符合一致数据的分数。
具有支持功能的时间序列管道检索失败
如果使用支持功能部件训练 AutoAI 时间序列试验,并且在系统尝试检索管道以进行预测时收到错误 "Error: name 'tspy_内插器' is not defined" ,请检查以确保系统正在运行 Java 8 或更高版本。
运行管道或实验笔记本失败,发生软件规范错误
如果 AutoAI 试验的受支持软件规范发生更改,那么在运行使用较旧的软件规范 (例如较旧版本的 Python) 构建的 Notebook 时,可能会发生错误。 在这种情况下,再次运行试验,然后保存新的 Notebook 并重试。
解决内存不足错误
如果从 AutoAI 生成的 Notebook 运行单元时迂到内存错误,请为 AutoAI Notebook 创建具有更多资源的 Notebook 运行时,然后再次执行该单元。
使用二次采样的试验 Notebook 可能无法生成预测
如果执行管道优化以准备模型,并且试验在训练期间使用数据的子采样,那么在运行从试验保存的 Notebook 时,可能会迂到 "未知类" 错误。
问题源自未包含在训练数据集中的未知类。 变通方法是使用整个数据集进行训练或重新创建实验中使用的子采样。
要在 fit()
之前进行训练数据二次采样,请如该试验所示,按行数或按样本比例提供样本大小。
如果在子采样设置中使用了记录数,那么可以增大
n
的值。 例如:train_df = train_df.sample(n=1000)
如果二次采样表示为数据集比例,请增大
frac
的值。 例如:train_df = train_df.sample(frac=0.4, random_state=experiment_metadata['random_state'])
管道创建在二元分类时失败
AutoAI 分析了一部分数据以确定试验类型的最佳匹配。 如果预测列中的样本数据仅包含两个值,AutoAI 会建议二元分类试验并应用相关算法。 但是,如果完整数据集在预测列中包含两个以上的值,那么二进制分类将失败,并且您会收到指示 AutoAI 无法创建管道的错误。
在这种情况下,请手动将试验类型从二元更改为多类(对于定义的值集)或回归(对于不明确的值集)。
- 单击重新配置试验图标以编辑试验设置。
- 在 "试验设置" 的 " 预测 " 页面上,将预测类型更改为与预测列中的数据最匹配的预测类型。
- 保存更改并重新运行试验。
后续步骤
父主题: AutoAI 概述