Go back to the English version of the documentation配置分类或回归试验
配置分类或回归试验
Last updated: 2024年10月07日
AutoAI 提供了可用于配置和定制分类或回归实验的实验设置。
试验设置概述
上载实验数据并选择实验类型和要预测的内容后, AutoAI 将为实验建立缺省配置和度量。 您可以接受这些缺省值并继续进行试验,或者单击 试验设置 以定制配置。 通过定制配置,可以精确控制试验如何构建候选模型管道。
使用下表作为分类和回归实验的实验设置指南。 有关配置时间序列试验的详细信息,请参阅 构建时间序列试验。
预测设置
大多数预测设置位于主 常规 页面上。 复审或更新以下设置。
设置 | 描述 |
---|---|
预测类型 | 您可以更改或覆盖预测类型。 例如,如果 AutoAI 仅检测两个数据类并配置二进制分类试验,但您知道有三个数据类,那么可以将类型更改为 multiclass。 |
阳性类 | 对于针对 精度, 平均精度, 重新调用或 F1进行优化的二元分类实验,需要一个正类。 请确认正向类正确无误,否则该试验可能会生成不准确的结果。 |
优化度量 | 更改用于对模型候选管道进行优化和排名的度量。 |
优化算法选择 | 选择 AutoAI 如何选择要用于生成模型候选管道的算法。 您可以对具有最佳分数的算法进行优化,也可以在最短运行时间内对具有最高分数的算法进行优化。 |
要包括的算法 | 选择运行试验时要评估的可用算法。 算法列表基于选定的预测类型。 |
要使用的算法 | AutoAI 测试指定的算法并使用最佳执行程序来创建模型管道。 选择要应用的最佳算法数量。 每个算法都会生成 4-5 管道,这意味着如果选择 3 算法进行使用,那么实验结果将包含 12-15 个排名的管道。 更多算法会增加试验的运行时。 |
数据公平性设置
单击 公平性 选项卡以评估您的试验在预测结果中的公平性。 有关配置公平性检测的详细信息,请参阅 将公平性测试应用于 AutoAI 实验。
数据源设置
数据源设置的 常规 选项卡提供了一些选项,用于配置试验如何使用和处理用于训练和评估试验的数据。
设置 | 描述 |
---|---|
排序数据 | 指定是否根据行索引按顺序对训练数据进行排序。 当输入数据是连续的时,将根据最新记录而不是随机抽样来评估模型性能,并且保留数据将使用集合的最后 n 条记录而不是 n 条随机记录。 时间序列实验需要顺序数据,但分类和回归实验可选。 |
重复行 | 为了加速训练,您可以选择跳过训练数据中的重复行。 |
管道选择子采样方法 | 对于大型数据集,使用数据子集来训练试验。 此选项会加快结果速度,但可能会影响准确性。 |
功能优化 | 指定如何处理对模型没有影响的特征。 选择是始终除去功能部件,在提高模型质量时除去这些功能部件,或者不除去这些功能部件。 有关如何计算特征显着性的详细信息,请参阅 AutoAI 实现详细信息。 |
数据插补 | 在数据源中内插缺失值。 有关管理数据插补的详细信息,请参阅 AutoAI 实验中的数据插补。 |
文本特征工程 | 启用时,检测为文本的列将转换为向量,以更好地分析字符串之间的语义相似性。 启用此设置可能会增加运行时间。 有关详细信息,请参阅创建文本分析试验。 |
最终训练数据集 | 选择要用于训练最终管道的数据。 如果选择仅包含训练数据,那么生成的 Notebook 将包含一个单元,用于检索用于评估每个管道的保留数据。 |
离群值处理 | 选择 AutoAI 是否从目标列中排除离群值以提高训练准确性。 如果启用此选项,那么 AutoAI 将使用四分位距 (IQR) 方法来检测和排除最终训练数据中的离群值,无论该数据是仅训练数据还是训练加坚持数据。 |
训练和维持方法 | 训练数据用于训练模型,而保留数据不用于训练模型,而是用于度量模型的性能。 您可以将单个数据源拆分为训练和测试 (holdout) 数据,也可以将第二个数据文件专门用于测试数据。 如果拆分训练数据,请指定要用于训练数据和保留数据的百分比。 您还可以指定折数,从缺省的 3 个折到最大的 10 个折。 交叉验证将训练数据划分为折或组,以测试模型性能。 |
选择要包括的特征 | 从数据源中选择包含支持预测列的数据的列。 排除无关列可以改善运行时间。 |
运行时设置
复审试验设置或更改为运行试验而分配的计算资源。
后续步骤
父主题: 构建 AutoAI 模型