0 / 0
Go back to the English version of the documentation
配置分类或回归试验
Last updated: 2024年10月07日
配置分类或回归试验

AutoAI 提供了可用于配置和定制分类或回归实验的实验设置。

试验设置概述

上载实验数据并选择实验类型和要预测的内容后, AutoAI 将为实验建立缺省配置和度量。 您可以接受这些缺省值并继续进行试验,或者单击 试验设置 以定制配置。 通过定制配置,可以精确控制试验如何构建候选模型管道。

使用下表作为分类和回归实验的实验设置指南。 有关配置时间序列试验的详细信息,请参阅 构建时间序列试验

预测设置

大多数预测设置位于主 常规 页面上。 复审或更新以下设置。

设置 描述
预测类型 您可以更改或覆盖预测类型。 例如,如果 AutoAI 仅检测两个数据类并配置二进制分类试验,但您知道有三个数据类,那么可以将类型更改为 multiclass
阳性类 对于针对 精度平均精度重新调用F1进行优化的二元分类实验,需要一个正类。 请确认正向类正确无误,否则该试验可能会生成不准确的结果。
优化度量 更改用于对模型候选管道进行优化和排名的度量。
优化算法选择 选择 AutoAI 如何选择要用于生成模型候选管道的算法。 您可以对具有最佳分数的算法进行优化,也可以在最短运行时间内对具有最高分数的算法进行优化。
要包括的算法 选择运行试验时要评估的可用算法。 算法列表基于选定的预测类型。
要使用的算法 AutoAI 测试指定的算法并使用最佳执行程序来创建模型管道。 选择要应用的最佳算法数量。 每个算法都会生成 4-5 管道,这意味着如果选择 3 算法进行使用,那么实验结果将包含 12-15 个排名的管道。 更多算法会增加试验的运行时。

数据公平性设置

单击 公平性 选项卡以评估您的试验在预测结果中的公平性。 有关配置公平性检测的详细信息,请参阅 将公平性测试应用于 AutoAI 实验

数据源设置

数据源设置的 常规 选项卡提供了一些选项,用于配置试验如何使用和处理用于训练和评估试验的数据。

设置 描述
排序数据 指定是否根据行索引按顺序对训练数据进行排序。 当输入数据是连续的时,将根据最新记录而不是随机抽样来评估模型性能,并且保留数据将使用集合的最后 n 条记录而不是 n 条随机记录。 时间序列实验需要顺序数据,但分类和回归实验可选。
重复行 为了加速训练,您可以选择跳过训练数据中的重复行。
管道选择子采样方法 对于大型数据集,使用数据子集来训练试验。 此选项会加快结果速度,但可能会影响准确性。
功能优化 指定如何处理对模型没有影响的特征。 选择是始终除去功能部件,在提高模型质量时除去这些功能部件,或者不除去这些功能部件。 有关如何计算特征显着性的详细信息,请参阅 AutoAI 实现详细信息
数据插补 在数据源中内插缺失值。 有关管理数据插补的详细信息,请参阅 AutoAI 实验中的数据插补
文本特征工程 启用时,检测为文本的列将转换为向量,以更好地分析字符串之间的语义相似性。 启用此设置可能会增加运行时间。 有关详细信息,请参阅创建文本分析试验
最终训练数据集 选择要用于训练最终管道的数据。 如果选择仅包含训练数据,那么生成的 Notebook 将包含一个单元,用于检索用于评估每个管道的保留数据。
离群值处理 选择 AutoAI 是否从目标列中排除离群值以提高训练准确性。 如果启用此选项,那么 AutoAI 将使用四分位距 (IQR) 方法来检测和排除最终训练数据中的离群值,无论该数据是仅训练数据还是训练加坚持数据。
训练和维持方法 训练数据用于训练模型,而保留数据不用于训练模型,而是用于度量模型的性能。 您可以将单个数据源拆分为训练和测试 (holdout) 数据,也可以将第二个数据文件专门用于测试数据。 如果拆分训练数据,请指定要用于训练数据和保留数据的百分比。 您还可以指定折数,从缺省的 3 个折到最大的 10 个折。 交叉验证将训练数据划分为折或组,以测试模型性能。
选择要包括的特征 从数据源中选择包含支持预测列的数据的列。 排除无关列可以改善运行时间。

运行时设置

复审试验设置或更改为运行试验而分配的计算资源。

后续步骤

配置文本分析试验

父主题: 构建 AutoAI 模型

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more