AutoAI 概述 | IBM Cloud Pak for Data as a Service

Go back to the English version of the documentation

AutoAI 概述

Last updated: 2024年11月21日

AutoAI 概述

AutoAI 图形工具分析数据，并使用数据算法，变换和参数设置来创建最佳预测模型。 AutoAI 将各种潜在模型显示为模型候选管道，并将它们排在排行榜上供您选择。

必需服务: watsonx.ai运行时; watsonx.ai工作室
所需证书: 任务证书
数据格式: 表格 :CSV 文件，所有类型的 AutoAI 实验都使用逗号 (，) 定界符。; 来自IBM Cloud Object Storage的连接数据。
数据大小: 最多 1 GB 或最多 20 GB。有关详细信息，请参阅 AutoAI 数据使用。

AutoAI 数据使用

训练数据和模型输入数据采用表格格式。表中的列名必须唯一。重复的列名将导致错误。

这些限制基于 8 CPU 和 32 GB 的缺省计算配置。

AutoAI 分类和回归实验:

对于 AutoAI 试验，您可以上载最多 1 GB 的文件。
如果连接到超过 1 GB 的数据源，那么仅使用前 1 GB 的记录。

AutoAI 时间序列实验:

如果数据源包含时间戳记列，那么 AutoAI 将以统一频率对数据进行采样。例如，数据可以以 1 分钟， 1 小时或 1 天为增量。指定的时间戳记用于确定回顾窗口以提高模型准确性。

注：
如果文件大小大于 1 GB ，那么 AutoAi 会按降序时间顺序对数据进行排序，并且仅使用第一个 1 GB 来训练试验。
如果数据源不包含时间戳记列，请确保 AutoAI 以统一时间间隔对数据进行采样，并按升序时间顺序对数据进行排序。升序排序顺序意味着第一行中的值是最旧的，而最后一行中的值是最新的。

注: 如果文件大小大于 1 GB ，请截断文件大小，使其小于 1 GB。

有关为数据和用例选择正确工具的更多信息，请参阅选择工具。

AutoAI 流程

通过使用 AutoAI，您可以构建和部署具备复杂训练功能的机器学习模型，无需编码。该工具可以为您完成大部分工作。

要查看创建特定试验的代码，或者以编程方式与该试验进行交互，可以将试验另存为 Notebook。

AutoAI 进程从结构化文件中获取数据，准备数据，选择模型类型以及生成和排列管道，以便您可以保存和部署模型。

AutoAI 会自动运行下列任务，以构建并评估候选模型管道：

数据预处理
自动化模型选择
自动化特征工程
超参数优化

了解 AutoAI 流程

有关其中每个阶段的其他详细信息，包括指向关联研究论文的链接以及用于创建模型管道的算法的描述，请参阅 AutoAI 实现详细信息。

数据预处理

大多数数据集包含不同的数据格式和缺失值，但标准机器学习算法仅适用于数字和无缺失值。因此， AutoAI 会应用各种算法或估计量来分析，清理和准备机器学习的原始数据。此方法根据特征 (例如数据类型: 分类或数字) 自动检测和分类值。根据分类， AutoAI 使用超参数优化来确定数据的缺失值插补，特征编码和特征缩放策略的最佳组合。

自动化模型选择

AutoAI 使用自动化模型选择来确定数据的最佳模型。这种新颖的方法针对数据的小子集测试潜在模型，并根据准确性对其进行排序。 AutoAI 然后选择最有希望的模型并增大数据子集的大小，直到它确定最佳匹配为止。此方法通过逐步缩小基于准确性的潜在模型来节省时间并提高性能。

有关如何处理自动生成的管道以选择最佳模型的信息，请参阅选择 AutoAI 模型。

自动化特征工程

特征工程通过将原始数据转换为最能代表问题的特征组合来识别最准确的模型。这种独特的方法以结构化，非穷举的方式探索各种特征构造选择，同时通过使用强化学习逐步最大化模型准确性。此方法将生成与模型选择步骤的算法最匹配的数据的优化变换序列。

超参数优化

超参数优化可优化性能最佳的模型。 AutoAI 将新的超参数优化算法用于机器学习中典型的某些函数评估，例如模型训练和评分。此方法可快速识别最佳模型，尽管每次迭代的评估时间较长。

后续步骤

尝试快速入门: 使用 AutoAI 教程构建和部署机器学习模型。

父主题: 分析数据和构建模型