您可以使用 AutoAI 工具将机器学习模型的构建过程自动化。 阅读有关 AutoAI 工具的信息,然后观看视频并学习适合初学者且不需要编码的教程。
- 必需的服务
- watsonx.ai工作室
- watsonx.ai运行时
基本工作流程包含以下任务:
- 创建项目。 项目是您与其他人协作处理数据的地方。
- 将您的数据添加到项目中。 您可以通过连接从远程数据源添加 CSV 文件或数据。
- 在项目中创建 AutoAI 试验。
- 查看模型管道,并将期望管道另存为模型以进行部署,或另存为 Notebook 以进行定制。
- 部署并测试模型。
阅读有关 AutoAI 的信息
AutoAI 图形工具自动分析数据并生成针对预测建模问题定制的候选模型管道。 这些模型管道以迭代方式创建,因为 AutoAI 会分析数据集并发现最适用于您的问题设置的数据转换、算法和参数设置。 结果会显示在排行榜上,以显示自动生成的模型管道,并根据您的问题优化目标进行排名。
观看有关使用 AutoAI 创建模型的视频
观看此视频,以了解如何根据银行市场营销样本创建和运行 AutoAI 试验。
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频脚本 时间 脚本 00:00 本视频向您展示如何运行AutoAI示例实验来创建Machine Learning模型。 00:08 从一个项目开始,在该项目中添加一个新的AutoAI实验。 00:16 要运行AutoAI实验,您需要使用Machine Learning服务。 00:22 在这里,您可以选择将Machine Learning服务与该项目关联起来。 00:29 您可以创建新的服务实例,也可以选择现有服务实例。 00:39 当您返回到正在创建试验的页面时,只需重新装入该页面,就会看到列出的新服务实例。 00:48 对于第一个试验,您将选择一个样本。 00:52 "银行市场营销" 样本包含从针对市场营销活动的银行的电话呼叫收集的文本数据。 01:01 选择样本时,将为您填写实验名称和描述,因此您已准备好创建该实验。 01:11 接下来,将显示 AutoAI 试验构建器。 01:15 由于此试验来自样本,因此已选择银行市场营销源文件。 01:22 而要预测的列也已经被选中。 01:26 在这种情况下,它是 "y" 列,表示用户是否会在营销活动中注册定期存款。 01:35 AutoAI 可根据数据集和要预测的选定列,分析数据子集,并选择预测类型和用于优化的指标。 01:47 在这种情况下,由于要预测的列包含值 "Y" 或 "N" (对于 "是" 或 "否") ,因此选择了二元分类。 01:57 正类为 "Yes" ,优化度量为 ROC AUC。 02:03 ROC AUC 度量均衡精度,准确性和召回率。 02:10 现在,运行试验并等待 "管道排行榜" 填写。 02:17 在 AutoAI 训练期间,数据集分为两部分: 训练数据和保留数据。 02:24 AutoAI 训练阶段使用训练数据来生成模型管道,并使用交叉验证分数对其进行排序。 02:34 训练后,将保留数据用于生成的管道模型评估和性能信息的计算,例如 ROC 曲线和混淆矩阵。 02:48 接下来, AutoAI 使用不同的估计量 (例如 XGBoost 分类器) 或增强 (例如超参数优化和特征工程) 生成管道,并根据准确性度量对管道进行排名。 03:06 超参数优化是一种机制,用于自动探索潜在超参数的搜索空间,构建一系列模型,并使用感兴趣的度量对模型进行比较。 03:20 特征工程会尝试将原始数据变换为最能代表该问题的特征组合,以实现最准确的预测。 03:31 好了跑完了 03:34 图注说明了在关系图上查找数据,顶级算法,管道和特征变换器的位置。 03:44 您可以查看完整日志以查看完整详细信息。 03:48 缺省情况下,您将看到 "关系图" ,但可以交换视图以查看 "进度图"。 03:57 向下滚动以查看排行榜。 04:01 您可能希望从比较管道开始。 04:05 此图表提供按交叉验证分数或坚持分数查看的八个管道的度量。 04:13 您可以看到根据其他度量 (例如,平均精度) 排名的管道。 04:21 返回到 "试验摘要" 选项卡上,展开管道以查看模型评估度量和 ROC 曲线。 04:30 除了混淆矩阵,精确召回曲线,模型信息,特征变换和特征重要性之外,您还可以查看单个管道以查看更多详细信息。 04:49 此管道的排名最高,因此您可以将其保存为机器学习模型。 04:55 只需接受缺省值并保存模型即可。 05:01 现在,您已训练模型,准备好查看模型并进行部署。 05:06 "概述" 选项卡显示模型摘要和输入模式。 05:12 要部署模型,您需要将其提升到部署空间。 05:17 由于此项目还没有与其关联的部署空间,因此您需要先设置关联。 05:25 您可以选择现有部署空间或创建新的部署空间。 05:31 创建新空间时,只需提供名称和描述,并选择Cloud Object Storage和Machine Learning服务。 05:41 然后创建空间。 05:45 现在,选择此新空间,添加模型的描述,然后单击 "提升"。 05:53 使用链接转至部署空间。 06:00 这是您刚刚创建的模型,现在可以部署该模型。 06:04 在这种情况下,将是在线部署。 06:08 只需提供部署的名称,然后单击 "创建"。 06:12 然后在部署模型时等待。 06:16 模型部署完成后,查看部署。 06:20 在 "API 参考" 选项卡上,您将找到评分端点以供将来参考。 06:26 您还将找到各种编程语言的代码片段,以利用应用程序中的此部署。 06:35 在 "测试" 选项卡上,可以测试模型预测。 06:40 您可以输入测试输入数据或粘贴 JSON 输入数据,然后单击 "预测"。 06:52 这说明,第一人不认购定期存款的概率非常高,第二人认购定期存款的概率也很高。 07:06 回到项目中,在 "资产" 选项卡上,您将找到 AutoAI 试验和模型。 07:17 在 Cloud Pak for Data as a Service 文档中查找更多视频。
试用教程以使用 AutoAI 创建模型
本教程将指导您训练模型,以预测客户是否可能根据市场营销活动预订定期存款。
在本教程中,您将完成以下任务:
完成本教程大约需要 30 分钟。
样本数据
指导式体验中使用的样本数据是 UCI: 当您选择 资源中心样本 作为实验基础时,用于预测客户在市场营销 promotion.The 数据中的注册是否自动上载并可供您使用的银行市场营销数据。
完成本教程的提示
以下是成功完成本教程的一些提示。
使用视频图片
以下动画图像显示了如何使用视频图片和目录功能:
在社区中获取帮助
如果您需要本教程的帮助,可以在Cloud Pak for Data社区讨论区提问或寻找答案。
设置浏览器窗口
为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。
任务 1: 打开项目
您需要一个项目来存储数据和 AutoAI 试验。 您可以使用现有项目或创建项目。
从导航菜单",选择项目 > 查看所有项目
打开现有项目。 如果要使用新项目:
单击新建项目。
选择创建空项目。
输入项目的名称和可选描述。
选择现有的对象存储服务实例或者创建新的对象存储服务实例。
单击创建。
当项目打开时,单击 管理 选项卡,然后选择 服务和集成 页面。
在 IBM 服务 选项卡上,单击 关联服务。
选择您的watsonx.aiRuntime 实例。 如果尚未配置watsonx.aiRuntime 服务实例,请按照以下步骤操作:
单击 新建服务。
选择watsonx.aiRuntime。
单击创建。
从列表中选择新的服务实例。
单击 关联服务。
如果需要,请单击 取消 以返回到 " 服务和集成 " 页面。
检查您的进度
下图显示了新项目。
任务 2: 构建和训练模型
To preview this task, watch the video beginning at 00:08.
现在,您有了项目,可以使用 AutoAI来构建和训练模型。 执行以下步骤以创建 AutoAI 试验,复审模型管道并选择要另存为模型的管道:
点击资产项目中的选项卡,然后点击新资产 > 自动构建机器学习模型。
在 " 创建 AutoAI 试验 " 页面上,填写基本字段:
单击 资源中心样本 面板。
选择 银行市场营销样本数据,然后单击 下一步。 将为您填写项目名称和描述。
Confirm that the watsonx.ai Runtime service instance that you associated with your project is selected in the watsonx.ai运行时服务实例 field.
单击创建。
在此样本 AutoAI 试验中,您将看到已为您的试验选择了 银行市场营销样本数据 。
查看预设的试验设置。 AutoAI 可根据数据集和要预测的选定列,分析数据子集,并选择预测类型和用于优化的指标。 在此情况下,预测类型为 二元分类,正类为 是,优化度量为 ROC AUC 和运行时。
单击运行试验。 随着模型的训练,您会看到一张信息图,显示管道的构建过程。
有关每种机器学习技术可用的算法或估算器的列表,请参阅AutoAI,看:AutoAI实施细节。
实验运行完成后,您可以在排行榜中查看和比较排名的管道。
您可以单击 管道比较 以查看它们之间的差异。
单击排名最高的管道以查看管道详细信息。
单击 另存为,选择 模型,然后单击 创建。 这会将管道另存为项目中的模型。
保存模型时,单击通知中的在项目中查看链接以查看项目中的模型。 或者,您可以浏览到项目中的 资产 选项卡,然后单击 模型 部分中的模型名称。
检查您的进度
下图显示了模型。
任务 3: 将模型提升到部署空间并部署经过训练的模型
To preview this task, watch the video beginning at 04:57.
在可以部署模型之前,需要将模型提升到部署空间。 遵循以下步骤将模型提升到部署空间以部署模型:
单击 "推广到部署空间"图标 "。
选择现有部署空间。 如果您没有部署空间:
单击 创建新的部署空间。
提供空间名称和可选描述。
选择存储服务。
选择机器学习服务。
单击创建。
单击关闭。
从列表中选择新的部署空间。
选择 提升模型后转至空间中的模型 选项。
单击提升。
注: 如果在提升空间后未选择转至该空间中的模型的选项,那么可以使用导航菜单浏览至 部署 以选择部署空间和模型。打开模型后,单击 新建部署。
选择 联机 作为 部署类型。
指定部署名称。
单击创建。
部署完成后,单击部署名称以查看部署详细信息页面。
检查您的进度
下图显示了新部署。
任务 4: 测试已部署的模型
To preview this task, watch the video beginning at 06:22.
现在您已经部署了模型,可以使用用户界面或通过watsonx.aiRuntime API 测试在线部署。 遵循以下步骤以使用用户界面通过新数据来测试模型:
单击测试选项卡。 您可以通过两种方式从部署详细信息页面测试已部署模型:使用表单测试或使用 JSON 代码测试。
单击 JSON 输入 选项卡,复制以下测试数据,并将其粘贴以替换现有 JSON 文本:
{ "input_data": [ { "fields": [ "age", "job", "marital", "education", "default", "balance", "housing", "loan", "contact", "day", "month", "duration", "campaign", "pdays", "previous", "poutcome" ], "values": [ [ 27, "unemployed", "married", "primary", "no", 1787, "no", "no", "cellular", 19, "oct", 79, 1, -1, 0, "unknown" ] ] } ] }
单击预测,以预测具有所指定属性的客户是否有可能注册特定种类的帐户。 生成的预测会指出,此客户极有可能不参与营销促销。
单击 X 以关闭 " 预测结果 " 窗口。
检查您的进度
下图显示了测试部署的结果。 预测值可能与下图中的值不同。
任务 5: 创建批处理作业以对模型进行评分
现在,您已使用单个预测测试了已部署的模型,可以创建批处理部署以同时对多条记录进行评分。
任务 5a: 设置批处理部署
To preview this task, watch the video beginning at 07:00.
对于批量部署,您可以在 CSV 文件中提供输入数据 (也称为模型有效内容)。 数据的结构必须与训练数据一样,具有相同的列标题。 批处理作业处理每行数据并创建相应的预测。 执行以下步骤以将有效内容数据上载到部署空间:
将以下文本复制并粘贴到文本编辑器中,然后将文件另存为
bank-payload.csv
。age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome 30,unemployed,married,primary,no,1787,no,no,cellular,19,oct,79,1,-1,0,unknown 33,services,married,secondary,no,4789,yes,yes,cellular,11,may,220,1,339,4,failure 35,management,single,tertiary,no,1350,yes,no,cellular,16,apr,185,1,330,1,failure 30,management,married,tertiary,no,1476,yes,yes,unknown,3,jun,199,4,-1,0,unknown 59,blue-collar,married,secondary,no,0,yes,no,unknown,5,may,226,1,-1,0,unknown 35,management,single,tertiary,no,747,no,no,cellular,23,feb,141,2,176,3,failure 36,self-employed,married,tertiary,no,307,yes,no,cellular,14,may,341,1,330,2,other 39,technician,married,secondary,no,147,yes,no,cellular,6,may,151,2,-1,0,unknown 41,entrepreneur,married,tertiary,no,221,yes,no,unknown,14,may,57,2,-1,0,unknown 43,services,married,primary,no,-88,yes,yes,cellular,17,apr,313,1,147,2,failure 39,services,married,secondary,no,9374,yes,no,unknown,20,may,273,1,-1,0,unknown 43,admin.,married,secondary,no,264,yes,no,cellular,17,apr,113,2,-1,0,unknown 36,technician,married,tertiary,no,1109,no,no,cellular,13,aug,328,2,-1,0,unknown 20,student,single,secondary,no,502,no,no,cellular,30,apr,261,1,-1,0,unknown 31,blue-collar,married,secondary,no,360,yes,yes,cellular,29,jan,89,1,241,1,failure 40,management,married,tertiary,no,194,no,yes,cellular,29,aug,189,2,-1,0,unknown 56,technician,married,secondary,no,4073,no,no,cellular,27,aug,239,5,-1,0,unknown 37,admin.,single,tertiary,no,2317,yes,no,cellular,20,apr,114,1,152,2,failure 25,blue-collar,single,primary,no,-221,yes,no,unknown,23,may,250,1,-1,0,unknown 31,services,married,secondary,no,132,no,no,cellular,7,jul,148,1,152,1,other
单击导航跟踪中的部署空间。
单击“资产”选项卡。
将 bank-payload.csv 文件拖到侧面板中,然后等待文件上载。
检查您的进度
下图显示了部署空间中的 资产 选项卡。
任务 5b: 创建批处理部署
To preview this task, watch the video beginning at 07:30.
要处理一批输入,并将输出写入文件而非实时显示,请创建批量部署作业。
转至部署空间中的 资产 选项卡。
单击模型的溢出菜单 ",然后选择 "部署"。
对于 部署类型,选择 批处理。
输入部署的名称。
选择最小硬件规范。
单击创建。
检查您的进度
下图显示了批处理部署。
任务 5c: 创建批处理作业
To preview this task, watch the video beginning at 07:44.
批处理作业运行部署。 要创建作业,请指定输入数据和输出文件的名称。 您可以建立要按时间表运行或立即运行的作业。 执行以下步骤以创建批处理作业:
在部署页面上,单击 新建作业。
指定作业的名称,然后单击 下一步。
选择最小的硬件规范,然后单击 下一步。
可选: 设置调度,然后单击 下一步。
可选: 选择接收通知,然后单击 下一步。
在 " 选择数据 " 屏幕上,选择 输入 数据:
单击 选择数据源。
选择 数据资产> bank-payload.csv。
单击确认。
返回到 " 选择数据 " 屏幕,指定 输出 文件:
单击添加。
单击 选择数据源。
确保选择了 新建 选项卡。
对于 名称,输入
bank-output.csv
。单击确认。
单击 下一步 以执行最终步骤。
查看设置,然后单击 创建并运行 以立即运行作业。
检查您的进度
下图显示了批处理部署的作业详细信息。
任务 5d: 查看输出
To preview this task, watch the video beginning at 08:42.
执行以下步骤以查看批处理作业的输出文件。
单击作业名以查看状态。
当状态更改为 已完成时,单击导航跟踪中的部署空间名称。
单击“资产”选项卡。
单击 bank-output.csv 文件以查看针对批处理提交的客户信息的预测结果。 对于每个案例,返回的预测表示这些客户不太可能预订银行促销。
检查您的进度
下图显示了批处理部署作业的结果。
后续步骤
现在,您可以使用此数据集开展进一步分析。 例如,您或其他用户可以执行以下任何任务:
其他资源
父主题: 快速入门教程