使用 AutoAI's文本分析功能对实验进行文本分析。 例如,执行基本情感分析以根据文本评论来预测结果。
文本分析概述
创建使用文本分析功能的试验时, AutoAI 过程使用 word2vec
算法将文本转换为向量,然后比较向量以确定对预测列的影响。
word2vec
算法接受文本文集作为输入并输出一组向量。 通过将文本转换为数字表示形式,它可以检测和比较相似词。 使用足够的数据进行训练时, word2vec
可以对词的含义或与其他词的关系进行准确预测。 预测可用于分析情感分析应用程序中的文本并猜测其含义。
在实验训练的特征工程阶段,将使用 word2vec
算法为文本列生成 20 个特征。 文本功能的自动检测基于分析列中唯一值的数量和记录中标记的数量 (最小数量 = 3)。 如果唯一值的数目小于所有值除以 5 的数目,那么不会将该列视为文本。
在试验完成后,您可以在“管道详细信息”页面中查看特征工程结果。 您还可以将管道另存为 Notebook ,在其中可以查看变换并查看变换的可视化。
示例:分析客户评论
在此示例中,虚构汽车租赁公司的注释用于训练在输入新注释时预测满意度评级的模型。
请观看此短视频以查看此示例,然后阅读有关视频下方文本功能的更多详细信息。
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频脚本 时间 脚本 00:00 在此视频中,您将了解如何创建 AutoAI 试验以在文本文件上执行观点分析。 00:09 您可以使用文本功能部件工程在实验中执行文本分析。 00:15 例如,执行基本情感分析以根据文本评论来预测结果。 00:22 在项目中启动并向该项目添加资产,这是一个新的 AutoAI 试验。 00:29 只需提供一个名称,描述,选择一个机器学习服务,然后创建实验。 00:38 当显示 AutoAI 试验构建器时,您可以添加数据集。 00:43 在这种情况下,数据集已作为数据资产存储在项目中。 00:48 选择要添加到试验的资产。 00:53 继续之前,请预览数据。 00:56 此数据集有两列。 00:59 第一个包含客户的评论,第二个包含 0 (对于 "未满足") 或 1 (对于 "已满足")。 01:08 这不是时间序列预测,因此请为该选项选择 "否"。 01:13 然后选择要预测的列,在此示例中为 "满意度"。 01:19 AutoAI 确定满意度列包含两个可能的值,使其适用于二元分类模型。 01:28 正类为 1 ,表示 "满足"。 01:32 如果要定制试验,请打开试验设置。 01:36 在数据源面板上,您将看到文本功能部件工程的一些选项。 01:41 您可以自动选择文本列,也可以通过手动指定文本功能部件工程的列来执行更多控制。 01:52 您还可以选择在文本特征工程期间要为每个列创建的向量数。 01:58 数字越低越快,数字越高越准确,但速度越慢。 02:03 现在,运行试验以查看变换和进度。 02:09 创建使用文本分析功能的试验时, AutoAI 进程使用 word2vec 算法将文本转换为向量,然后比较向量以确定对预测列的影响。 02:23 在实验训练的特征工程阶段,将使用 word2vec 算法为文本列生成 20 个特征。 02:33 在试验完成后,您可以在“管道详细信息”页面中查看特征工程结果。 02:40 在 "特征摘要" 面板上,可以查看文本变换。 02:45 您可以看到 AutoAI 通过将算法函数应用于列元素来创建了多个文本特征,以及显示哪些特征对预测输出贡献最大的特征重要性。 02:59 您可以将此管道保存为模型或 Notebook。 03:03 笔记本包含用于查看这些变换的变换和可视化的代码。 03:09 在这种情况下,请创建模型。 03:13 使用该链接可查看模型。 03:16 现在,将模型提升到部署空间。 03:23 以下是模型详细信息,您可以从此处部署模型。 03:28 在这种情况下,将是在线部署。 03:36 完成后,打开部署。 03:39 在测试应用程序上,可以指定一个或多个要分析的注释。 03:46 然后,单击 "Predict"。 03:49 预测第一个客户对服务不满意。 03:54 并预测第二个客户对服务满意。 03:59 在 Cloud Pak for Data as a Service 文档中查找更多视频。
如果数据集包含租赁体验 (Customer_service) 的复审注释列,以及包含二进制满意度评级 (满意度) 的列,其中 0 表示否定注释, 1 表示肯定注释,那么将训练试验以在输入新反馈时预测满意度评级。
训练文本转换试验
装入数据集并指定预测列 (满意度) 后, 实验设置 将选择 使用文本特征工程 选项。
请注意调整文本分析试验的一些详细信息:
- 您可以接受自动选择文本列的缺省选择,也可以通过手动指定文本功能部件工程的列来执行更多控制。
- 在运行试验时,将使用
word2vec
算法为文本列生成缺省值 20 个功能部件。 您可以编辑该值以增加或减少功能部件数。 生成的向量越多,模型越准确,但训练时间越长。 - 其余选项适用于所有类型的实验,因此您可以对如何处理最终训练数据进行微调。
运行试验以查看正在进行的变换。
选择管道的名称,然后单击 功能部件摘要 以查看文本变换。
您还可以将试验管道另存为 Notebook,并以可视化形式查看转换。
部署文本转换模型并为其评分
对此模型进行评分时,请输入新注释以获取具有置信度分数的预测,以确定该注释是导致正面还是负面满意度评级。
比如,输入评论 " 我们花了差不多 3 个小时才上了一辆车。 荒谬的是, " 预测满意度评级为 0 ,置信度评分为 95%。
后续步骤
父主题: 构建 AutoAI 模型