本教程通过使用专门处理文本的节点来帮助您分析文本。 例如,您可以进行情感分析。
在本教程中,一位酒店经理希望分析酒店的评论,了解顾客的想法。 评审对酒店人员,舒适性,清洁度,价格以及其他感兴趣的领域发表了意见。
试用教程
在本教程中,您将完成这些任务:
建模流程和数据集样本
本教程使用示例项目中的 "酒店满意度"流程。 该流程使用 "文本分析" 节点来分析有关酒店的虚构评论。 使用的数据文件是hotelSatisfaction.csv。 下图显示了建模流程示例。
任务 1:打开示例项目
任务 2:检查数据资产节点
酒店满意度包括几个节点。 按照以下步骤检查数据资产节点:
- 从 "资产"选项卡打开 "酒店满意度建模流程",等待画布加载。
- 双击hotelSatisfaction.csv节点。 该节点是一个数据资产节点,指向项目中的hotelSatisfaction.csv文件。
- 查看文件格式属性。
- 可选:单击 "预览数据"查看完整数据集。
检查您的进度
下图显示了数据资产节点。 现在您可以检查文本挖掘节点了。
任务 3:检查文本挖掘节点
文本挖掘是一个在文本数据中识别相关概念和模式的迭代过程。 运行文本挖掘节点时,提取引擎会读取文本数据,识别相关概念,并为每个概念分配一个类型。 然后,您可以使用文本分析工作台查看提取结果,对提取过程进行微调。 您可以重新运行文本挖掘节点,生成新的结果,然后对新结果进行评估。 注意数据资产节点和文本挖掘节点之间的类型节点。 需要使用类型节点来正确识别数据集中的字段。 按照以下步骤检查文本挖掘节点:
- 双击注释(文本挖掘)节点,查看其属性。
- 在 "字段"部分设置这些属性:
- 在文本字段中,选择注释。
- 在ID 字段中,选择id。请注意:只需输入 "文本字段。
- 在 "模型"部分,请注意所选的文本分析包是"酒店满意度(英文)/主题 + 意见"。
文本分析包(TAP)是一套预定义的库和高级语言及非语言资源,与一套或多套预定义的类别捆绑在一起。 如果您的应用程序没有相关的文本分析软件包,您可以选择资源模板。 资源模板是一套预定义的库和高级语言及非语言资源,针对特定领域或用途进行了微调。
- 在 "构建模型"部分,设置这些属性:
- 验证 "构建模式"字段是否设置为 "交互式构建"(类别模型金块)。 以后运行节点时,该选项会启动文本分析工作台,这是一个交互式界面,您可以在其中探索和微调提取结果。
- 确认 "按字段开始会话"设置为"提取概念和文本链接"。 提取概念选项只提取概念,而 TLA 提取则同时输出概念和文本链接,即主题(如服务、人员和食品)与观点之间的联系。
- 展开 "专家 "部分,确认 "适应拼写最小单词字符长度"选项已被选中,拼写限制为 "
5
。 此选项适用于模糊分组方法,此方法可帮助将普遍拼写有误的单词或拼写接近的单词分组到一个概念下。 模糊分组算法会暂时删除提取词中的双辅音或三辅音以及所有元音(第一个元音除外)。 然后比较它们是否相同。 例如,"location
和 "locattoin
被分组。 - 单击保存。
- 将鼠标悬停在注释(文本挖掘)节点上,然后单击运行图标 "。
- 在 "输出和模型"窗格中,单击名称为 "注释"的结果,打开文本分析工作台。
检查您的进度
下图显示了文本分析工作台。 现在您可以调整结果了。
任务 4:在文本分析工作台中调整结果
文本分析工作台包含提取结果和文本分析软件包中的类别模型。 它是一个交互式工作台,在这里您可以探索和微调提取的结果,建立和完善类别,以及建立类别模型金块。 请按照以下步骤调整文本分析工作台中的结果:
概念
- 单击 "概念 "选项卡。
在提取过程中,要对文本数据进行分析,以识别有趣或相关的单词(如 "
airport
或 "location
")和词组(如 "airport pick-up
)。 这些单词和短语通称为术语。 利用语言资源,提取相关术语,并将类似术语归类到称为概念的主导术语之下。这样,一个概念可能代表多个基本术语。 这取决于该术语在文本中的使用方式以及您使用的语言资源集。
- 单击过滤器图标 "
- 您还可以使用 "筛选器"来选择概念子集。 下图显示了不同的选项:
如果要删除筛选器并显示所有概念,请单击 "清除筛选器"。
单击 "取消 "关闭 "筛选器"窗格。
文本链接
- 单击文本链接选项卡。
文本链接分析(TLA) 是一种模式匹配技术,可将 TLA 规则与文本中提取的概念和关系进行比较。 在文本链接选项卡上,您可以建立并探索文本数据中的 TLA 模式。
- 选择一个类型模式(例如<Services> + <Positive>以预览文档中的文本。 如果文档预览中的文本被截断,请单击 "查看整个文档"图标 "以显示整个文本。
类别
- 单击 "类别"选项卡。
您可以建立和管理自己的类别。 从文本数据中提取出概念和类型后,您就可以开始使用概念包含、语义网络(仅适用于英语)或手动等技术自动构建类别。
由于本示例流程使用的是文本分析包模板,因此类别模型已经填充。
- 单击 "全部评分"对文件或记录进行评分。 每次创建或更新类别时,您都可以查看是否有文本与特定类别中的描述符相匹配。 如果找到匹配项,那么会向此类别分配文档或记录。 其结果是,大部分(如果不是全部的话)文件或记录都根据类别中的描述符被归入类别。
- 扩展一个类别,例如,"酒店设施">"清洁度">"负面">"未清洁"。
- 在 "预览"选项卡和 "描述符"选项卡上查看文件,以查看源数据。
检查您的进度
下图显示了清洁度类别的文件预览。 现在您可以开始制作模型了。
任务 5:建立模型
完成对提取过程的调整后,就可以根据自定义和建立的类别生成类别模型。 请按照以下步骤构建和部署模型:
- 单击生成模型生成类别模型。
- 单击 "构建 "确认要生成类别模型。
- 当你看到 "成功"时 消息,单击 "返回流程"。
- 单击保存并退出,保存更改和流程中的文本挖掘节点。生成的类别模型金块会显示在流程画布上。
- 请注意示例流程中的两个满意度模型节点。 现在,文本分析工作台已经验证并生成了类别模型,您可以将其部署到流程中,对相同的数据集或新数据进行评分。 每种模式使用不同的计分模式。
- 双击第一个满意度模型节点。
- 展开 "设置 "部分,可以看到该节点使用 "类别 "作为字段计分模式。 在这种评分模式下,输出记录的数量与输入记录的数量相同。
- 单击预览数据。 你可以看到,现在每条记录都包含一个新字段,用于表示在 "模型"选项卡上选择的每个类别。 对于每个字段,输入 true 和 false 的标记值,例如,
True/False
或1/0
。 在此流中,值设置为1
和0
以聚集结果并统计正面、负面、混合(正面和负面)或者无评分(无意见)答案的数量。 - 关闭“预览”窗口。
- 请单击取消。
- 双击第二个满意度模型节点。
- 展开 "设置 "部分,可以看到该节点使用 "类别 "作为记录评分模式。 为每对 "
category, document
创建一条新记录。 通常,输出中的记录数量多于输入中的记录数量。 - 单击预览数据。 你可以看到,除了输入字段,新字段也会添加到数据中,这取决于数据模型的类型。
- 关闭“预览”窗口。
- 请单击取消。
- 展开 "设置 "部分,可以看到该节点使用 "类别 "作为记录评分模式。 为每对 "
检查您的进度
下图显示了带有文档预览的满意度模型。 现在,您可以将评论可视化了。
任务 6:将评论可视化
通过可视化评论,您可以快速了解客人对酒店的赞赏。 请按照以下步骤创建单词云图:
- 选择正面评论:
- 在调板中,展开记录操作部分。
- 将 "选择"节点拖到画布上。
- 将 "推导情感"超级节点连接到 "选择"节点。
- 双击选择节点,查看其属性。
- 对于模式,选择包括。
- 在条件中,输入 "
Sentiment = "Pos"
。 - 单击保存。
- 添加图表:
- 在调色板中,展开图表部分。
- 将图表节点拖到画布上。
- 将选择节点连接到图表节点。
- 构建单词云图:
- 双击图表节点查看其属性。
- 单击启动图表生成器。
- 在要可视化的列中,选择 "注释"。
- 显示所有图表类型列表,然后选择文字云。
- 完成后,单击 "返回流程"。
检查您的进度
下图显示了一个词云图。 现在您可以检查文本链接分析节点了。
任务 7:检查文本链接分析节点
- 双击文本链接分析节点,查看其属性。
- 在 "字段"部分设置这些属性:
- 在文本字段中,选择注释。
- 在ID 字段中,选择id。请注意:只需输入 "文本字段。
- 在 "从中复制资源"部分,注意所选的资源模板是 "酒店满意度(英语)"。
资源模板是一套预定义的库和高级语言及非语言资源,针对特定领域或用途进行了微调。
- 展开 "专家 "部分,确认 "适应拼写最小单词字符长度"选项已被选中,拼写限制为 "
5
。 - 单击保存。
- 将鼠标悬停在原始 TLA 输出节点上,然后点击运行图标 "。
- 在 "输出和模型"窗格中,点击名称为 "原始 TLA 输出"的结果,即可查看结果。
检查您的进度
下图显示了已完成的流程。
目录
该酒店满意度流程向您展示了酒店经理如何分析酒店评论,以了解客户对酒店人员、舒适度、清洁度、价格和其他方面所表达的意见。 该流程说明了使用文本挖掘节点或文本链接分析节点分析文本数据的两种方法。
后续步骤
现在您可以尝试其他SPSS® Modeler教程了。