0 / 0
Go back to the English version of the documentation
分析酒店满意度文本
Last updated: 2024年12月11日
分析酒店满意度文本

本教程通过使用专门处理文本的节点来帮助您分析文本。 例如,您可以进行情感分析。

在本教程中,一位酒店经理希望分析酒店的评论,了解顾客的想法。 评审对酒店人员,舒适性,清洁度,价格以及其他感兴趣的领域发表了意见。

图 1。 正面意见图表
正面意见图表。 它显示术语和短语,例如位置,预算和酒店设施。 这些术语的大小因其重要性而异。 他们安排了中心最重要的名词,是在中心,是最大的。
图 2。 负面意见图表
负面意见图表。 它显示术语和短语,例如位置,预算和酒店设施。 这些术语的大小因其重要性而异。 他们安排了中心最重要的名词,是在中心,是最大的。

试用教程

在本教程中,您将完成这些任务:

建模流程和数据集样本

本教程使用示例项目中的 "酒店满意度"流程。 该流程使用 "文本分析" 节点来分析有关酒店的虚构评论。 使用的数据文件是hotelSatisfaction.csv。 下图显示了建模流程示例。

已完成的流
下图显示了样本数据集。
样本数据集

任务 1:打开示例项目

示例项目包含多个数据集和示例建模流程。 如果还没有示例项目,请参阅教程主题创建示例项目。 然后按照以下步骤打开示例项目:

  1. Cloud Pak for Data 中,从导航菜单"导航菜单,选择项目 > 查看所有项目
  2. 单击SPSS ModelerProject
  3. 单击 "资产"选项卡,查看数据集和建模流程。

检查点图标检查您的进度

下图显示了 "项目资产 "选项卡。 现在您可以使用与本教程相关的示例建模流程了。

替代文本

返回到顶部

任务 2:检查数据资产节点

酒店满意度包括几个节点。 按照以下步骤检查数据资产节点:

  1. 从 "资产"选项卡打开 "酒店满意度建模流程",等待画布加载。
  2. 双击hotelSatisfaction.csv节点。 该节点是一个数据资产节点,指向项目中的hotelSatisfaction.csv文件。
  3. 查看文件格式属性
  4. 可选:单击 "预览数据"查看完整数据集。

检查点图标检查您的进度

下图显示了数据资产节点。 现在您可以检查文本挖掘节点了。

过滤节点

返回到顶部

任务 3:检查文本挖掘节点

文本挖掘是一个在文本数据中识别相关概念和模式的迭代过程。 运行文本挖掘节点时,提取引擎会读取文本数据,识别相关概念,并为每个概念分配一个类型。 然后,您可以使用文本分析工作台查看提取结果,对提取过程进行微调。 您可以重新运行文本挖掘节点,生成新的结果,然后对新结果进行评估。 注意数据资产节点和文本挖掘节点之间的类型节点。 需要使用类型节点来正确识别数据集中的字段。 按照以下步骤检查文本挖掘节点:

  1. 双击注释(文本挖掘)节点,查看其属性。
  2. 在 "字段"部分设置这些属性:
    1. 文本字段中,选择注释
    2. ID 字段中,选择id
      请注意:只需输入 "文本字段
      图 3。 “文本挖掘”节点属性
      文本挖掘节点构建属性 窗口中会显示一些字段设置,如文本字段和 ID 字段。
  3. 在 "模型"部分,请注意所选的文本分析包是"酒店满意度(英文)/主题 + 意见"。

    文本分析包(TAP)是一套预定义的库和高级语言及非语言资源,与一套或多套预定义的类别捆绑在一起。 如果您的应用程序没有相关的文本分析软件包,您可以选择资源模板。 资源模板是一套预定义的库和高级语言及非语言资源,针对特定领域或用途进行了微调。

  4. 在 "构建模型"部分,设置这些属性:
    1. 验证 "构建模式"字段是否设置为 "交互式构建"(类别模型金块)。 以后运行节点时,该选项会启动文本分析工作台,这是一个交互式界面,您可以在其中探索和微调提取结果。
    2. 确认 "按字段开始会话"设置为"提取概念和文本链接"。 提取概念选项只提取概念,而 TLA 提取则同时输出概念和文本链接,即主题(如服务、人员和食品)与观点之间的联系。
  5. 展开 "专家 "部分,确认 "适应拼写最小单词字符长度"选项已被选中,拼写限制为 "5。 此选项适用于模糊分组方法,此方法可帮助将普遍拼写有误的单词或拼写接近的单词分组到一个概念下。 模糊分组算法会暂时删除提取词中的双辅音或三辅音以及所有元音(第一个元音除外)。 然后比较它们是否相同。 例如,"location和 "locattoin被分组。

    图 4: 文本挖掘节点专家属性。
    文本挖掘节点专家属性。 它显示文本挖掘节点的属性设置。 一些主要的设置组包括 "设置"、"构建模型 "和 "专家"。 在 "专家 "分组中,有复选框用于设置,如适应拼写的最小词根字符限制、提取单位词、提取非语言实体、大写算法、尽可能将部分和完整的人名组合在一起,以及在组合复合名词时使用派生词。
  6. 单击保存
  7. 将鼠标悬停在注释(文本挖掘)节点上,然后单击运行图标 "运行图标
  8. 在 "输出和模型"窗格中,单击名称为 "注释"的结果,打开文本分析工作台。

检查点图标检查您的进度

下图显示了文本分析工作台。 现在您可以调整结果了。

文本分析工作台

返回到顶部

任务 4:在文本分析工作台中调整结果

文本分析工作台包含提取结果和文本分析软件包中的类别模型。 它是一个交互式工作台,在这里您可以探索和微调提取的结果,建立和完善类别,以及建立类别模型金块。 请按照以下步骤调整文本分析工作台中的结果:

概念

  1. 单击 "概念 "选项卡。

    在提取过程中,要对文本数据进行分析,以识别有趣或相关的单词(如 "airport或 "location")和词组(如 "airport pick-up)。 这些单词和短语通称为术语。 利用语言资源,提取相关术语,并将类似术语归类到称为概念的主导术语之下。

    这样,一个概念可能代表多个基本术语。 这取决于该术语在文本中的使用方式以及您使用的语言资源集。

  2. 单击过滤器图标 "过滤器图标
  3. 您还可以使用 "筛选器"来选择概念子集。 下图显示了不同的选项:

    图 5. 文本分析工作台 - 筛选器选项
    文本分析工作台 - 筛选器选项

    如果要删除筛选器并显示所有概念,请单击 "清除筛选器"。

    单击 "取消 "关闭 "筛选器"窗格。

文本链接

  1. 单击文本链接选项卡。

    文本链接分析(TLA) 是一种模式匹配技术,可将 TLA 规则与文本中提取的概念和关系进行比较。 在文本链接选项卡上,您可以建立并探索文本数据中的 TLA 模式。

  2. 选择一个类型模式(例如<Services> + <Positive>以预览文档中的文本。 如果文档预览中的文本被截断,请单击 "查看整个文档"图标 "查看整个文件图标以显示整个文本。
    文本分析工作台 - 文本链接选项卡。 显示文本链接选项卡中的类型模式。 侧边是预览窗格,其中有一个三列表格。 三栏分别是条目、文档预览和类别路径。

类别

  1. 单击 "类别"选项卡。

    您可以建立和管理自己的类别。 从文本数据中提取出概念和类型后,您就可以开始使用概念包含、语义网络(仅适用于英语)或手动等技术自动构建类别。

    由于本示例流程使用的是文本分析包模板,因此类别模型已经填充。

  2. 单击 "全部评分"对文件或记录进行评分。 每次创建或更新类别时,您都可以查看是否有文本与特定类别中的描述符相匹配。 如果找到匹配项,那么会向此类别分配文档或记录。 其结果是,大部分(如果不是全部的话)文件或记录都根据类别中的描述符被归入类别。
  3. 扩展一个类别,例如,"酒店设施">"清洁度">"负面">"未清洁"。
  4. 在 "预览"选项卡和 "描述符"选项卡上查看文件,以查看源数据。

检查点图标检查您的进度

下图显示了清洁度类别的文件预览。 现在您可以开始制作模型了。

填充节点

返回到顶部

任务 5:建立模型

完成对提取过程的调整后,就可以根据自定义和建立的类别生成类别模型。 请按照以下步骤构建和部署模型:

  1. 单击生成模型生成类别模型。
    显示 "生成模型 "按钮的图片
  2. 单击 "构建 "确认要生成类别模型。
  3. 当你看到 "成功"时 消息,单击 "返回流程"。
  4. 单击保存并退出,保存更改和流程中的文本挖掘节点。
    生成的类别模型金块会显示在流程画布上。
    图 6. 生成类别模型金块
    生成类别模型金块。 显示带有文本挖掘节点和类别模型小块的流程。
  5. 请注意示例流程中的两个满意度模型节点。 现在,文本分析工作台已经验证并生成了类别模型,您可以将其部署到流程中,对相同的数据集或新数据进行评分。 每种模式使用不同的计分模式。
    图 7. 使用两种方式进行评分的示例流
    使用两种方式进行评分的示例流
  6. 双击第一个满意度模型节点。
    1. 展开 "设置 "部分,可以看到该节点使用 "类别 "作为字段计分模式。 在这种评分模式下,输出记录的数量与输入记录的数量相同。
    2. 单击预览数据。 你可以看到,现在每条记录都包含一个新字段,用于表示在 "模型"选项卡上选择的每个类别。 对于每个字段,输入 true 和 false 的标记值,例如,True/False1/0。 在此流中,值设置为 10 以聚集结果并统计正面、负面、混合(正面和负面)或者无评分(无意见)答案的数量。

      图 8. 模型结果 - 作为字段的类别 (1)。
      模型结果 - 作为字段的类别。 这是一个包含 ID、Comments、Gender、Reason、Neg、Pos、Cont 和 Sentiment 列的表格。 ID 栏的条目为数字。 注释栏的条目显示从文本中摘录的短语。 例如,有一个条目说非常安静,但非常昂贵。 原因一栏显示的是出差还是休闲旅行。 Neg 和 Pos 显示每个短语的负面和正面情绪计数。 情绪显示评论是正面的(Pos 栏只有数字)、负面的(Neg 栏只有数字)还是混合的(Neg 和 Pos 栏都有数字)。
    3. 关闭“预览”窗口。
    4. 请单击取消
  7. 双击第二个满意度模型节点。
    1. 展开 "设置 "部分,可以看到该节点使用 "类别 "作为记录评分模式。 为每对 "category, document创建一条新记录。 通常,输出中的记录数量多于输入中的记录数量。
    2. 单击预览数据。 你可以看到,除了输入字段,新字段也会添加到数据中,这取决于数据模型的类型。

      图 9. 模型结果--类别为记录 (2)。
      模型结果 - 作为记录的类别。 这是一个包含 ID、评论、性别、原因、类别和情感列的表格。 ID 栏的条目为数字。 注释栏的条目显示从文本中摘录的短语。 例如,有一个条目说非常安静,但非常昂贵。 原因一栏显示的是出差还是休闲旅行。 Neg 和 Pos 显示每个短语的负面和正面情绪计数。 情绪显示评论是正面的(Pos 栏只有数字)、负面的(Neg 栏只有数字)还是混合的(Neg 和 Pos 栏都有数字)。
    3. 关闭“预览”窗口。
    4. 请单击取消

检查点图标检查您的进度

下图显示了带有文档预览的满意度模型。 现在,您可以将评论可视化了。

模型节点

返回到顶部

任务 6:将评论可视化

通过可视化评论,您可以快速了解客人对酒店的赞赏。 请按照以下步骤创建单词云图:

  1. 选择正面评论:
    1. 在调板中,展开记录操作部分。
    2. 将 "选择"节点拖到画布上。
    3. 将 "推导情感"超级节点连接到 "选择"节点。
    4. 双击选择节点,查看其属性。
    5. 对于模式,选择包括
    6. 条件中,输入 "Sentiment = "Pos"
    7. 单击保存
  2. 添加图表:
    1. 在调色板中,展开图表部分。
    2. 图表节点拖到画布上。
    3. 选择节点连接到图表节点。
  3. 构建单词云图:
    1. 双击图表节点查看其属性。
    2. 单击启动图表生成器
    3. 要可视化的列中,选择 "注释"。
    4. 显示所有图表类型列表,然后选择文字云

      图 10. 所有图表类型
      所有图表类型
  4. 完成后,单击 "返回流程"。

检查点图标检查您的进度

下图显示了一个词云图。 现在您可以检查文本链接分析节点了。

字云图

返回到顶部

任务 7:检查文本链接分析节点

有时,您可能不需要创建类别模型来评分。 文本链接分析节点为文本挖掘的概念提取添加了模式匹配技术。 文本链接分析节点根据已知模式识别文本数据中概念之间的关系。 这些关系可以描述客户对于产品的感受、哪些公司正在合作开展业务,甚至是基因或药品代理之间的关系。 按照以下步骤检查文本链接分析节点:
文本链接分析节点
  1. 双击文本链接分析节点,查看其属性。
  2. 在 "字段"部分设置这些属性:
    1. 文本字段中,选择注释
    2. ID 字段中,选择id
      请注意:只需输入 "文本字段

      图 11. 文本链接分析节点 FIELD 属性。
      文本链接分析节点 FIELD 属性。 它显示 ID 字段、文本字段、语言字段、文档类型、文本统一性和段落模式设置等字段设置。
  3. 在 "从中复制资源"部分,注意所选的资源模板是 "酒店满意度(英语)"。

    资源模板是一套预定义的库和高级语言及非语言资源,针对特定领域或用途进行了微调。

  4. 展开 "专家 "部分,确认 "适应拼写最小单词字符长度"选项已被选中,拼写限制为 "5

    图 12. 文本链接分析节点 专家属性
    文本链接分析节点 专家属性 它显示了一些设置的复选框,如适应拼写的最小根字符限制、提取单位词、提取非语言实体、大写算法、尽可能将部分人名和完整人名组合在一起,以及在组合复合名词时使用派生词。
  5. 单击保存
  6. 将鼠标悬停在原始 TLA 输出节点上,然后点击运行图标 "运行图标
  7. 在 "输出和模型"窗格中,点击名称为 "原始 TLA 输出"的结果,即可查看结果。

    图 13. TLA 原始输出。
    TLA 原始输出。 这是一个包含Concept1、Type1、Concept2、Type2、ID 和匹配文本等列的表格。 概念栏的条目是房间或停车位等词语。 类型栏的条目是一些词语,如预算或服务。 这些行显示了一个概念与一个类型或其他概念之间的关系。 每一行还显示了这些单词在文本中的出现方式。

    图 14. 计算 TLA 节点上的情感。
    计算 TLA 节点上的情感。 这是一个包含 ID、注释、Pos_Count_Sum 和 Neg_Count_Sum 列的表格。 ID 列的条目是每一行的数字。 注释栏的条目显示从文本中摘录的短语。 例如,有一条记录写道:舒适的客房、出色的早餐和优质的服务。 Pos_Count_Sum 和 Neg_Count_Sum 栏的条目显示的是每个短语的正面或负面情绪数量。 例如,对于前一个短语,它计算出了三个积极情绪。

检查点图标检查您的进度

下图显示了已完成的流程。

已完成的流

返回到顶部

目录

酒店满意度流程向您展示了酒店经理如何分析酒店评论,以了解客户对酒店人员、舒适度、清洁度、价格和其他方面所表达的意见。 该流程说明了使用文本挖掘节点或文本链接分析节点分析文本数据的两种方法。

后续步骤

现在您可以尝试其他SPSS® Modeler教程了

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more