“文本挖掘”节点使用语言和频率技术来从文本中抽取关键概念,并使用这些概念和其他数据创建类别。 使用此节点来浏览文本数据内容或生成概念模型块或类别模型块。
- 当您运行节点时, 直接生成 (概念模型块) 方式会自动生成概念或类别模型块。
- 以交互方式构建 (类别模型块) 是一种更实用的探索方法。 您可以使用此方式来不仅抽取概念,创建类别和优化语言资源,还可以运行文本链接分析和探索集群。 此构建方式将启动文本分析工作台。
您可以使用 "文本挖掘" 节点来生成两个文本挖掘模型块之一:
- 概念模型块 从结构化或非结构化文本数据中发现并抽取重要概念。
- 类别模型块:对文档和记录进行评分并将其分配到由抽取的概念(和模式)组成的类别中。
从模型块中抽取的概念和模式以及类别都可以与现有结构化数据 (例如,人口统计信息) 组合,以生成更好的更集中的决策。 例如,如果客户经常将登录问题列为完成在线帐户管理任务的主要障碍,那么您可能希望将“登录问题”并入您的模型中。
数据源和语言资源
"文本挖掘" 建模节点接受来自 "导入" 节点的文本数据。
您还可以直接在 "文本挖掘" 节点中上载定制模板和文本分析包以在抽取过程中使用。
概念和概念模型块
在抽取过程中,将扫描并分析文本数据以识别重要的单个词 (例如 election
或 peace
) 以及词短语 (例如 presidential election
, election of the president
或 peace treaties
)。 这些单词和短语通称为术语。 通过使用语言资源,将抽取相关术语,并将类似术语分组到称为 概念的前导术语下。
此分组意味着一个概念可能表示多个底层术语。 例如,概念 salary
是从员工满意度调查中抽取的。 查看与 salary
关联的记录时,您注意到 salary
并非始终存在于文本中,而是某些记录包含类似的内容,例如术语 wage
, wages
和 salaries
。 这些术语分组在 salary
下,因为抽取引擎根据处理规则或语言资源将其视为相似或确定其为同义词。 在此情况下,包含任何这些术语的文档或记录都将被视为包含单词 salary
。
如果要查看在概念下分组的术语,可以在文本分析工作台中探索该概念,或者查看在概念模型中显示的同义词。
- 探索和分析原始源文本中发现的概念或快速识别感兴趣的文档。
- 将此模型应用于新的文本记录或文档,以快速识别新文档/记录中的相同关键概念。 例如,您可以将模型应用于来自呼叫中心的便笺本数据中关键概念的实时发现。
类别和类别模型块
您可以创建表示更高级别的概念或主题的 类别 ,以捕获文本中表达的关键思想,知识和态度。 类别由一组描述符组成,例如,概念,类型和规则。 这些描述符一起用于标识记录或文档是否属于某个类别。 可以扫描文档或记录以查看其任何文本是否匹配描述符。 如果找到匹配项,那么会将文档分配给该类别。 该过程称为分类。
可以使用 SPSS Modeler的一组强大的自动化技术来自动构建类别。 您还可以使用可能具有的有关数据的任何其他洞察或两者的组合来手动构建这些数据。 还可以通过此节点的“模型”设置从文本分析包装入一组预构建的类别。 只能通过文本分析工作台来手动创建类别或优化类别。
类别模型块包含一组类别及其描述符。 该模型可用于根据每个文档或记录中的文本对一组文档或记录进行分类。 将读取每个文档或记录,然后将其分配到找到了描述符匹配的每个类别。 通过此方式,可以将文档或记录分配给多个类别。 例如,您可以使用类别模型块来查看开放式调查响应或一组博客条目中的基本构想。