Go back to the English version of the documentation利用文本分析技术挖掘文本数据
利用 SPSS Modeler 中的文本分析技术挖掘文本数据
https://video.ibm.com/embed/channel/23952663/video/spss-text-analytics-workbench
Last updated: 2024年12月20日
SPSS Modeler 提供专门用于处理文本的节点。 文本分析节点利用先进的语言技术和自然语言处理 (NLP) 提供强大的文本分析功能。 它们可以快速处理大量非结构化文本数据,并提取关键概念。 文本分析技术还可以将这些概念整理归类。
在组织内保留的数据中,大约 80% 为文本文档形式,例如,报告、Web 页面、电子邮件和呼叫中心便笺。 文本是帮助组织更好地了解其客户行为的关键因素。 利用 NLP 的系统可以智能地抽取概念(包括复合短语)。 此外,利用对底层语言的了解,可以使用含义和上下文将术语分类为相关的组,例如产品、组织或人员。 因此,您可以快速确定信息是否与需求相关。 这些提取的概念和类别可与现有的结构化数据(如人口统计数据)相结合,并应用于 SPSS Modeler 中的建模,以产生更好、更有针对性的决策。
语言系统具有知识敏感性,其字典中包含的信息越多,结果的质量也会越好。 “文本分析”会提供一组语言资源,例如,术语及同义词字典、库以及模板。 这些节点可用来根据上下文进一步开发和优化这些语言资源。 语言资源的微调通常是一个迭代式过程,对于准确的概念检索和分类而言不可或缺。 此外,还会提供适用于特定领域(例如,CRM 和基因组学)的定制模板、库和字典。
入门提示
- 观看以下视频,了解文本分析概述。
- 请参见 分析酒店满意度文本 。
本视频提供了学习本文档中的概念和任务的直观方法。
视频免责声明:本视频中的一些小步骤和图形元素可能与您的平台不同。
应用程序
通常,所有经常需要查看大量文档以识别关键元素来用于进一步探索时的人,都可以从使用“文本分析”中获益。 以下是其中一些具体应用的示例:
- 科学和医学研究。 探索辅助性研究资料,例如,专利报告、期刊论文和协议出版物。 识别先前未知的关联(例如,与特定产品相关联的医生),展现进一步探索的途径。 最大限度减少药物研发过程所花费的时间。 协助进行基因研究。
- 投资研究。 查看每日分析报告、新闻文章和公司新闻稿,以识别关键的战略要点或市场变化。 对此类信息进行趋势分析,可以揭示一段时间内公司或行业即将面临的问题或机遇。
- 欺诈检测。 用于银行业和医疗保健业欺诈检测,以从大量文本中识别异常状况并发现危险信号。
- 市场调研。 用于市场研究工作,以识别开放式调研回复中的关键主题。
- 博客和 Web 订阅源分析。 使用在新闻订阅源、博客等信息源中发现的关键构想来探索和构建模型。
- 客户关系管理 使用来自所有客户接触点(例如,电子邮件、交易和调研)的数据来构建模型。
节点
除了 SPSS Modeler 中的许多标准节点外,您还可以使用文本挖掘节点,将文本分析的力量融入您的流程中。 在节点选用板的文本分析下,提供有下列节点:
- “语言标识”节点是一个过程节点,它扫描源文本以确定编写该文本所用的人类语言,然后在一个新字段中予以标记。 此节点主要设计用于处理大量数据,当数据源采用多种语言,而您希望仅处理一种语言时,此节点特别有用。
- “文本链接分析”节点可以抽取概念,以及根据文本中已知的模式来识别概念之间的关系。 您可以使用模式抽取来发现概念之间的关系,以及附加至这些概念的任何意见或限定符。 “文本链接分析”(TLA) 节点提供更直接的方法来识别和抽取文本中的模式,然后将模式结果添加到流程中的数据集。 不过,您也可以通过文本挖掘建模节点,使用文本分析工作台会话执行 TLA。
- “文本挖掘”节点使用语言方法从文本中抽取关键概念,使您能够利用这些概念和其他数据来创建类别,并能够根据已知模式识别概念之间的关系和关联(称为文本链接分析)。 使用此节点可以探索文本数据内容,或生成概念模型或类别模型。 这些概念和类别可以与现有的结构化数据(例如,人口统计信息)结合用于建模。