如今,越来越多的信息以非结构化和半结构化格式保存,如客户电子邮件,呼叫中心说明,开放式调查响应,新闻订阅源, Web 表单等。 这种丰富的信息给许多要求自己的组织带来了问题: 如何收集,探索和利用这些信息?
文本挖掘是分析文本材料集合的过程,旨在捕获关键概念和主题,以及揭示隐蔽的关系和趋势,而无需知道作者用来表达这些概念的准确单词或术语。 尽管文本挖掘和信息检索有很大的不同,但它们有时也会被混淆。 虽然准确检索和存储信息是一项巨大的挑战,但抽取和管控信息中包含的优质内容、术语和关系至关重要。
文本挖掘和数据挖掘
针对每一篇包含文本的文章,基于语言学的文本挖掘会返回概念索引,以及有关这些概念的信息。 这些提取的结构化信息可以与其他数据源相结合以解决各种问题,例如:
- 哪些概念会一起出现?
- 这些概念还与其他哪些概念关联?
- 根据抽取所得的信息,可以建立哪些更高级别的类别?
- 概念或类别预测哪些事项?
- 概念或类别如何预测行为?
与单独使用结构化或非结构化数据相比,将文本挖掘与数据挖掘相结合可以提供更深入的洞察力。 通常,此过程包括下列步骤:
- 识别所要挖掘的文本。 准备文本以进行挖掘。 如果文本存在于多个文件中,请将这些文件保存到同一位置。 对于数据库,请确定包含该文本的字段。
- 挖掘文本并抽取结构化数据。 将文本挖掘算法应用于源文本。
- 构建概念和类别模型。 识别关键概念和/或创建类别。 通常,从非结构化数据返回的概念数量非常大。 请识别要评分的最佳概念和类别。
- 分析结构化数据。 利用传统的数据挖掘方法(例如,集群、分类和预测建模)发现概念之间的关系。 将抽取所得的概念与其他结构化数据合并,以根据这些概念预测未来的行为。
文本分析和分类
文本分析是一种定性分析,它从文本中抽取有用的信息,以便将该文本中包含的关键构想或概念分组为适当数量的类别。 可以针对所有类型和长度的文本执行文本分析,尽管分析方法会有所不同。
长度较短的记录或文档最容易分类,因为它们较为简单,通常包含较少的模糊词和回复。 例如,针对较短的开放式调研问题,如果请调查对象列出他们喜爱的三项假期活动,我们预期会看到许多较短的回答,例如,海滩度假、造访国家公园或什么也不做。 另一方面,较长的开放式回复可能相当复杂而冗长,在调查对象受过良好教育、积极接受调研而且有足够时间来完成调查表时尤其如此。 如果我们请调查对象在调研中说明其政治信仰,或者使用一个有关政治的博客订阅源,我们可以预期获得一些有关各类问题和立场的较长评论。
在非常短的时间内,可以从这些较长的文本源中抽取到重要概念并创建具有洞察力的类别,这就是使用“文本分析”的主要优势。 这种优势是通过将自动化语言方法与统计方法相结合来实现,可以让文本分析过程的每个阶段产生最可靠的结果。
语言处理和 NLP
管理所有此类非结构化文本数据的主要问题是,在编写能够让计算机理解的文本方面没有标准的规则。 对于每个文档和每一段文本,语言以及随之产生的含义都有所不同。 准确检索并组织此类非结构化数据的唯一方法是,分析语言从而揭示其含义。 有多种不同的自动化方法可以从非结构化信息中抽取概念。 这些方法可以分为两类:语言方法和非语言方法。
某些组织已在尝试利用基于统计和神经网络的自动化非语言解决方案。 与人工阅读相比,这些解决方案使用计算机技术,可以更快地扫描关键概念并进行分类。 遗憾的是,此类解决方案的准确度相当低。 大部分基于统计的系统只是计算单词出现的次数,以及计算其与相关概念的统计接近度。 它们会生成很多不相关的结果或者噪声信息,而且会错过本应找到的结果(称为静默)。
为弥补准确度方面的局限性,部分解决方案利用复杂的非语言规则来帮助区分相关结果与不相关结果。 这称为基于规则的文本挖掘。
另一方面,基于语言学的文本挖掘将自然语言处理 (NLP)(计算机辅助的人类语言分析)的原理应用于文本中单词、短语、语法或结构的分析。 利用 NLP 的系统可以智能地抽取概念(包括复合短语)。 此外,利用底层语言的知识,可以使用含义和上下文将概念分类为相关的组,例如产品、组织或人员。
基于语言学的文本挖掘可发现文本中的含义,其方式与人类行为非常相似,即,识别具有相似含义的各种单词形式,以及分析句子结构来提供理解文本的框架。 对于基于统计的系统,这种方法可以加快速度并改善成本效益,同时提供更高的准确度,需要的人为干预也少很多。
要说明抽取过程中基于统计信息的方法与基于语言学的方法之间的差异,请考虑每个方法将如何响应有关 reproduction of documents
的查询。 基于统计的解决方案和基于语言学的解决方案都必须扩展单词 reproduction
以包括同义词,例如,copy
和 duplication
。 否则,相关信息将被忽略。 但是,如果基于统计的解决方案尝试执行此类同义词操作(即,搜索含义相同的其他术语),那么还可能会包括术语 birth
,从而生成大量不相关的结果。 对语言的理解可以降低文本的歧义,使基于语言学的文本挖掘方法更加可靠。
理解抽取过程的工作方式有助于您对语言资源(库、类型和同义词,等等)进行微调时做出关键决策。 抽取过程中的步骤如下所示:
- 将源数据转换为标准格式
- 识别候选术语
- 识别等价类和同义词组合
- 分配类型
- 建立索引,并在收到请求时使用辅助分析器执行模式匹配
步骤 1. 将源数据转换为标准格式
在第一步,导入的数据转换为可用于将来分析的统一格式。 此转换在内部执行,不会更改原始数据。
步骤 2. 识别候选术语
有一点很重要,那就是了解语言资源在语言抽取过程中候选术语的识别方面所扮演的角色。 每次运行抽取时,都会使用语言资源。 这些资源以模板、库和编译资源的形式存在。 库包含单词列表、关系列表,以及其他用于指定或调整抽取的信息。 编译资源不可查看或编辑。 但是,可以在模板编辑器中编辑其余资源,如果您在文本分析工作台会话中,那么可以在资源编辑器中进行编辑。
编译资源是“文本分析”内抽取引擎的内部核心组件。 这些资源包括一个常规字典,其中包含具有词性代码 (名词,动词,形容词等) 的基本形式的列表。
除了这些编译资源之外,产品还随附多个库,以补充编译资源中的类型和概念定义,以及提供同义词。 这些库以及您所创建的任何定制库是由多个字典组成。 这些字典包括类型字典、同义词字典和排除字典。
导入并转换数据后,抽取引擎将开始识别要抽取的候选术语。 候选术语是单词或一组单词,用于识别文本中的概念。 处理文本期间,将会使用词类模式抽取器来识别单个的单词(单术语)以及复合词(多术语)。 然后,使用感知文本链接分析来识别候选感知关键字。
步骤 3. 识别等价类和同义词组合
识别候选单术语和多术语之后,软件会使用规范化字典来识别等价类。 等效类是短语的基本形式,或同一短语的两个变体的单一形式。将短语分配给等效类的目的是,确保 side effect
和 副作用
不会被视为单独的概念。 要确定要用于等价类的概念 (即, side effect
还是 副作用
用作前导项- ) ,抽取引擎将按列出的顺序应用以下规则:
- 库中用户指定的形式。
- 预编译资源所定义的最常用形式。
步骤 4. 分配类型
接下来,将类型分配给抽取所得的概念。 类型是概念的语义分组。 此步骤同时使用编译资源和库。 类型包括更高级别的概念、肯定词和否定词、名字、地点和组织等内容。
语言系统具有知识敏感性,其字典中包含的信息越多,结果的质量也会越好。 修改字典内容(例如,同义词定义)可以简化所生成的信息。 这通常是一个迭代式过程,对于准确的概念检索而言不可或缺。 NLP 是“文本分析”的核心元素。