从回复中抽取关键概念和构想期间,“文本分析”依赖于基于语言学的文本分析。 对于基于统计的系统,这种方法可以加快处理速度,并节省成本。 但是,准确度更高,需要的人为干预也少很多。 基于语言学的文本分析是以称为自然语言处理(也称为计算语言学)的研究领域为基础。
理解抽取过程的工作方式有助于您对语言资源(库、类型和同义词,等等)进行微调时做出关键决策。 抽取过程中的步骤如下所示:
- 将源数据转换为标准格式
- 识别候选术语
- 识别等价类和同义词组合
- 分配类型
- 建立索引
- 抽取匹配的模式和事件
步骤 1. 将源数据转换为标准格式
在第一步,导入的数据转换为可用于将来分析的统一格式。 此转换在内部执行,不会更改原始数据。
第 2 步, 识别候选术语
有一点很重要,那就是了解语言资源在语言抽取过程中候选术语的识别方面所扮演的角色。 每次运行抽取时,都会使用语言资源。 这些资源以模板、库和编译资源的形式存在。 库包含单词列表、关系列表,以及其他用于指定或调整抽取的信息。 编译资源不可查看或编辑。 但是,可以在模板编辑器中编辑其余资源 (模板) ,如果您在 Text Analytics Workbench 会话中,那么可以在资源编辑器中进行编辑。
编译资源是抽取引擎的内部核心组件。 这些资源包括一个通用字典,其中包含一列具有词类代码(名词、动词、形容词、副词、分词、连词、限定词或介词)的基本形式。 这些资源还包括保留的内置类型,用于将许多抽取所得的术语分配给下列类型:<Location>
、<Organization>
或 <Person>
。
除了这些编译资源之外,产品还随附多个库,以补充编译资源中的类型和概念定义,以及提供其他类型和同义词。 这些库以及您所创建的任何定制库是由多个字典组成。 这些字典包括类型字典、替换字典(同义词和可选元素)以及排除字典。
导入并转换数据后,抽取引擎将开始识别要抽取的候选术语。 候选术语是单词或一组单词,用于识别文本中的概念。 在文本处理期间,未包含在已编译资源中的单个词 (uni-term) 将被视为候选词抽取。 使用词性模式抽取器来识别候选复合词 (multi-terms)。 例如,遵循 形容词名词 词性模式的多术语 sports car
有两个组成部分。 遵循 形容词形容词名词 词性模式的多术语 fast
sports car
有三个组成部分。
最后,使用一种特殊算法来处理大写字母字符串(例如,职位),以便抽取这些特殊模式。
第 3 步, 识别等价类和同义词组合
在识别候选单术语和多术语后,软件使用一组算法对它们进行比较并识别等价类。 等价类是短语的基本形式,或者是同一短语的两种变体的单一形式。 将短语分配给等效类的目的是,确保 president of the
company
和 company president
不会被视为单独的概念。 为确定将哪个概念用于等效类,即是 president of the
company
还是 company president
用作引导词,抽取引擎按列出的顺序应用以下规则:
- 库中用户指定的形式。
- 整个正文中最常见的形式。
- 整个正文中最简短的形式(通常与基本形式对应)。
步骤 4. 分配类型
接下来,将类型分配给抽取所得的概念。 类型是概念的语义分组。 此步骤同时使用编译资源和库。 类型包括更高级别的概念、肯定词和否定词、名字、地点和组织等内容。 用户可以定义其他类型。
第 5 步: 建立索引
通过在文本位置和每个等价类的代表性术语之间建立指针,对整个记录或文档集建立索引。 这假设候选概念的所有屈折形式实例都以候选基本形式建立索引。 针对每种基本形式,计算全局频率。
步骤 6. 抽取匹配的模式和事件
“文本分析”不仅可以发现类型和概念,还可以发现它们之间的关系。 此工具随附多个算法和库,能够抽取类型和概念之间的关系模式。 这在尝试发现特定的意见(例如,对产品的反映)或者人员或对象之间的关联(例如,政治团体或基因组之间的关联)时尤其有用。