文本链接分析 (TLA) 是一种模式匹配技术。 它可以根据已知模式识别文本数据中提取的概念之间的关系。 SPSS Modeler将提取的概念与 TLA 规则进行比较,以确定概念是否与 TLA 规则中定义的特定模式相匹配。
在文本链接选项卡上,您可以定义新规则,并探索文本数据中的文本链接和模式。 这些术语的定义如下。
- 模式
- 通过组合概念或类型来创建模式。 模式可以是 概念模式 或 类型模式。 每个模式最多可以有六个概念或六种类型。 模式有时称为 文本链接分析 (TLA) 模式。
- 类型模式
- 类型模式显示为方括号内的单词组合:
<Organization> + <Location> + <Positive>
- 概念模式
- 概念模式以单词组合的形式出现,不带括号:
atmosphere + pleasant + hotel
当您想发现有关特定主题的观点或概念之间的关系时,模式是最有用的。
例如,从客户复审中抽取产品名称可能对您不感兴趣。 相反,您可以查看提取的模式,看看能否找到文档或记录中表达了对产品好、坏或贵的看法的例子。 您可能还想从调查数据中提取对产品的意见,或从情报数据中提取人与人或人与地点之间的关系。
- 规则
- 规则定义类型模式。 在提取过程的模式匹配阶段,文本链接分析将文本数据与这些规则进行比较。 当文本与类型模式匹配时,信息就会作为模式被提取出来。 这些规则在语言资源中定义,例如模板或文本分析包 (TAP)。 规则有时称为 文本链接分析 (TLA) 规则 或 TLA 模式规则。
- 文本链接
- 文本链接显示在文本数据中出现概念或模式的位置。
要使用 TLA,您必须拥有包含已定义 TLA 规则的模板的语言资源。 选择模板时,可以通过 TLA 栏中是否有图标来识别哪些模板有规则。
如何在语言资源中定义模式规则,决定了模式结果的复杂程度。 您可以在 资源编辑器 选项卡中优化规则以根据特定需求进行调整。 探索模式后,您可以将它们添加到类别中。
类型模式窗格
您可以使用 类型模式窗格从提取结果中探索和选择模式。 首先将模式分组到类型模式中,这些模式是与规则匹配的相关类型的组合。 但是,有时单个类型与规则匹配。 然后将概念模式归类到它们所适合的类型模式下。 例如,概念模式 price + high
和 cost + too much
可以分组到类型模式 <Budget> + <Negative>
下。 每种类型的模式都可以具有任意数量的概念模式。
您可以单击 Filter 图标过滤显示的类型模式,或单击 Search 图标搜索特定概念。
要更改提取模式的方式,请单击未选择类型模式的 设置图标。 有关设置的更多信息,请参阅 设置选项。
预览窗格
如果要查看模式在具有该模式的文档中的显示效果,请在 类型模式窗格中选择模式。 Preview 窗格会更新以显示它。 将突出显示这些概念,以帮助您在文本中轻松识别这些概念。
“类别”窗格
"类别" 窗格显示类别模型的结构。 层次结构显示了如何对模式进行分类。 类别 "窗格显示类别模型中的类型模式以及用于对概念模式进行分类的规则。 添加到类别模型的任何概念模式都将显示为文本链接。