使用“文本链接分析”(TLA) 节点,将自动启用文本链接分析模式结果的抽取。 在节点的属性中,专家选项包括影响文本抽取和处理方式的某些其他参数。 专家参数控制抽取过程的基本行为以及一些高级行为。 还有多种语言资源和选项也可能影响抽取结果,这些资源和选项由您所选的资源模板来控制。
仅限于提取全球频率至少为 [n] 的概念。 此选项指定单词或短语在文本中必须至少出现多少次才会被抽取。 通过此方式,值为 5 会将抽取限于在记录或文档的整个集合中出现至少五次的单词或短语。
在某些情况下,更改此限制会在产生的抽取结果中造成巨大差异,从而影响类别。 假设您正在处理一些餐厅数据,但对于此选项,您不会增加超出 1 的限制。 在这种情况下,您可能会在抽取结果中找到 pizza (1),
thin pizza (2), spinach pizza (2)
和 favorite pizza (2)
。 但是,如果要将抽取限于全局频率为 5 或以上并重新抽取,那么将不会再获取其中三个概念。 相反,您将获得 pizza
(7)
,因为 pizza
是最简单的格式,并且此词已作为可能的候选项存在。 根据其余文本,实际频率可能为 7 以上,具体视文本中是否仍有其他包含 pizza 的短语而定。 此外,如果 spinach pizza
已是类别描述符,那么可能需要添加 pizza
作为描述符,而不是捕获所有记录。 为此,只要已创建类别,就请谨慎更改此限制。
请注意,这是仅抽取功能;如果模板包含术语(通常会包含),并且在文本中找到模板的术语,那么将对术语建立索引,而不考虑其频率。
例如,假设使用在 Core 库中的 <Location>
类型下包含“los angeles”的基本资源模板;如果文档仅包含一次 Los Angeles,那么 Los Angeles 将是概念列表的一部分。 要阻止此操作,您将需要设置过滤器,以显示满足以下条件的概念:出现次数至少与在将抽取限于全局频率至少为 [n] 的概念字段中输入值的次数相同。
允许标点符号错误。 此选项可在抽取期间临时标准化包含标点错误(例如,不正确使用)的文本,以改善概念的可抽取性。 当文本很短且质量不佳(例如,在开放式调研回复、电子邮件和 CRM 数据中)时,或文本包含很多缩略词时,此选项非常有用。
容纳最小字字符长度为 [n] 的拼写。 此选项适用于模糊分组方法,此方法可帮助将普遍拼写有误的单词或拼写接近的单词分组到一个概念下。 模糊分组算法将所有元音(不包含第一个)临时删除,并从抽取的单词中删除双/三辅音,然后对其进行比较,以确定它们是否相同,以便将 modeling
和 modelling
分组到一起。 但是,如果将每个术语分配到不同的类型 (不包括 <Unknown>
类型) ,那么将不会应用模糊分组方法。
您还可先定义所需的最小根字符数,再使用模糊分组。 术语中根字符数通过对所有字符相加减去形成屈折变化后缀的任何字符数以及(使用复合单词术语的情况下)限定词和介词数计算得出。 例如,对于术语 exercises
的 exercise 形式,将计数为 8 个根字符,因为单词末尾的字母 s
是一种词形变化(复数形式)。 同样,apple sauce
计数为 10 个根字符(“apple sauce”),manufacturing of cars
计数为 16 个根字符(“manufacturing car”)。 此计数方法仅用于检查是否应该应用模糊分组,并不影响词的匹配方式。
抽取单迭代。 此选项会抽取单个单词(单术语),前提是此单词不是复合单词的一部分,且为名词或未识别的词性。
抽取非语言实体。 此选项用于抽取非语言实体,例如,电话号码、社保号、时间、日期、货币、数字、百分比、电子邮件地址和 HTTP 地址。 您可以在“高级资源”属性下的非语言实体:配置部分中包含或排除某些类型的非语言实体。 通过禁用任何不需要的实体,抽取引擎不会浪费处理时间。
大写算法。 此选项会抽取内置字典中不存在的简单术语和复合术语,只要该术语的首字母为大写。 此选项提供了一种很好的方式来抽取大部分正确的名词。
尽可能将部分人员姓名和完整人员姓名分组在一起。 此选项用于将在文本中显示不同的姓名分组在一起。 由于通常在文本开头部分通过全名指代姓名,而之后通过较短的版本指代姓名,因此,此功能会很有帮助。 此选项尝试将类型为 <Unknown>
的任何单术语与类型为 <Person>
的任何复合术语的最后一个单词匹配。 例如,如果发现了 doe
且其最初类型为 <Unknown>
,那么抽取引擎会检查以了解 <Person>
类型中的任何复合术语是否将 doe
作为最后一个单词包含,例如,john doe
。 此选项不适用于名字,因为大部分的名字从不作为单术语抽取。
最大非函数词排列。 此选项指定应用排列方法时可显示的非功能单词的最大数目。 此排列方法将仅包含的非功能单词(例如,of
和 the
)不同(不考虑屈折变化)的相似短语分组在一起。 例如,假设您将此值设置为最多两个单词,并且抽取了 company officials
和 officials of the company
。 在此情况下,这两个抽取的术语将在最终概念列表中分组在一起,因为在忽略 of the
时,这两个术语视为相同。
对多术语进行分组时使用派生。 处理大数据时,选择此选项以使用派生规则对多术语进行分组。