0 / 0
Go back to the English version of the documentation
高级语言设置
Last updated: 2024年6月07日
高级语言设置 (SPSS Modeler)

构建类别时,可以从多个高级语言类别构建方法(例如,概念包含和仅限于英语文本的语义网络)中进行选择。 这些方法可单独使用,也可与其他方法组合使用来创建类别。

请记住,由于每个数据集唯一,方法数和应用这些方法的顺序会随着时间发生变化。 由于文本挖掘目标在不同数据组中可能会不同,因此可能需要试验不同方法,以了解哪种方法可针对给定文本数据产生最佳效果。 没有一种自动方法能对数据进行完美分类;因此,建议寻找并应用适用于数据的一种或多种自动方法。

以下高级设置可用于类别设置中的使用语言方法构建类别选项。

类别输入

选择要从其进行构建的类别:

  • 未使用的抽取结果。 使用此选项,可根据任何现有类别中未使用的抽取结果构建类别。 这可最大程度降低记录匹配多个类别的趋势,并限制生成的类别数。
  • 所有抽取结果。 此选项可使用任何抽取结果构建类别。 不存在任何分类或存在很少的分类时,这会很有帮助。

类别输出

选择将构建的类别的常规结构:

  • 分层,具有子类别。 此选项创建子类别和子子类别。 您可以通过选择可以创建的最大级别数来设置类别的深度。 例如,如果选择 3,那么类别可以包含子类别,而这些子类别也可以具有子类别。
  • 平面类别(仅单个级别)。 此选项仅构建一个级别的类别,这意味着将不会生成子类别。

分组方法

每个提供的方法都非常适合某些类型的数据和情况,但通常在同一分析中使用这些方法的组合以捕获完整文档或记录会很有帮助。 您可能会发现同一个概念出现在多个类别中,或者找到冗余的类别。

  • 按概念包含进行分组。 这种方法根据多术语概念(复合词)所含的词是否为另一多术语概念中某个词的子集或超集,对这些概念进行分组以构建类别。 例如,概念 seat 将与 safety seatseat beltseat belt buckle 分组在一起。
  • 按语义网络分组。 这种方法首先从每个概念的单词关系扩展索引识别该概念的可能含义,然后通过将相关概念分组来创建类别。 在概念对于语义网络已知而且不会太模棱两可时,这种方法最适用。 当文本包含网络未知的专用术语或行话时,这种方法的帮助不大。 在一个示例中,可以将概念 granny smith applegala applewinesap apple 分组在一起,因为它们是 granny smith 的同代。 再例如,概念 animal 可能会与 catkangaroo 分组在一起,因为它们都是 animal 的下义词。 这种方法仅适用于英语文本。
  • 最大搜索距离。 仅当选择了按语义网络分组选项时,此设置才可用。 选择生成类别之前希望通过方法搜索的最大范围。 值越小,获得的结果越少,但是,这些结果将更为简单,且更可能互相紧密链接或关联。 值越大,获得的结果可能越多,但是,这些结果可靠性和相关性将降低。 此选项全局应用于所有方法时,影响最大的是同现和语义网络。
  • 防止特定概念的配对。 选择此选项以停止在输出中将两个概念分组或配对的过程。 要创建或管理概念对,请单击管理对
  • 尽可能使用通配符进行泛化。 选择此选项以允许 Modeler 使用星号通配符在类别中生成通用规则。 例如,使用通配符可能会生成 [apple * + .],而不会生成多个描述符,例如 [apple tart + .][apple sauce + .]。 如果您使用通配符进行泛化,那么通常会像以前一样获取相同数目的记录或文档。 但是,此选项具有减少数目和简化类别描述符的优势。 此外,此选项还通过针对新文本数据(例如,在纵波研究中)使用这些类别,提高对更多记录或文档进行分类的能力。

用于构建类别的其他选项

创建的顶级类别的最大数目。 使用此选项,限制下一次在类别窗格中单击构建时可生成的类别数。 在某些情况下,如果将此值设置为较高,然后删除任何不相关的类别,那么可能会获得较好的效果。

每个描述符的描述符和/或子类别的最小数目。 使用此选项,定义创建类别时必须包含的最小描述符和子类别数。 此选项帮助对未捕获大量记录或文档的类别的创建进行限制。

允许描述符显示在多个类别中。 选择此项时,允许在接下来将构建的多个类别中使用描述符。 通常会选择此选项,因为项通常或者“自然”地属于两个或更多类别,因此一般情况下会使类别的质量更高。 如果未选择此选项,减少多个类别中的记录重叠,并且根据您所具有的数据类型,这可能是可取的。 但是,针对多数数据类型,将描述符限制为单个类别通常会导致降低质量或类别覆盖范围。 例如,假设您具有概念 car seat manufacturer。 使用此选项时,此概念可能会出现在基于文本 car seat 的一个类别中,以及基于 manufacturer 的另一个类别中。 但是,如果未选择此选项,虽然您仍可能获得这两个类别,但根据多个因素(包括发生 car seatmanufacturer 的记录数),概念 car seat manufacturer 将仅作为描述符显示在它最匹配的类别中。

解析重复的类别名称依据。 选择如何处理其名称将与现有类别相同的任何新类别或子类别。 您可以将新类别(及其描述符)与具有相同名称的现有类别合并,也可以选择在现有类别中发现重复名称时跳过创建任何类别。

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more