0 / 0
Go back to the English version of the documentation
语言资源
Last updated: 2024年12月11日
用于文本分析的SPSS Modeler中使用的语言资源

SPSS Modeler使用的提取过程依赖于语言资源。 这些语言资源是如何处理文本数据和提取信息以获得概念、类型,有时是模式的基础。

语言资源可分为不同类型:

类别集
类别是一组密切相关的观点和模式,通过评分程序将文本数据归类。
库用作 TAP 和模板的构建块。 每个库都由多个词典组成,用于定义和管理术语、同义词和排除列表。 在还单独交付库时,库将与模板和 TAP 预先打包在一起。
模板
模板包括一组库和一些高级语言和非语言资源。 这些资源形成了一个专门的集合,适用于特定的领域或环境,如产品意见。
文本分析软件包 (TAP)
文本分析包是一个预定义模板,与一个或多个类别集捆绑在一起。 TAP 将这些资源捆绑在一起,以便将类别和用于生成类别的资源存储在一起并可重复使用。 然后,您可以重复使用 TAP,将相同的类别和资源应用到其他流量。
注:在提取过程中,也会使用一些已编译的内部语言资源。 这些编译资源包含许多定义,对核心库中的类型进行了补充。 这些已编译的资源不可编辑。

定制语言资源

SPSS Modeler有一套默认的专门语言资源。 您可以利用这些语言资源,从针对特定语言和特定应用的研究和微调中获益。 但是,这些语言资源可能无法针对您的语境或数据进行优化。 您可以编辑并保存对这些语言资源所做的更改,以优化流程的提取过程。

您还可以创建和导入自定义语言资源,这些资源可根据贵组织的数据进行独特的微调。 您可以使用本地文件在用户和项目之间共享这些语言资源。 您可以从本地文件添加模板、库或 TAP 作为项目资产。

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more