在文本分析工作台中,您可以使用概念选项卡探索概念并调整提取结果。
运行 "文本挖掘" 节点时,抽取引擎将读取文本数据,识别相关概念,并为每个概念分配类型。 您可以在 概念 选项卡上查看抽取的概念和类型。 概念可以让您了解文本数据中的主要主题和最重要的主题。
在概念选项卡上,您可以看到从文本数据中提取的概念以及相关术语和类型。 这些技术术语的定义如下。
- 概念
- 概念是从文本数据中标识和抽取的重要单词和短语。 它们也称为 抽取结果。 这些概念分组到类型。 您可以使用这些概念来浏览数据和创建类别。
- 条款
- 术语是构成概念的特定词。 术语是单个词 (例如
airport
或location
) 和词短语 (例如airport pick-up
)。 它们用于识别文本中的概念。 术语可以是词的复数或单数形式,较大词的部分,同义词或拼写变体。 - 类型
- 类型是概念的语义分组。 抽取概念时,会为其分配类型以帮助分组相似概念。 例如,某些缺省类型为
<Location>
,<Organization>
,<Person>
,<Positive>
和<Negative>
。
您可以通过修改语言资源来完善提取结果。 要简化对语言资源进行微调的过程,可以直接从 概念 选项卡执行常见字典任务。 您可以在 资源编辑器 选项卡中微调其他语言资源。
"概念" 窗格
此区域显示抽取结果。 概念和类型与颜色编码一起显示。 您可以单击 Filter 图标过滤显示的概念,或单击 Search 图标搜索特定概念。
在窗格中选择行 (概念) 时,可以在 预览 窗格中查看有关相应文档和记录的信息。
要查看概念的底层术语,请单击 " 概念 " 窗格中的概念,然后单击溢出菜单 并选择 显示底层术语。 并非所有概念都包含底层术语。 例如, car
manufacturing
和 manufacturing of cars
是同义词,但 car manufacturing
是作为概念抽取的,而 manufacturing
of cars
是底层术语。 如果您想使用其中一个概念作为类别的描述符,最好使用 car manufacturing
这个术语,因为它也能匹配带有 manufacturing of
cars
的文档或记录。
要更改提取概念的方式,请单击设置图标,同时不要选择任何概念。 有关设置的更多信息,请参阅 设置选项。
预览窗格
选择概念时, " 预览 " 窗格将显示具有该概念的文档或记录中的文本。 将突出显示概念以帮助您在文本中轻松识别这些概念。 当您将鼠标悬停在颜色编码的单词上时,将显示工具提示。 它显示抽取词时所使用的概念的名称以及将其分配到的类型。