您可以在文本分析工作台中定制抽取过程的不同部分。 在 概念, 文本链接和 类别 选项卡上,您可以访问多个工作台设置,以更改从文本数据中抽取术语的方式。
抽取结果的设置
运行 "文本挖掘" 节点时,抽取引擎将读取文本数据,识别相关概念,并为每个概念分配类型。 您可以更改抽取过程的设置,以调整如何创建抽取结果。
从 概念 或 文本链接 选项卡中,单击 设置 图标以更改用于抽取概念,模式和文本链接的设置。
- 启用文本链接分析模式抽取
- 如果在其中一个库中有文本链接分析 (TLA) 规则,请选中此复选框以从文本数据中抽取 TLA 模式。 此选项可显着延长抽取时间。
- 将抽取限制为全局频率至少为以下值的概念
- 仅当术语在文本数据中出现设定次数时,才能使用此选项将术语抽取为概念。
- 允许标点符号错误
- 此选项会临时规范化具有标点错误的文本,以提高抽取过程中概念的可抽取性。 当文本短且质量差时,此选项很有用。 例如,来自开放式调查响应,电子邮件和 CRM 数据的文本数据可能具有不正确的标点。 当文本包含许多缩写时,它也很有用。
- 根据最小根字符数限制调整拼写
- 此选项将应用模糊分组技术,以帮助将通常拼写错误的单词或拼写接近的单词分组到一个概念下。 模糊分组算法暂时去除所有元音 (第一个元音除外) ,并从提取的单词中去除双/三辅音。 然后对抽取的词进行比较,以了解它们是否相同。 例如modeling和modelling分组在一起。 但是,如果将每个术语分配到不同的类型,那么不包括<Unknown>类型,不应用模糊分组技术。
- 抽取单元词
- 当单个词 (uniterms) 满足以下条件时,可以使用此选项将其抽取为概念:
- 抽取非语言实体
- 此选项抽取非语言实体,例如以下实体:
- 电话号码
- 社会保障号码
- 次数
- 日期
- 货币
- 百分比
- 电子邮件地址
- HTTP 地址
您可以包含或排除某些类型的非语言实体。 通过禁用任何不必要的实体,抽取引擎可节省处理时间。
- 大写算法
- 此选项会抽取内置字典中不存在的简单术语和复合术语,只要该术语的首字母为大写。 如果要抽取最合适的名词,那么此选项很有用。
- 在可能的情况下将不完整和完整的人员名称分成一组
- 此选项将在文本中以不同方式显示的名称分组在一起。 由于通常在文本开头部分通过全名指代姓名,而之后通过较短的版本指代姓名,因此,此功能会很有帮助。 此选项尝试将类型为
<Unknown>
的任何单术语与类型为<Person>
的任何复合术语的最后一个单词匹配。 例如,如果发现了 doe 且其最初类型为<Unknown>
,那么抽取引擎会检查以了解<Person>
类型中的任何复合术语是否将 doe 作为最后一个单词包含,例如,john doe。 此选项不适用于名字,因为大部分的名字从不作为单术语抽取。 - 最大非功能词排列数
- 此选项指定应用排列方法时可显示的非功能单词的最大数目。 此排列方法将仅包含的非功能单词(例如,of 和 the)不同(不考虑屈折变化)的相似短语分组在一起。 例如,假设您将此值设置为最多两个单词,并且抽取了 company officials 和 officials of the company。 在此情况下,这两个抽取的术语将在最终概念列表中分组在一起,因为在忽略 of the 时,这两个术语视为相同。
- 对多项分组时使用派生
- 处理大数据时,选择此选项以使用派生规则对多术语进行分组。
类别设置
类别是根据派生自类型或类型模式的描述符构建的。 在表中,可以选择要包含在类别构建过程中的各个类型或类型模式。
从类别标签,转到 更改以下设置。
- 根据以下对象构建类别
- 如果选择 类型,那么将根据属于所选类型的概念构建类别。 因此,如果选择<Budget>表中的类型,类别,例如,cost或price可能产生于cost和price是分配给<Budget>类型。
缺省情况下,仅选择捕获最多记录或文档的类型。 此预先选择使您可快速关注最相关的类型,并避免构建不相关的类别。 该表以降序显示类型,从记录或文档数最多的记录或文档 (Doc) 开始。 计数)。
您选择的输入将影响您获取的类别。 选择将类型用作输入时,可更容易地看到明确相关的概念。 例如,如果使用 "类型" 作为输入来构建类别,那么可以获取类别Fruit与概念 (例如,apple,pear,citrus fruits和orange。如果选择 "类型模式" 作为输入,请选择模式<Unknown> + <Positive>例如,您可能会获得类别fruit + <Positive>有一种或两种水果如fruit + tasty和apple + good。第二个结果仅显示 2 概念模式,因为其他出现的水果不一定是正合格的。 虽然这可能适用于当前文本数据,但在使用不同文档集的纵向研究中,您可能希望手动添加其他描述符,例如citrus fruit + positive或使用类型。 单独使用类型作为输入可帮助您查找所有可能的水果。
如果选择类型模式,将根据模式而不是类型和概念本身构建类别。 将对包含属于所选类型模式的概念模式的任何记录或文档进行分类。 因此,如果选择<Budget>和<Positive>在表中输入模式,类别,例如,cost & <Positive>或rates & excellent可能会产生。
当使用类型模式作为自动化类别构建的输入时,有时这些方法会识别多种方法来形成类别结构。 实际上,不仅仅只有一种正确方法用于生成类别;但是可能会发现一种结构比另一种结构更适用于您的分析。 要在此情况下帮助定制输出,可将类型指定为首选焦点。 所有生成的顶级类别将来自此处所选的类型(而不是其他类型)概念。 每个子类别将包含来自此类型的文本链接模式。 在“按模式类型构造类别:”字段中选择此类型,表将更新以仅显示包含所选类型的适用模式。 更多的时候<Unknown>已为您预先选择。 何时<Unknown>会导致包含类型的所有模式处于选中状态<Unknown>。 该表以降序显示类型,从具有最多记录或文档 (Doc) 的类型开始。 计数)。
- 方法
- 由于每个数据集都是唯一的,因此方法的数量以及应用这些方法的顺序可能会随时间推移而变化。 您的文本挖掘目标可能与一组数据不同,因此您可能需要使用不同的技术进行试验,以查看文本数据产生的最佳结果。
您不需要非常了解这些设置也可使用这些设置。 缺省情况下,已选择最常见的普通设置。 因此,可跳过高级设置对话框,直接构建类别。 同样地,如果在此处执行更改,那么每次不必返回设置对话框,因为会始终保留最新设置。
提供了以下扩展设置:
- 类别输入
- 如果要根据任何现有类别中未使用的抽取结果构建类别,请选择 未使用的抽取结果 。 此选项可最大程度地降低记录与多个类别匹配的趋势,并限制生成的类别数。 或者,如果要使用任何抽取结果来构建类别,请选择 所有抽取结果 。 当您没有或没有几个类别时,此选项最有用。
每种分组方法都最适合特定类型的数据和情境。 在同一分析中组合技术以捕获完整的文档或记录通常很有用。 您可能会在多个类别中看到一个概念,或者找到冗余类别。
概念包含方法通过基于多术语概念(复合词)包含属于另一个类别中单词的子集还是超集的单词将其分组来构建类别。 例如,概念座椅分组有安全座椅,安全带和安全带扣。
语义网络方法首先从每个概念的单词关系扩展索引识别该概念的可能含义,然后通过将相关概念分组来创建类别。 例如,概念 黄芩潜水, 帆船, 浮潜, 皮划艇和 白水皮划艇 可能都分组在类别
sports/sports by type/water sports
中。 或者, 动物 概念可能与 cat 和 kangaroo 分组在一起,因为它们是动物的连字符。 语义网络 技术在概念为语义网络所知且不太模糊时最有效。 当文本包含网络中未知的专门术语或术语时,它不太有用。 这种方法仅适用于英语文本。仅当您选择语义网络方法时,最大搜索距离选项才可用。 选择您希望方法在生成类别之前搜索的程度。 值越低,您可能获得的结果越少。 然而,这些结果噪音较小,更有可能显着地相互联系或关联。 值越大,您可能获得的结果越多。 但是,这些结果可能不太可靠或不相关。 此选项全局应用于所有方法时,影响最大的是同现和语义网络。
如果要在输出中同时停止将两个概念分组或配对的过程,请选择阻止特定概念的配对。 要创建或管理概念对,请单击管理对。
- 如果可能
- 选择是使用通配符来扩展或泛化描述符,还是同时使用通配符来扩展和/或泛化描述符。
- 扩展和广义化
- 此选项扩展所选类别,然后对描述符进行泛化。 当您选择通用化时,类别构建过程将创建使用星号通配符的通用类别规则。 例如,通用类别规则可能使用通配符来生成
[apple * + .]
,而不是使用多个描述符 (例如[apple tart + .]
和[apple sauce + .]
)。 如果使用通配符进行泛化,那么通常会获得与之前相同的记录或文档数。 但是,此选项具有减少数目和简化类别描述符的优势。 此外,此选项通过在新的文本数据 (例如,纵向或波次研究) 上使用这些类别来提高对更多记录或文档进行分类的能力。 - 仅扩展
- 此选项扩展类别而不进行泛化。 针对手动创建的类别首先选择仅扩展选项,然后使用扩展并泛化选项再次扩展相同类别,这会很有帮助。
- 仅泛化
- 此选项可泛化描述符,而无需以任何其他方式扩展类别。
- 扩展描述符时使用的最大项数
- 使用项 (概念,类型和其他表达式) 扩展描述符时,请定义可以添加到单个描述符的最大项数。 如果将此限制设置为 10 ,那么不能向现有描述符添加超过 10 个额外项。 如果要添加 10 个以上的项,那么方法会在添加第 10 个项后停止添加新项。 执行此操作可使描述符列表保持较短,但不保证会首先使用最为相关的项。
- 同时扩展子类别
- 此选项扩展所选类别中包含的任何子类别。
- 使用根据类别名称生成的描述符来扩展空类别
- 此方法仅适用于空类别(具有 0 个描述符)。 如果类别已包含描述符,那么不会以此方式对其进行扩展。 此选项尝试根据组成类别名称的单词为每个类别自动创建描述符。 将扫描类别名称以查看名称中的词是否与任何抽取的概念匹配。 如果识别了概念,那么它将用于查找匹配的概念模式,且这两者都用于形成类别的描述符。 当类别名称较长且具有描述性时,此选项会产生最佳效果。 这是一种快速生成类别描述符的方法,进而使类别能够捕获包含这些描述符的记录。 从其他任何位置导入类别时,或手动创建具有较长描述性名称的类别时,此选项最为有用。
- 将描述符生成为
- 仅当选择了上述选项时,此选项才适用。 选择概念选项以生成概念形式的描述符,而不管这些描述符是否是从源文本中抽取的。 或者选择模式选项以生成模式形式的描述符,而不管是否已抽取生成的模式或任何模式。