テキスト分析は、抽出プロセスを使用して、テキスト・データから主要概念を迅速かつ正確に取り込みます。 このプロセスは、構造化されていない大量のテキストデータをどのように分析し解釈するかを指示する言語リソースに依存している。
Resource editor タブを使用して、抽出プロセスで使用される言語リソースを表示できます。 これらのリソースは、テンプレートおよびライブラリーの形式で保管されます。これらは、コンセプトの抽出、タイプの下でのグループ化、テキスト・データ内のパターンの検出、およびその他のプロセスに使用されます。 テキスト分析は、いくつかの事前構成されたリソース・テンプレートを提供します。一部の言語では、テキスト分析パッケージ内のリソースを使用することもできます。
リソース エディター タブでは、用語とタイプを使用して、ドキュメントから抽出する概念を特定します。 これらの専門用語は以下のように定義されている。
- コンセプト
- コンセプトは、テキスト・データから識別および抽出された重要な語句です。 これらは、 抽出結果とも呼ばれます。 これらのコンセプトは、「タイプ」にグループ化されます。 これらのコンセプトを使用して、データを探索し、カテゴリーを作成することができます。
- 用語
- 用語は、概念を構成する特定の単語です。 用語とは、
airport
やlocation
のような単語や、airport pick-up
のような語句のことです。 本文中の概念を識別するために使用される。 用語は、複数形または単数形の単語、より大きな単語の一部、同義語、またはスペルのバリエーションにすることができます。 - タイプ
- タイプは、コンセプトのセマンティック・グループです。 コンセプトが抽出されると、それらをタイプに割り当てて、同様のコンセプトをグループ化します。 例えば、デフォルト・タイプには、
<Location>
、<Organization>
、<Person>
、<Positive>
、および<Negative>
などがあります。
リソースエディタタブを使用して、言語リソースをカスタマイズおよび調整できます。 また、これらのコントロールを使用して、テキスト・データとの用語の突き合わせ方法を管理したり、テキスト・リンク分析 (TLA) の規則を定義したりすることもできます。
「用語/同義語」ペイン
「キーワード/同義語」ペインには、抽出プロセス中に言語リソースとして使用されるすべてのライブラリーが表示されます。 特定の用語を概念にグループ化する方法をカスタマイズする場合は、ライブラリー内の用語を編集できます。 また、ライブラリーに用語を追加することもできます。 例えば、テキスト・データが 1 つのフィールドまたは作業分野に固有のものである場合、欠落している可能性のある技術用語を追加できます。
カスタム・ライブラリーおよびテンプレート
これらのリソースはデータのコンテキストに完全に適合しない可能性があるため、リソースエディタタブで特定のコンテキストやドメイン用に独自のリソースを作成して管理することができます。
ライブラリーまたはテンプレートに加えた変更をプロジェクト資産として保存することができます。保存した変更は、他のフローで再利用できます。 ローカル・ファイルを使用してリソースを管理する場合は、カスタム・ライブラリーまたはテンプレートをインポートすることもできます。
ファジーグループ化と屈折グループ化
テキスト・データを分析する際には、ファジー・グルーピングや屈折グループ化のテクニックを使うことができる。 ファジー・グルーピング技法は、一般的にスペルミスの多い単語やスペルの近い単語をグループ化し、屈折グループ化技法は、語根に基づいて単語の屈折した変種をグループ化する。
これらの機能を有効にしたときに、スペルが似ている2つの単語が誤って一緒にグループ化された場合は、これらのグループ化手法から単語を除外することができます。 誤ってマッチしたペアは、Advanced resourcesタブのExceptionsセクションに追加することができる。