回答の主要キーワードの抽出時、Text Analytics は言語学に基づくテキスト分析に依存します。 このアプローチを用いると統計に基づくシステムがもたらすようなスピードと費用対効果が得られます。 また人の手を介することがほとんどないので、極めて高い精度が得られます。 言語学に基づくテキスト分析は、自然言語処理、あるいは計量言語学と呼ばれる研究分野に基づいています。
抽出プロセスがどのように機能するのかを理解しておくと、言語リソース (ライブラリー、タイプ、類義語など) を微調整する際に主要な決定を下すのに役立ちます。 抽出プロセスのステップには以下のものがあります。
- ソース・データの標準フォーマットへの変換
- 候補となる用語の特定
- 類義語の等価クラスおよび統合の特定
- タイプの割り当て
- インデックスの付与
- パターンおよびイベント抽出のマッチング
ステップ 1。 ソース・データの標準フォーマットへの変換
最初のステップでは、後続の分析に利用できるように、インポートしたデータを決まった形式に変換します。 この変換は内部的に実行され、元のデータは変更されません。
ステップ 2 候補となる用語の特定
言語学的抽出において、候補となるキーワードを特定する際の言語リソースの役割を理解しておくのは大切なことです。 言語リソースは、抽出が実行されるごとに使用されます。 言語リソースは、テンプレート、ライブラリー、およびコンパイル済みリソースの形式で保存されています。 ライブラリーには、語のリスト、関係性、また抽出の特定や調整に使用されるその他の情報が含まれています。 基幹辞書は表示・編集ができません。 ただし、残りのリソース (テンプレート) は、テンプレート・エディターで編集することも、テキスト分析ワークベンチ・セッションの場合はリソース・エディターで編集することもできます。
コンパイル済み辞書は、抽出エンジンの主要な、内部コンポーネントです。 これらのリソースには、品詞コード (名詞、動詞、形容詞、副詞、分詞、限定詞、接続詞、前置詞) を含む基本形のリストを収めた一般辞書が含まれています。 また、リソースには、多数の抽出された用語を <Location>
、 <Organization>
、または <Person>
のタイプに割り当てるために使用される、予約済みの組み込みタイプも含まれます。
これらコンパイル済み辞書のほか、製品にはいくつかのライブラリーが付属し、それらを使用して、コンパイル済み辞書のタイプ定義およびコンセプト定義を補い、またその他のタイプや類義語を提供することができます。 これらのライブラリー、および作成したユーザー指定のライブラリーは、いくつかの辞書で構成されています。 これらには、キーワード辞書、類義語辞書 (類義語およびオプションの要素)、および不要語辞書が含まれています。
データがインポートされて変換されると、抽出エンジンは抽出対象のキーワードの識別を開始します。 候補となるキーワードとは、テキスト内の概念を特定するのに使用される語や、語の集まりのことです。 テキストの処理中に、コンパイル済みリソース内にない単一の単語 (国語) は、候補の用語抽出と見なされます。 候補の複合語 (複数語) は、品詞パターン抽出プログラムを使用して識別されます。 例えば、 形容詞名詞 品詞パターンに従うマルチターム sports car
には、2 つのコンポーネントがあります。 形容詞名詞 品詞パターンに従うマルチターム fast
sports car
には、3 つの構成要素があります。
最後に、特殊なアルゴリズムを使用して、役職などの大文字の文字列を処理し、これらの特殊なパターンを抽出できるようにします。
ステップ 3. 類義語の等価クラスおよび統合の特定
候補の 1 つの用語と複数の用語が識別されると、ソフトウェアは一連のアルゴリズムを使用してそれらを比較し、等価クラスを識別します。 等価クラスは、ある語句の基本形、すなわち同じ語句の2つの表現を1つの形で表わしたものです。 等価クラスに句を割り当てる目的は、例えば、president of the
company
とcompany president
が別々の概念として扱われないようにすることです。 等価クラスに使用する概念 (つまり、president of the
company
とcompany president
のどちらを主要用語として使用するか) を決定するために、抽出エンジンは以下の規則をリストされた順序で適用します。
- ライブラリーのユーザー指定の形式。
- テキスト全体で最も出現頻度の高い形式。
- テキスト全体で最も短い形式 (通常、基本型に該当)。
ステップ 4. タイプの割り当て
次に、抽出されたコンセプトにタイプを割り当てます。 タイプは、コンセプトの意味上のグループ化です。 基幹辞書ならびにライブラリーの両方がこのステップで使用されます。 タイプには、上位レベルのコンセプト、肯定的な単語および否定的な単語、人名、地名、組織名などが含まれます。 ユーザーがタイプを定義して追加することもできます。
ステップ5. インデックスの付与
レコードまたはドキュメントのセット全体に、テキストの位置と各等価クラスの代表キーワードの間にポインタを確定してインデックスを付けます。 候補のコンセプトの活用形インスタンスはすべて、候補の基本型としてインデックスが付けられます。 基本形ごとに全体の出現頻度が計算されます。
ステップ6. パターンおよびイベント抽出のマッチング
Text Analytics は、タイプやコンセプトだけでなく、それらの関係性も見つけることができます。 このツールには、いくつかのアルゴリズムとライブラリーが付属しています。また、各種のタイプとコンセプト間の関係パターンを抽出するための機能も用意されています。 製品に対する反応などの特定の意見、または政治的グループやゲノムのリンクなど、人々またはオブジェクトの間の関係性リンクを探す場合に特に役立ちます。