テキスト分析ワークベンチでは、概念タブを使用して、概念を探索し、抽出結果を調整することができます。
テキスト・マイニング・ノードを実行すると、抽出エンジンはテキスト・データを読み取り、関連するコンセプトを識別し、それぞれにタイプを割り当てます。 「コンセプト」 タブで、抽出されたコンセプトとタイプを確認できます。 概念は、テキスト・データ内の主要なテーマと最も重要なテーマを示すことができます。
概念タブでは、テキストデータから抽出された概念と、関連する用語やタイプを見ることができます。 これらの専門用語は以下のように定義されている。
- コンセプト
- コンセプトは、テキスト・データから識別および抽出された重要な語句です。 これらは、 抽出結果とも呼ばれます。 これらのコンセプトは、「タイプ」にグループ化されます。 これらのコンセプトを使用して、データを探索し、カテゴリーを作成することができます。
- 用語
- 用語は、概念を構成する特定の単語です。 用語は、
airport
やlocation
などの単一の単語や、airport pick-up
などの語句です。 これらは、テキスト内の概念を識別するために使用されます。 用語は、複数形または単数形の単語、より大きな単語の一部、同義語、またはスペルのバリエーションにすることができます。 - タイプ
- タイプは、コンセプトのセマンティック・グループです。 コンセプトが抽出されると、それらをタイプに割り当てて、同様のコンセプトをグループ化します。 例えば、デフォルト・タイプには、
<Location>
、<Organization>
、<Person>
、<Positive>
、および<Negative>
などがあります。
言語リソースを変更することで、抽出結果を絞り込むことができます。 言語リソースの微調整プロセスを単純化するために、 「概念」 タブから一般的な辞書タスクを直接実行できます。 「リソース・エディター」 タブで、他の言語リソースを微調整できます。
「概念」ペイン
この領域には、抽出結果が表示されます。 コンセプトとタイプは色分けで表示されます。 フィルターアイコンをクリックして表示されるコンセプトをフィルターしたり、検索アイコンをクリックして特定のコンセプトを検索することができます。
ペインで行 (コンセプト) を選択すると、対応するドキュメントおよびレコードに関する情報が 「プレビュー」 ペインに表示されます。
コンセプトの基本キーワードを表示するには、 「コンセプト」 ペインでコンセプトをクリックし、オーバーフロー・メニュー をクリックして、 「基本キーワードを表示」を選択します。 すべてのコンセプトに基本キーワードがあるわけではありません。 例えば、 car
manufacturing
と manufacturing of cars
は類義語ですが、 car manufacturing
は manufacturing
of cars
を基本キーワードとしてコンセプトとして抽出されました。 これらの概念のいずれかをカテゴリの記述子として使いたい場合、car manufacturing
を使うのが最適です。manufacturing of
cars
を持つ文書やレコードにもマッチするからです。
概念の抽出方法を変更するには、概念が選択されていない状態で Settings アイコンをクリックします。 設定の詳細については、設定オプションを参照してください。
プレビュー・ペイン
コンセプトを選択すると、 「プレビュー」 ペインに、そのコンセプトを持つドキュメントまたはレコードからのテキストが表示されます。 テキスト内で概念を容易に識別できるように、概念が強調表示されています。 色分けされた単語の上にカーソルを移動すると、ツールチップが表示されます。 ここには、単語が抽出されたコンセプトの名前と、そのコンセプトが割り当てられたタイプが表示されます。