Text Analytics でカテゴリー・モデルを作成する場合は、いくつかの方法でカテゴリーを作成することができます。 すべてのデータセットが一意であるため、手法の数やそれらを適用する順序は、変わる場合があります。
結果の解釈が、他の人とは異なる場合があるため、テキスト・データにとってどの手法が最良の結果を生み出すか、それぞれの手法を検証する必要があります。 Text Analytics では、カテゴリーをさらに検証し、調整できるワークベンチ・セッションでカテゴリー・モデルを作成できます。
このドキュメントの「カテゴリーの作成」という用語は、1 つ以上の組み込み技法を使用してカテゴリーの定義と分類を生成することを指しています。また、「カテゴリー化」という用語は、プロセスのスコアリング、またはラべリングのことを指しています。それぞれのレコードまたはドキュメントについて、一意の識別子 (名前、ID、値) がカテゴリーの定義に割り当てられます。
カテゴリー作成時、抽出されたコンセプトおよびタイプはカテゴリーの構築ブロックとして使用されます。 カテゴリーを作成すると、カテゴリー定義の要素に一致するテキストが含まれる場合、レコードおよびドキュメントが自動的にカテゴリーに割り当てられます。
Text Analytics には、自動カテゴリー作成手法がいくつか用意されており、ドキュメントまたはレコードを迅速にカテゴリー化することができます。
グループ化手法
それぞれの手法は、特定のデータと状況に合わせて設計されていますが、多くの場合、同じ分析処理で複数の手法を組み合わせることにより、ドキュメント・レコード全体を処理することができます。 複数のカテゴリーのコンセプトを表示したり、重複するカテゴリーを見つけることができます。
セマンティック・ネットワーク: 各コンセプトの考えられる意味を、単語の関係の拡張インデックスから特定することによって開始し、関連するコンセプトをグループ化することによってカテゴリーを作成します。 この手法は、コンセプトがセマンティック・ネットワークに認識され、あまり曖昧でない場合に最も適しています。 テキストに、ネットワークが認識していない特殊な用語または専門用語が含まれている場合はあまり役に立ちません。 例えば、コンセプト granny smith apple
は、granny smith と横の関係があるため、gala apple
および winesap apple
とグループ化されます。 別の例では、コンセプトanimal
は、animal
の下位語であるcat
やkangaroo
でグループ化できます。 この手法は、英語のテキストでのみ使用することができます。
内包関係のコンセプト: この手法では、一方の共通の文字列である単語を含むかどうかに基づき、マルチタームのコンセプト (複合語) をグループ化することによってカテゴリーを作成します。 例えば、コンセプトseat
は、safety seat
、seat belt
および seat belt buckle
でグループ化されます。