カテゴリーを作成する場合、「内包関係のコンセプト」や「セマンティック・ネットワーク」」 (英語テキストのみ) など、さまざまな詳細言語カテゴリー作成手法から選択することができます。 これらの手法は個別に、またはそれぞれを組み合わせてカテゴリーを作成することができます。
すべてのデータセットが一意であるため、手法の数やそれらを適用する順序は、時間によって変わる場合がありますので、注意してください。 テキスト マイニングの目標が、データセットによって異なる場合があるため、それぞれの手法を検証して、指定したテキスト・データにとってどの手法が最良の結果を生み出すかを確認する必要があります。 自動的手法では、データを完全にカテゴリー化できません。そのため、データに合った 1 つまたは複数の自動的手法を見つけ、適用することをお勧めします。
以下に示す拡張設定は、カテゴリー設定の「言語学的手法に基づきカテゴリーを作成する」オプションで使用することができます。
カテゴリー入力
以下のオプションを使用して、カテゴリーの作成元を選択します。
- 未使用の抽出結果: 既存のカテゴリーで使用されていない抽出結果からカテゴリーを作成できます。 レコードが、複数のカテゴリーと合致する傾向が最も小さくなり、作成されるカテゴリーの数が制限されます。
- すべての抽出結果: 抽出結果のいずれを使用してもカテゴリーを作成できます。 カテゴリーがないまたは少ない場合に最も役立ちます。
カテゴリー出力
作成されるカテゴリーの一般的な構造を選択します。
- サブカテゴリーによる階層: このオプションにより、サブカテゴリーとそのサブカテゴリーを作成することができます。 作成できる最大数のレベルを選択して、カテゴリーの深度を設定できます。 例えば、3 を選択すると、カテゴリー内にサブカテゴリーを作成でき、またこれらのサブカテゴリー内にもサブカテゴリーを作成できます。
- フラットなカテゴリー (単一レベルのみ):1 レベルのみのカテゴリーを作成できます。 このオプションで作成されるのは 1 レベルのみのカテゴリーであるため、サブカテゴリーは生成されません。
グループ化手法
使用できるそれぞれの手法は、特定の種類のデータおよび状況に適していますが、同じ分析で手法を組み合わせて、全範囲のドキュメントまたはレコードをキャプチャーすると役に立つ場合があります。 複数のカテゴリーのコンセプトを表示したり、重複するカテゴリーを見つけることができます。
- 内包関係のコンセプトによるグループ化: この手法では、一方の共通の文字列である単語を含むかどうかに基づき、マルチタームのコンセプト (複合語) をグループ化することによってカテゴリーを作成します。 例えば、コンセプト
seat
は、safety seat
、seat belt
およびseat belt buckle
でグループ化されます。 - セマンティック・ネットワークによるグループ化: 各コンセプトの考えられる意味を、単語の関係の拡張インデックスから特定することによって開始し、関連するコンセプトをグループ化することによってカテゴリーを作成します。 この手法は、コンセプトがセマンティック・ネットワークに認識され、あまり曖昧でない場合に最も適しています。 テキストに、ネットワークが認識していない特殊な用語または専門用語が含まれている場合はあまり役に立ちません。 1 つの例として、
granny smith apple
という概念をgala apple
とwinesap apple
でグループ化することができます。これらは、granny smith の兄弟であるためです。 別の例では、コンセプトanimal
は、animal
の下位語であるcat
やkangaroo
でグループ化できます。 この手法は、英語のテキストでのみ使用することができます。 - 最大検索距離: このオプションを使用できるのは、「意味ネットワークによるグループ化」オプションを選択した場合だけです。 カテゴリー作成前に手法による検索の距離を選択します。 ただし、これらの結果はノイズが少なく、またリンクや関連性が大きくなります。値が大きいほど、取得する結果は多くなります。 ただし、これらの結果の信頼性または関連性が弱くなります。 このオプションはすべての手法にグローバルに適用されますが、共起とセマンティック・ネットワークに対する効果は最も大きくなります。
- 特定のコンセプトの組み合わせを防止します。 出力内で特定の 2 つのコンセプトがグループ化されないようにするには、このオプションを選択します。 コンセプト・ペアの作成または管理を行うには、ペアの管理をクリックします。
- 可能な場合はワイルドカードを使用して一般化します。 アスタリスクをワイルドカードとして使用してカテゴリーの汎用ルールを作成する場合は、このオプションを選択します。 例えば、
[apple tart + .]
や[apple sauce + .]
などの複数の記述子を生成する代わりに、ワイルドカードを使用すると、[apple * + .]
が生成される場合があります。 ワイルドカードを使用して一般化すると、以前と同じように、ちょうど同じ数のレコードまたはドキュメントを取得する場合が多くなります。 ただし、このオプションには、数の縮小やカテゴリーの記述子の簡略化という利点があります。 また、このオプションを使用すると、新しいテキスト・データ (例: 長期的/周期的研究) にこれらのカテゴリーを使用してより多くのレコードまたはドキュメントをカテゴリー化する機能を拡大します。
カテゴリーを作成するためのその他のオプション
作成される上位レベル・カテゴリーの最大数 このオプションを使用して、カテゴリー・ペインで「ビルド」をクリックしたときに生成されるカテゴリーの数を制限することができます。 この値を高く設定し、関心の低いカテゴリーを削除すると、よりよい結果が生成される場合があります。
記述子および/または記述子ごとのサブカテゴリーの最小数。 カテゴリーが作成するために含む必要のある記述子数およびサブカテゴリー数の最小値を定義します。 多くのレコードまたはドキュメントをキャプチャーしないカテゴリーの作成が制限されます。
記述子が複数のカテゴリーに表示されることを許可する: このオプションを選択すると、記述子を次の作成される複数のカテゴリーに使用できるようにします。 項目が一般的にまたは「自然に」 2 つ以上のカテゴリーになり、より良い品質のカテゴリーを作成するため、このオプションが一般的に選択されます。 このオプションを選択しなかった場合、複数のカテゴリー間で重複するレコードの数が少なくなります。そのため、使用するデータのタイプによっては、このオプションを選択しない方が効果的な場合もあります。 ただし、多くのデータ・タイプでは、記述子を 1 つのカテゴリーに制限すると、品質またはカテゴリーの範囲が損なわれます。 例えば、car seat manufacturer
というコンセプトがあったとします。 このオプションを指定すると、このコンセプトは、テキスト car seat
に基づいてあるカテゴリーに、また manufacturer
というテキストに基づいて別のカテゴリーに使用されます。 ただし、このオプションが選択されていない場合、2 つのカテゴリーを取得できますが、コンセプト car seat manufacturer
は、car seat
および manufacturer
がそれぞれ出現するレコード数など、いくつかの要素に基づいて、最も一致するカテゴリーにのみ、記述子として使用されます。
次の方法で重複するカテゴリー名を解決: 名前が既存のカテゴリーと同じ新規カテゴリーまたはサブカテゴリーの処理方法を選択します。 新しいカテゴリーとその記述子を既存のカテゴリーに同じ名前で結合することも、既存のカテゴリーと重複する名前が見つかった場合にカテゴリーの作成をスキップすることもできます。