テキストリンク分析(TLA)はパターンマッチング技術です。 これは、既知のパターンに基づいて、テキストデータ内の抽出された概念間の関係を識別する。 SPSS Modeler は、抽出された概念を TLA のルールと比較し、概念が TLA のルールで定義された特定のパターンに一致するかどうかを確認します。
テキストリンクタブでは、新しいルールを定義し、テキストデータから見つかったテキストリンクやパターンを調べることができます。 以下に、それらの用語の定義を示します。
- パターン
- パターンは、コンセプトまたはタイプを結合することによって作成されます。 パターンは、 コンセプト・パターン または タイプ・パターンのいずれかです。 各パターンは最大6つのコンセプト、または6つのタイプを持つことができる。 パターンは、 テキストリンク分析 (TLA) パターンと呼ばれることもあります。
- タイプ・パターン
- タイプパターンは、角括弧内の単語の組み合わせで示される:
<Organization> + <Location> + <Positive>
- コンセプト・パターン
- 概念パターンは、括弧のない単語の組み合わせとして表示される:
atmosphere + pleasant + hotel
パターンは、特定のテーマに関する意見や、概念間の関係を発見したいときに最も役に立つ。
例えば、顧客レビューから製品名を抽出しても、興味がない場合があります。 その代わりに、抽出されたパターンを見て、文書や記録がその製品の良し悪しや高価さについて意見を表明している例を見つけられるかどうかを調べることができる。 アンケートデータから商品に対する意見を抽出したり、インテリジェンスデータから人や場所の関係を抽出したりすることもできる。
- ルール
- ルールは、タイプ・パターンを定義します。 テキストリンク分析は、抽出プロセスのパターンマッチングの段階で、テキストデータをこれらのルールと比較する。 テキストが型パターンにマッチすると、情報がパターンとして抽出される。 これらのルールは、テンプレートやテキスト分析パッケージ (TAP) などの言語リソースで定義されます。 規則は、 テキストリンク分析 (TLA) 規則 または TLA パターン規則と呼ばれることもあります。
- テキスト・リンク
- テキスト・リンクは、テキスト・データ内のどこにコンセプトまたはパターンが表示されるかを示します。
TLAを使用するには、いくつかのTLAルールが定義されたテンプレートを含む言語リソースが必要です。 テンプレートを選択すると、TLA列にアイコンがあるかどうかで、どのテンプレートにルールがあるかを識別できます。
言語リソースでパターンルールをどのように定義するかによって、パターン結果の複雑さが決まる。 「リソース・エディター」 タブで、特定のニーズに合わせてルールを調整できます。 パターンを探したら、カテゴリーに追加することができる。
タイプ・パターン・ペイン
Type pattern ペインを使用して、抽出結果からパターンを検索および選択できます。 パターンは、まず、ルールに一致する関連タイプの組み合わせであるタイプ・パターンにグループ化されます。 ただし、単一のタイプがルールに一致する場合があります。 そして、コンセプト・パターンは、それが適合するタイプ・パターンの下にグループ化される。 例えば、コンセプト・パターン price + high
および cost + too much
をタイプ・パターン <Budget> + <Negative>
の下にグループ化することができます。 各タイプ・パターンは、その下に任意の数のコンセプト・パターンを持つことができます。
フィルターアイコンをクリックして表示されるタイプパターンをフィルターしたり、検索アイコンをクリックして特定のコンセプトを検索することができます。
パターンの抽出方法を変更するには、タイプパターンを選択していない状態で設定アイコンをクリックします。 設定の詳細については、設定オプションを参照してください。
プレビュー・ペイン
パターンを持つ文書でパターンがどのように表示されるかを見たい場合は、タイプ パターン ペインでパターンを選択します。 プレビューペインが更新され、それが表示されます。 概念は、テキスト内で簡単に識別できるように強調表示されています。
カテゴリー・ペイン
「カテゴリー」ペインには、カテゴリー・モデルの構造が表示されます。 階層は、パターンがどのように分類されるかを示します。 カテゴリー」ペインには、カテゴリー・モデルのタイプ・パターンと、概念パターンを分類するために使用されるルールが表示されます。 カテゴリー・モデルに追加されたコンセプト・パターンは、テキスト・リンクとして表示されます。