テキスト・マイニング・ノードは、言語学的手法および出現頻度に基づく手法を使用して、テキストから主要コンセプトを抽出し、これらのコンセプトおよびその他のデータでカテゴリーを作成します。 このノードを使用して、テキスト・データの内容を分析したり、コンセプト・モデル・ナゲットまたはカテゴリー・モデル・ナゲットを作成したりすることができます。
- ノードを実行すると、 「直接生成 (コンセプト・モデル・ナゲット)」 モードで、コンセプト・モデル・ナゲットまたはカテゴリー・モデル・ナゲットが自動的に生成されます。
- 「インタラクティブに作成 (カテゴリー・モデル・ナゲット)」 は、より実践的な探索的アプローチです。 このモードを使用して、コンセプトの抽出、カテゴリーの作成、言語リソースの詳細化を行うだけでなく、テキストリンク分析を実行してクラスターを探索することもできます。 このビルド・モードでは、テキスト分析ワークベンチが起動します。
また、テキスト・マイニング・ノードを使用して、以下の 2 つのテキスト・マイニング・モデル・ナゲットのいずれかを生成できます。
- コンセプト・モデル・ナゲット は、構造化テキスト・データまたは非構造化テキスト・データから重要なコンセプトを発見し、抽出します。
- カテゴリー モデル ナゲット はドキュメントおよびレコードをスコアリングし、抽出したコンセプト (およびパターン) で構成されたカテゴリーに割り当てます。
抽出されたコンセプトとパターン、およびモデル・ナゲットからのカテゴリーはすべて、人口統計などの既存の構造化データと結合して、より的確で焦点を絞った意思決定を行うことができます。 例えば、顧客が頻繁にログイン問題をオンライン・アカウント管理タスクの完了に対する主な障害として頻繁に一覧化する場合、「ログイン問題」をモデルに組み込むことが必要な場合があります。
データ・ソースと言語リソース
テキスト・マイニング・モデル作成ノードは、インポート・ノードからテキスト・データを受け入れます。
また、カスタム・テンプレートおよびテキスト分析パッケージをテキスト・マイニング・ノードに直接アップロードして、抽出プロセスで使用することもできます。
コンセプトとコンセプト・モデル・ナゲット
抽出プロセス中に、テキスト・データがスキャンされて分析され、 election
や peace
などの重要な単一の単語と、 presidential election
、 election of the president
、 peace treaties
などの単語句が識別されます。 これらの単語や句を、まとめて「キーワード」と呼びます。 言語リソースを使用して、関連する用語が抽出され、類似した用語が コンセプトと呼ばれるリード用語の下にグループ化されます。
このグループ化は、コンセプトが複数の基本キーワードを表す可能性があることを意味します。 例えば、従業員満足度調査からコンセプト salary
が抽出されました。 salary
に関連付けられたレコードを参照したときに、 salary
が常にテキスト内に存在するのではなく、特定のレコードに wage
、 wages
、および salaries
などの類似した用語が含まれていることに気付きました。 これらのキーワードは、抽出エンジンにより類似と見なされるか、処理規則または言語リソースに基づいて類義語であると判断されるため、salary
の下にグループ化されます。 この場合、これらの用語のいずれかが含まれているドキュメントまたはレコードは、 salary
という語が含まれているかのように扱われます。
コンセプトの下にグループ化されているキーワードを確認するには、テキスト分析ワークベンチでコンセプトを探索するか、コンセプト・モデルに表示されている類義語を確認します。
- 元のソース・テキストで検出された概念を探索および分析したり、関心のある文書を素早く識別したりします。
- このモデルを新しいテキスト・レコードまたはドキュメントに適用して、新しいドキュメント/レコード内の同じ主要概念を素早く識別します。 例えば、コール・センターからスクラッチパッド・データの主要な概念のリアルタイム・ディスカバリーにモデルを適用できます。
カテゴリーとカテゴリー・モデル・ナゲット
より高いレベルのコンセプトまたはトピックを表す カテゴリー を作成して、テキストに表現されている主要なアイデア、知識、および態度を取り込むことができます。 カテゴリーは、コンセプト、タイプ、および規則などの一連の記述子で構成されています。 これらの記述子を一緒に使用して、レコードまたはドキュメントがカテゴリーに属しているかどうかを識別します。 ドキュメントまたはレコードをスキャンして、テキストが記述子に合致するかどうかを確認することができます。 一致するものが見つかると、文書はそのカテゴリに割り当てられます。 このプロセスを、カテゴリー化といいます。
カテゴリーは、 SPSS Modelerの堅固な自動化手法のセットを使用して自動的に作成できます。 また、データに関する追加の洞察、またはその両方の組み合わせを使用して、手動で作成することもできます。 また、このノードのモデル設定を使用してテキスト分析パッケージによって事前に作成された一連のカテゴリーをロードすることもできます。 カテゴリーの手動作成またはカテゴリーの絞り込みは、テキスト分析ワークベンチを介してのみ行うことができます。
カテゴリー モデル ナゲットは、一連のカテゴリーとその記述子で構成されています。 このモデルを使用すると、各ドキュメントまたはレコードのテキストに基づいてドキュメントまたはレコードのセットをカテゴリー化できます。 各ドキュメントまたレコードが読み取られ、記述子の合致が見つかった各カテゴリーに割り当てられます。 このように、ドキュメントまたはレコードを複数のカテゴリーに割り当てることができます。 例えば、カテゴリー・モデル・ナゲットを使用して、自由記述式アンケートの回答やブログ・エントリーのセットで重要なアイデアを確認することができます。