SPSS Modeler は、テキスト処理専用のノードを提供します。
テキスト分析ノードは強力なテキスト分析機能を提供し、高度な言語技術と自然言語処理 (NLP) を使用して、多様な非構造化テキスト・データを迅速に処理し、このテキストから主要な概念を抽出して編成します。 Text Analytics ノードにより、こうしたコンセプトをカテゴリー別にグループ化することもできます。
組織内に保持されるおよそ 80% のデータは、テキスト ドキュメントの形式です (例: レポート、Web ページ、電子メール、コール センターのメモ)。 テキストは、組織が顧客の動向をより良く理解するための重要な要素です。 NLP を組み込むシステムは、複合句などのコンセプトを効率的に抽出できます。 さらに、基底となる言語の情報を使用して、コンセプトを製品、組織、人物など、意味や状況に応じて関連グループに分類できます。 その結果、情報のニーズに対する関連性を迅速に確認できます。 これらの抽出されたコンセプトとカテゴリーを、人口統計のような既存の構造化データと組み合わせ、 SPSS Modeler でのモデル作成に適用することで、焦点を絞ったより良い決定を下すことができます。
言語学的なシステムは、知識に依存します。つまり、辞書に含まれている情報が多いほど、より高い品質の結果が得られます。 Text Analytics ノードには、用語や同義語の辞書、ライブラリー、テンプレートなど、各種の言語リソースが用意されています。 Text Analytics ノードにより、コンテキストに合わせて、これらの言語リソースの精度をさらに高めることができます。 言語リソースの調整はインタラクティブなプロセスで、正確なコンセプトの取得とカテゴリー化に必要です。 CRM およびゲノムなど、特定のドメインのカスタム テンプレート、ライブラリー、辞書も含まれています。
- テキスト分析の概要については、以下のビデオをご覧ください。
- ホテル満足度のテキスト分析 を参照。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
ビデオの特記事項: このビデオのいくつかのマイナー・ステップおよびグラフィカル・エレメントは、ご使用のプラットフォームとは異なる場合があります。
アプリケーション
通常、大量のドキュメントを定期的に確認して重要な要素を特定し、詳細に調べる必要がある場合は、Text Analytics を使用すると、効率的に作業を進めることができます。 以下に、Text Analytics の使用例をいくつか示します。
- 科学と医学の研究 特許報告書、ジャーナルの記事、およびプロトコルの発行などの 2 次調査資料を探索します。 以前は知られていなかった(例えば特定の製品に関連した医者など)関連性を識別します。 薬品の開発プロセスにかかる時間を最小化します。 遺伝子調査の補助として使用します。
- 投資の研究 毎日のアナリスト・レポート、ニュース記事、および企業のプレス・リリースを確認して、主要な戦略ポイントまたは市場のシフトを特定します。 こうした情報のトレンド分析により、一定の期間にわたって、企業または業界の緊急の問題または機会について明らかにします。
- 不正検出。 銀行およびヘルスケアケアの不正を利用して、異常を検出し、大量のテキストから危険なものを発見します。
- 市場調査。 市場調査活動において、自由記述式の調査回答内の重要なトピックを特定するために使用します。
- ブログおよび Web フィードの分析。 ニュース・フィード、ブログなどで見られる重要なアイデアを利用して、モデルを探索して作成します。
- CRM。 電子メール、取引、調査など、すべての顧客との接点からのデータを使用し、モデルを作成します。
ノード
- 言語の識別子ノードはプロセス ノードの一種であり、ソース テキストをスキャンして、書かれている人間の言語を判別し、言語のマークを新しいフィールドに書き込みます。 主に大量のデータとともに使用するように設計されています。このノードは、データ ソースに複数の言語が存在するが、1 つの言語のみを処理したい場合に特に役立ちます。
- テキスト・リンク分析ノードは、コンセプトを抽出し、またテキスト内の既知のパターンに基づいて、コンセプト間の関係を特定します。 パターン抽出機能を使用してコンセプト間の関係を検出するだけでなく、それらのコンセプトに付加されている意見や修飾子も検出することができます。 テキスト・リンク分析 (TLA) ノードを使用して、より直接的にテキストからパターンを特定および抽出し、パターンの結果をフロー内のデータセットに追加できます。 ただし、テキスト・マイニング・モデル作成ノードを介して、テキスト分析ワークベンチ・セッションを使用して TLA を実行することもできます。
- テキスト・マイニング・ノードでは、言語学的手法を使用して、主要なコンセプトをテキストから抽出します。これらのコンセプトおよびそのほかのデータを使用してカテゴリーを作成することができ、既知のパターンに基づいてコンセプト間の関係および関連を特製する機能 (テキスト・リンク分析) を用意しています。 このノードを使用して、テキスト・データの内容を調べたり、コンセプト・モデルやカテゴリー・モデルを生成したりすることができます。 コンセプトおよびカテゴリーは、人口統計などの既存の構造化されたデータを組み合わせることができ、モデル作成に適用することができます。