今日、お客様の E メール、コール・センター・ノート、自由記述式アンケートの回答、ニュース・フィード、Web フォームなど、非構造化形式および半構造化形式で保持される情報の量が増加しています。 この豊富な情報は、多くの組織にとって問題となっています。この情報を収集、検討、活用するにはどうすればよいでしょうか?
テキスト マイニングとは、テキスト形式の素材のコレクションを分析するプロセスで、作者がこれらのコンセプトの表現に使用した正確な単語またはキーワードを知らなくても、主要なコンセプトやテーマをキャプチャーし、隠れた関連性や傾向を明らかにします。 テキスト マイニングと情報検索は全く異なりますが、これらが混同される場合があります。 情報の正確な検索および保存は大きな課題ですが、情報に含まれる高品質な内容、用語、および関連性の抽出および管理は非常に重要なプロセスです。
テキスト マイニングおよびデータ・マイニング
テキストの各項目について、言語学的テキスト マイニングによりコンセプトのインデックス、およびこれらのコンセプトについての情報を返します。 この抜き出された、構造化された情報は、その他のデータ・ソースと組み合わせて、次のような質問を処理することができます。
- 一緒に出現するのはどのコンセプトですか ?
- コンセプトが他に何かリンクしているものがありますか ?
- 抽出した情報から作成できる高レベルのカテゴリーは何ですか ?
- コンセプトまたはカテゴリーから予測するのは何ですか ?
- コンセプトまたはカテゴリーからどのように動作を予測しますか ?
テキスト マイニングとデータ・マイニングを組み合わせると、構造化データまたは非構造化データだけで行うよりも、すぐれた洞察が可能です。 この処理には通常、次のステップが含まれます。
- マイニングされるテキストを識別します。 マイニング用テキストを準備します。 テキストが複数のファイルにある場合、ファイルを 1 つの場所に保存します。 データベースについては、テキストが含まれているフィールドを決定します。
- テキストをマイニングし、構造化データを抽出します。 テキスト・マイニング・アルゴリズムをソース・テキストに適用します。
- コンセプト・モデルとカテゴリー・モデルを構築します。 キーの概念を識別する、および/またはカテゴリーを作成します。 非構造化データから返されるコンセプト数は通常、非常に多くなります。 スコアリングに最適なコンセプトおよびカテゴリーを特定します。
- 構造化データを分析します。 クラスタリング、分類、予測モデリングなどの従来のデータ・マイニング技法を採用して、概念間の関係を発見します。 抽出されたコンセプトを他の構造化データに結合し、コンセプトに基づいて今後の動作を予測します。
テキスト分析およびカテゴリー化
定性的分析の形式であるテキスト分析では、テキストからの役立つ情報を抽出し、このテキスト内の主要なアイデアまたはコンセプトを適切な数のカテゴリーにグループ化します。 テキスト分析はすべての種類および長さのテキストに実行できますが、分析へのアプローチは若干異なります。
比較的短いレコードまたはドキュメントは、それほど複雑でなく、通常不明確な単語や回答があまり含まれていないため、最も容易にカテゴリー化されます。 例えば、短い自由記述式のアンケートで好きな休日の過ごし方を 3 つ挙げるよう質問した場合、ビーチに行く、国立公園に行く、または何もしない などの多くの短い回答が見られることが予想される場合があります。 一方、比較的長い自由記述式のアンケートの回答は、特に回答者が高学歴で意欲があり、またアンケートを記入するのに十分な時間がある場合、非常に複雑で長くなることがあります。 アンケートで政治に関する考えを尋ねたり、または政治に関するブログ フィードがあったりする場合、あらゆる種類の問題および立場について、長いコメントがいくつかあると予想されることがあります。
非常に短い時間で長いテキスト・ソースから主要キーワードを抽出して洞察に満ちたカテゴリーを作成する機能は、Text Analytics を使用するうえでの重要な利点です。 この利点は、自動化された言語学的手法と統計的手法を組み合わせて得られるもので、テキスト分析プロセスの段階ごとに最も信頼できる結果を生成します。
言語処理および NLP
すべての構造のないテキスト・データの管理における主な問題は、コンピューターが理解できるようなテキストを作成するための標準的な規則がないという点です。 言語、すなわち意味はすべてのドキュメントおよびすべてのテキストの部分で異なります。 そのような非構造化データを正確に取得し構成する唯一の方法は、言語を分析してその意味を明らかにすることです。 非構造化情報からコンセプトを抽出するには、いくつかの異なる自動化されたアプローチがあります。 これらのアプローチは、言語学的アプローチと非言語学的アプローチの 2 種類に分けられます。
いくつかの組織が、統計およびニューラル・ネットワークに基づく自動化された非言語学的ソリューションを採用しようとしました。 これらのソリューションでは、コンピューター技術を駆使して、人間が読み込むよりはるかに迅速に主要キーワードをスキャンおよびカテゴリー化できます。 しかし、こうしたソリューションの精度は非常に低くなります。 多くの統計的システムでは、単語が出現する回数をただカウントし、関連するコンセプトへの統計的近接性を計算するだけです。 これにより関連性の低い多くの結果、すなわちノイズを生み出し、見つけるべき結果や無視すべき結果を見逃したりすことになります。
限られた精度を補うために、いくつかのソリューションで複雑な非言語的規則を組み込み、関連性のある結果および関連性のない結果とを区別します。 これを、規則に基づくテキスト マイニングといいます。
一方、言語学に基づくテキスト マイニングでは、人間の言語をコンピューターによる支援で分析する自然言語処理 (NLP) の原則をテキストの単語、句、構文、または構造に適用します。 NLP を組み込むシステムは、複合句などのコンセプトを効率的に抽出できます。 さらに、基底となる言語の情報を使用して、コンセプトを製品、組織、人物など、意味や状況に応じて関連グループに分類できます。
言語学に基づくテキスト マイニングでは、さまざまな単語の形式が類似した意味を持っていることを認識し、文の構造を分析してテキストを理解するための枠組みを提供することによって、人間と同じようにテキストの意味を検出します。 このアプローチでは、統計的システムの速度およびコストの効率の点を利用し、人間の手をほとんど必要とせず、精度がはるかに高くなります。
抽出プロセス中の統計ベースのアプローチと言語ベースのアプローチの違いを説明するために、 reproduction of documents
に関する照会に対してそれぞれがどのように応答するかを検討してください。 統計ベースのソリューションと言語ベースのソリューションの両方で、 reproduction
という単語を展開して、 copy
や duplication
などの類義語を含める必要があります。 展開しない場合、関連情報が見落とされてしまいます。 ただし、統計的ソリューションによって、こうした種類の類義語集、同じ意味を持つ他のキーワードを検索使用する場合、birth
(誕生)というキーワードも加わり、関連しない多くの結果を生成する場合があります。 言語の理解により、テキストの曖昧さが無くなり、本質的に、言語学に基づくテキスト マイニングをより信頼できるアプローチにします。
抽出プロセスがどのように機能するのかを理解しておくと、言語リソース (ライブラリー、タイプ、類義語など) を微調整する際に主要な決定を下すのに役立ちます。 抽出プロセスのステップには以下のものがあります。
- ソース・データの標準フォーマットへの変換
- 候補となる用語の特定
- 類義語の等価クラスおよび統合の特定
- タイプの割り当て
- 二次分析によるインデックスの付与、および必要に応じてパターン・マッチ
ステップ 1。 ソース・データの標準フォーマットへの変換
最初のステップでは、後続の分析に利用できるように、インポートしたデータを決まった形式に変換します。 この変換は内部的に実行され、元のデータは変更されません。
ステップ 2. 候補となる用語の特定
言語学的抽出において、候補となるキーワードを特定する際の言語リソースの役割を理解しておくのは大切なことです。 言語リソースは、抽出が実行されるごとに使用されます。 言語リソースは、テンプレート、ライブラリー、およびコンパイル済みリソースの形式で保存されています。 ライブラリーには、語のリスト、関係性、また抽出の特定や調整に使用されるその他の情報が含まれています。 基幹辞書は表示・編集ができません。 ただし、残りのリソースは、テンプレート・エディターで編集することも、テキスト分析ワークベンチ・セッションの場合はリソース・エディターで編集することもできます。
コンパイルされたリソースは、Text Analytics の抽出エンジンの核となる内部コンポーネントとして機能します。 これらのリソースには、品詞コード (名詞、動詞、形容詞など) を持つ基本形式のリストを含む一般辞書が含まれます。
これらコンパイル済み辞書のほか、製品にはいくつかのライブラリーが付属し、それらを使用して、コンパイル済み辞書のタイプ定義およびコンセプト定義を補い、また類義語を提供することができます。 これらのライブラリー、および作成したユーザー指定のライブラリーは、いくつかの辞書で構成されています。 これらには、キーワード辞書、類義語辞書、および不要語辞書が含まれています。
データがインポートされて変換されると、抽出エンジンは抽出対象のキーワードの識別を開始します。 候補となるキーワードとは、テキスト内の概念を特定するのに使用される語や、語の集まりのことです。 テキストを処理しているとき、単語 (ユニターム) および複合語 (マルチターム) は、品詞パターン抽出を使用して特定されます。 そして、候補の感性キーワードは、感性テキスト・リンク分析を使用して特定されます。
ステップ 3。 類義語の等価クラスおよび統合の特定
候補のユニタームおよびマルチタームが特定された後、ソフトウェアは正規化辞書を使用して、等価クラスを特定します。 等価クラスとは、句の基本形式、または同じ句の 2 つの変形の単一形式です。等価クラスに句を割り当てる目的は、例えば、side effect
と副作用
が別個の概念として扱われないようにすることです。 等価クラスに使用する概念 (つまり、side effect
と副作用
のどちらを主要用語として使用するか) を決定するために、抽出エンジンは以下の規則をリストされた順序で適用します。
- ライブラリーのユーザー指定の形式。
- コンパイル済みリソースで定義されている最も頻度の高い形式。
ステップ 4. タイプの割り当て
次に、抽出されたコンセプトにタイプを割り当てます。 タイプは、コンセプトの意味上のグループ化です。 基幹辞書ならびにライブラリーの両方がこのステップで使用されます。 タイプには、上位レベルのコンセプト、肯定的な単語および否定的な単語、人名、地名、組織名などが含まれます。
言語学的なシステムは、知識に依存します。つまり、辞書に含まれている情報が多いほど、より高い品質の結果が得られます。 類義語の定義など、辞書の内容の変更は、そのまま結果の改善につながります。 これは、通常、対話的な処理で、正確なコンセプトの検索に不可欠です。 NLP は Text Analytics の主要な要素です。