テキスト分析ワークベンチでは、抽出プロセスのさまざまな部分をカスタマイズできます。 「コンセプト」、 「テキストリンク」、および 「カテゴリー」 タブでは、いくつかのワークベンチ設定にアクセスして、テキスト・データからのキーワードの抽出方法を変更できます。
抽出結果の設定
テキスト・マイニング・ノードを実行すると、抽出エンジンはテキスト・データを読み取り、関連するコンセプトを識別し、それぞれにタイプを割り当てます。 抽出プロセスの設定を変更して、抽出結果の作成方法を調整できます。
「概念」 または 「テキスト・リンク」 タブで、 「設定」 アイコンをクリックして、コンセプト、パターン、およびテキスト・リンクを抽出するための設定を変更します。
- テキスト リンク分析のパターン抽出を有効にする
- いずれかのライブラリーにテキスト・リンク分析 (TLA) 規則がある場合は、チェック・ボックスを選択して、テキスト・データから TLA パターンを抽出します。 このオプションを選択すると、抽出時間が大幅に長くなる可能性があります。
- グローバル頻度が次の値以上のコンセプトに抽出を制限
- このオプションを使用して用語をコンセプトとして抽出できるのは、その用語がテキスト・データに設定された回数出現する場合のみです。
- 句読点エラーを許容する
- このオプションは、抽出プロセス中のコンセプトの抽出可能性を向上させるために、句読点エラーのあるテキストを一時的に正規化します。 このオプションは、テキストが短く品質が低い場合に役立ちます。 例えば、自由回答形式のアンケート回答、E メール、CRM データのテキスト・データに不適切な句読点が含まれている可能性があります。 また、テキストに多くの省略形が含まれている場合にも役立ちます。
- 語幹文字数が最小値以上のときにスペルを調整する
- このオプションは、一般的にミススペルのある単語またはスペルの近い単語を 1 つのコンセプトの下にグループ化するのに役立つファジー・グループ化手法を適用します。 ファジー・グループ化アルゴリズムは、すべての母音 (最初の母音を除く) を一時的に除去し、抽出された単語から 2 つ/3 つの子音を除去します。 次に、抽出された単語を比較して、それらが同じであるかどうかを確認します。 例:modelingおよびmodellingグループ化されます。 ただし、各用語が異なるタイプに割り当てられている場合は、<Unknown>タイプの場合、ファジー・グループ化技法は適用されません。
- ユニタームの抽出
- このオプションを使用すると、単一の単語 (ユニターム) が以下の基準を満たしている場合に、それらをコンセプトとして抽出できます。
- 固有表現を抽出
- このオプションは、以下のような非言語エンティティーを抽出します。
- 電話番号
- 社会保障番号
- 時間
- 日付
- 通貨
- パーセンテージ
- E メール・アドレス
- HTTP アドレス
特定の種類の固有表現を追加したり除外したりできます。 不要なエンティティーを無効にすることで、抽出エンジンは処理時間を節約します。
- 大文字アルゴリズム
- キーワードの最初の文字が大文字である場合、組み込み辞書にない単純キーワードおよび複合キーワードを抽出します。 このオプションは、最も適切な名詞を抽出する場合に役立ちます。
- 可能な場合は、個人名の一部または全部をグループ化
- このオプションは、テキストに異なる名前が表示されるようにグループ化します。 名前はテキストの始めでは完全な形式で、後は短い形式でのみ参照されるため、この機能が役立ちます。 このオプションでは、タイプが
<Unknown>
のユニタームが、タイプ<Person>
の複合キーワードの最後の単語に一致するようにします。 例えば、doe があり、最初タイプが<Unknown>
である場合、抽出エンジンは、<Person>
タイプの複合キーワードに最後の単語として doe が含まれているかどうか (例: john doe) を確認します。 ほとんどがユニタームとして抽出されることがないため、人の名前に適用されることはありません。 - 非機能的単語の最大倒置数
- 倒置手法を適用する場合に指定されている場合がある非機能的単語の最大数を指定します。 この倒置手法では、活用語尾に関係なく、含まれる非機能的単語 (of や the など) によってお互いに異なる類似した句をグループ化します。 例えば、この値を最大 2 単語に設定し、company officials および officials of the company が抽出されたとします。 この場合、両方の抽出キーワードは、of the が無視されると同じであるとみなされるため、最終コンセプト・リストに共にグループ化されます。
- マルチタームをグループ化するときに派生関係を使用
- ビッグデータを処理するときにこのオプションを選択すると、派生規則を使用してマルチタームがグループ化されます。
カテゴリーの設定
カテゴリーは、タイプまたはタイプ・パターンのいずれかから派生した記述子から作成されます。 テーブルで、カテゴリー作成プロセスに含める個々のタイプまたはタイプ・パターンを選択できます。
Categories」タブで「 」と進み、以下の設定を変更する。
- カテゴリーの作成元
- 「タイプ」を選択すると、選択したタイプに属するコンセプトからカテゴリーが作成されます。 したがって、以下を選択したとします。<Budget>テーブル内のタイプ、次のようなカテゴリーcostまたはprice作成される可能性があるcostおよびpriceに割り当てられている概念です。<Budget>タイプ。
デフォルトでは、最も多いレコードまたはドキュメントをキャプチャーするタイプのみが選択されます。 このように事前選択すると、最も関心の高いタイプにすばやく焦点をあて、関心の低いカテゴリーが作成されないようにすることができます。 テーブルには、レコードまたはドキュメント (Doc) の数が最も多いものから降順にタイプが表示されます。 カウント)。
選択する入力は、取得するカテゴリーに影響します。 入力としてタイプを選んだ場合は、明確に関連付けられたコンセプトをより簡単に見ることができます。 例えば、入力として「タイプ」を使用してカテゴリーを作成する場合、カテゴリーを取得することができます。Fruit以下のような概念でapple,pear,citrus fruitsおよびorange代わりに入力として「タイプ・パターン」を選択し、パターンを選択すると、<Unknown> + <Positive>例えば、カテゴリーを取得することができます。fruit + <Positive>1 つか 2 つの種類の果物をfruit + tastyおよびapple + goodこの 2 番目の結果は、2 つのコンセプト・パターンのみを示しています。これは、果物の他の出現が必ずしも肯定的に適格とは限らないためです。 これは現在のテキスト・データに対して機能する可能性がありますが、さまざまな文書セットを使用する長期的な調査では、以下のような他の記述子を手動で追加することもできます。citrus fruit + positiveまたはタイプを使用します。 タイプのみを入力として使用すると、考えられるすべての果物を見つけるのに役立ちます。
「タイプ・パターン」を選択すると、個別のタイプとコンセプトではなく、パターンを使用してカテゴリーが作成されます。 選択したタイプ・パターンに属するコンセプト・パターンを含むレコードまたはドキュメントがカテゴリー化されます。 したがって、以下を選択したとします。<Budget>および<Positive>表内のタイプ・パターン、次のようなカテゴリーcost & <Positive>またはrates & excellent生成されることがあります
自動カテゴリー作成の入力としてタイプ・パターンを使用する場合、カテゴリー構造を形成するための複数の方法が技法によって識別されることがあります。 技術的には、カテゴリーを作成する適切な方法はありませんが、分析により適した構造がある場合があります。 この場合の出力をカスタマイズするために、タイプを優先的に指定できます。 作成されたすべての上位レベルのカテゴリーは、ここで選択したタイプのコンセプトのみに由来します。 すべてのサブカテゴリーには、このタイプのテキスト・リンク パターンが含まれています。 このタイプを「パターン・タイプ:フィールドにより構造カテゴリー」で選択すると、テーブルが更新され、選択されたタイプを含む適用パターンのみを表示します。 多くの場合、<Unknown>が事前選択されています。 時期<Unknown>が選択されている場合は、そのタイプを含むすべてのパターンが表示されます。<Unknown>選択されます。 表には、レコードまたは文書 (Doc) の数が最も多いものから順に、タイプが降順で表示されます。 カウント)。
- 手法
- すべてのデータ・セットは固有であるため、メソッドの数とそれらを適用する順序は、時間の経過とともに変化する可能性があります。 テキスト・マイニングの目標は、あるデータ・セットと次のデータ・セットでは異なる可能性があるため、テキスト・データで最良の結果が得られるものを確認するために、さまざまな手法を試すことが必要になる場合があります。
これらの設定について詳しく知らなくても、使用することができます。 デフォルトでは、最も一般的で平均的な設定がすでに選択されています。 そのため、高度な設定のダイアログを省略して、カテゴリーをすぐに作成することができます。 同様に、ここで変更を行うと、最新の設定が常に保持されるため、設定ごとに設定ダイアログに戻る必要はありません。
以下に示す「拡張」設定を使用することができます。
- カテゴリー入力
- 既存のどのカテゴリーでも使用されていない抽出結果からカテゴリーを作成する場合は、 「未使用の抽出結果」 を選択します。 このオプションは、レコードが複数のカテゴリーに一致する傾向を最小化し、生成されるカテゴリーの数を制限します。 または、いずれかの抽出結果を使用してカテゴリーを作成する場合は、 「すべての抽出結果」 を選択します。 このオプションは、カテゴリーがまだ存在しないか少ない場合に最も役立ちます。
それぞれのグループ化手法は、特定のタイプのデータおよび状況に最も適合します。 多くの場合、同じ分析で複数の手法を組み合わせて、あらゆる種類の文書やレコードを収集すると役立ちます。 複数のカテゴリーにコンセプトが表示されたり、冗長なカテゴリーが検出されたりする場合があります。
内包関係のコンセプトという手法の場合、特定の単語のサブセットまたはスーパーセットから構成された語句がマルチターム・コンセプト (複合語) に含まれているかどうかが確認され、そうした語句が相互に含まれているマルチターム・コンセプトをグループ化することによってカテゴリーが作成されます。 例えば、コンセプト・シートは、安全シート、シートベルト、およびシートベルト・バックルでグループ化されています。
セマンティック・ネットワークという手法の場合、最初に、単語間の関係について作成された大量のインデックスを基に、各コンセプトの予想される意味が特定され、次に、関連するコンセプトをグループ化することによってカテゴリーが作成されます。 例えば、コンセプト 「scuba diving」、 「scuba diving」、 「snorkeling」、 「kay製」、および 「white water kay製」 は、すべてカテゴリー
sports/sports by type/water sports
にグループ化されます。 また、 「動物」 という概念は、動物のハイフンであるため、 cat および kangaroo でグループ化することもできます。 セマンティック・ネットワーク 手法は、コンセプトがセマンティック・ネットワークに認識されていて、あまりあいまいでない場合に最適です。 テキストにネットワークに認識されていない特殊な用語や専門用語が含まれている場合は、あまり有用ではありません。 この手法は、英語のテキストでのみ使用することができます。「最大検索距離」オプションは、セマンティック・ネットワーク手法を選択した場合にのみ使用することができます。 カテゴリーを生成する前に、どの程度まで手法を検索するかを選択します。 値が小さいほど、得られる結果は少なくなります。 ただし、これらの結果はノイズが少なく、相互に有意なリンクや関連付けが行われる可能性が高くなります。 値が大きいほど、より多くの結果が得られる可能性があります。 ただし、これらの結果の信頼性や関連性は低下する可能性があります。 このオプションはすべての手法にグローバルに適用されますが、共起とセマンティック・ネットワークに対する効果は最も大きくなります。
特定の 2 つのコンセプトが出力内でグループ化されないようにするには、「特定のコンセプトがグループ化されないようにする」を選択します。 コンセプト・ペアを作成または管理するには、「ペアを管理」 をクリックします。
- 可能な場合
- ワイルドカードを使用して記述子を拡張または一般化するか、あるいはその両方を使用するかを選択します。
- 拡張および一般化
- このオプションは、選択したカテゴリーを拡張してから、記述子を一般化します。 一般化を選択すると、カテゴリー作成プロセスにより、アスタリスク・ワイルドカードを使用する汎用カテゴリー規則が作成されます。 例えば、
[apple tart + .]
や[apple sauce + .]
などの複数の記述子の代わりに、汎用カテゴリー規則でワイルドカードを使用して[apple * + .]
を生成することができます。 ワイルドカードを使用して一般化すると、多くの場合、以前と同じ数のレコードまたはドキュメントが取得されます。 ただし、このオプションには、数の縮小やカテゴリーの記述子の簡略化という利点があります。 また、このオプションにより、これらのカテゴリーを新しいテキスト・データに対して使用することで、より多くのレコードまたはドキュメントをカテゴリー化することができます (例えば、経時調査やウェーブ調査など)。 - 拡張のみ
- このオプションは、一般化せずにカテゴリーを拡張します。 手動で作成したカテゴリーには 「拡張のみ」 オプションを選択し、「拡張および一般化」 オプションを使用して同じカテゴリーをもう一度展開すると便利です。
- 一般化のみ
- このオプションは、他の方法でカテゴリーを拡張せずに記述子を一般化します。
- 記述子を拡張する場合の最大項目数
- 項目 (概念、タイプ、およびその他の式) を使用して記述子を拡張する場合、単一の記述子に追加できる項目の最大数を定義します。 この制限を 10 に設定した場合、既存の記述子に追加できる項目は 10 個までです。 10 件を超える項目を追加しようとする場合、10 番目の項目が追加されると、新しい項目の追加を停止します。 そうすることにより、記述子のリストが短くなりますが、最も関心の高い項目が最初に使用されたことを保障するものではありません。
- サブカテゴリーも拡張
- このオプションは、選択したカテゴリーに含まれるすべてのサブカテゴリーを拡張します。
- カテゴリ名から生成された記述子を使用して空白のカテゴリを拡張する
- 記述子が 0 件の、空のカテゴリーにのみ適用されます。 カテゴリーに既に記述子が含まれている場合、この方法では拡張されません。 このオプションを選択すると、カテゴリー名を構成する単語に基づいて、各カテゴリーの記述子を自動的に作成しようとします。 カテゴリー名がスキャンされ、名前の単語が抽出されたコンセプトと一致するかどうかが確認されます。 コンセプトが認識されると、そのコンセプトを使用して、合致するコンセプト・パターンを検索し、コンセプトとパターンを使用してカテゴリーの記述子を形成します。 このオプションを選択すると、カテゴリー名が長く記述的である場合に、最良の結果を作成します。 これは、カテゴリー記述子を生成するための簡単な方法です。これにより、カテゴリーは、それらの記述子を含むレコードをキャプチャーできるようになります。 別の場所からカテゴリーをインポートしたり、長く記述的な名前を使用して手動でカテゴリーを作成する場合に最も役立つオプションです。
- 記述子を次の形式で生成
- このオプションは、前のオプションが選択されている場合にのみ適用されます。 ソース・テキストから抽出されたかどうかに関係なく、記述子をコンセプトの形式で生成する場合は、「コンセプト」オプションを選択します。 どのパターンが抽出されたかに関係なく、記述子をパターンの形式で生成する場合は、「パターン」オプションを選択します。