0 / 0
資料の 英語版 に戻る
エキスパート・オプション
最終更新: 2024年10月07日
エキスパート・オプション (SPSS Modeler)

テキスト・リンク分析 (TLA) ノードを使用すると、テキスト・リンク分析パターンの結果を自動的に抽出することができます。 ノード・プロパティーのエキスパート・オプションには、テキストの抽出方法と処理方法に影響する追加のパラメーターが用意されています。 エキスパート・パラメーターにより、抽出プロセスの基本的な動作だけでなく、いくつかの高度な動作も制御することができます。 また、抽出結果にも影響を与える言語リソースやオプションも数多くあり、選択するリソース・テンプレートによって制御します。

グローバル頻度が [n] 以上のコンセプトに抽出を制限します。 このオプションを使用して、テキスト内における単語または語句の最低出現回数を指定します。この回数に達した単語または語句が抽出されます。 値に 5 を指定すると、抽出するこれらの単語または句が、レコードまたはドキュメントのセット全体で少なくとも 5 回出現するよう、制限します。

この制約を変更すると、抽出結果、つまり作成されるカテゴリーに大きな違いが生じる場合があります。 いくつかのレストラン・データを処理していて、このオプションの制限を 1 より大きくしないとします。 この場合、抽出結果に pizza (1), thin pizza (2), spinach pizza (2)、および favorite pizza (2) が含まれていることがあります。 ただし、抽出のグローバル出現頻度を 5 以上に設定して抽出すると、これらのコンセプトのうち 3 つが取得されなくなります。 代わりに pizza (7)が表示されます。 pizza が最も単純な形式であり、この単語は候補として既に存在しているためです。 また、残りのテキストにピザという単語を含む他の句があるかどうかによって、7より大きい出現頻度がある場合があります。 さらに、 spinach pizza が既にカテゴリー記述子であった場合は、すべてのレコードを取り込むために、代わりに記述子として pizza を追加することが必要になる場合があります。 このため、カテゴリーが既に作成されている場合は、注意してこの制約を変更してください。

これは、抽出専用の機能です。使用するテンプレートに用語が含まれていて (通常は含まれています)、そのテンプレートの用語がテキスト内に出現する場合、出現頻度に関係なく、その用語のインデックスが作成されます。

例えば、コア・ライブラリーの <Location> タイプに「ロサンゼルス」が含まれている基本リソース・テンプレートを使用するとします。この場合、ドキュメント内での「ロサンゼルス」の出現回数が 1 回だけでも、ロサンゼルスがコンセプト・リストに含まれることになります。 これを回避するには、「グローバル頻度が次の値以上のコンセプトに抽出を制限」フィールドに入力された値以上の出現回数を持つコンセプトだけを表示するように、フィルターを設定する必要があります。

句読点エラーを確認します。 このオプションは、抽出時に句読点エラー (不適切な使用方法など) を含むテキストを一時的に正規化し、コンセプトの抽出可能性を向上させます。 自由記述式アンケートの回答、電子メール、CRM データなど、テキストが短く品質が悪い場合、またはテキストに略語が多く含まれている場合に特に役立ちます。

単語の最小文字長 [n] のスペルに対応します。 Fuzzy Grouping の手法を適用し、共通してミススペルのある単語またはスペルの近い単語を 1 つのコンセプトにグループ化できるようにします。 Fuzzy Grouping アルゴリズムでは、最初の母音を除くすべての母音を一時的に抜き取った後抽出した単語から 2 つ/3 つの子音を抜き取り、それらを比較して、それらが同じで modelingmodelling が同じグループに分けられるかどうかを確認します。 ただし、各用語が異なるタイプ ( <Unknown> タイプを除く) に割り当てられている場合、ファジー・グループ化手法は適用されません。

Fuzzy Grouping を使用する前に必要な、語幹文字数の制限を定義することもできます。 キーワード内の語幹文字数は、すべての文字を合計し、活用語尾、複合語キーワードの場合は区切り文字および前置詞を形成する文字を差し引いて計算します。 例えば、キーワード exercises の語幹文字数は「exercise」という形式で 8 文字と数えられます。語末の s は活用語尾 (複数形) であるためです。 同様に、apple sauce の語幹文字は 10 文字 (「apple sauce」)、そして manufacturing of cars の語幹文字は 16 文字 (「manufacturing car」) となります。 この算出方法は、Fuzzy Grouping を適用するべきかどうかを確認するためにのみ使用されますが、単語がどのように一致するかについては影響を与えません。

注: 後で特定の単語が誤ってグループ化されていることが判明した場合は、「拡張リソース」プロパティーの下の 「Fuzzy Grouping: 例外」 セクションで明示的に宣言することにより、この手法から単語のペアを除外できます。

ユニタームを抽出します。 単語が複合語の一部でない限り、または名詞、またはスピーチ内の認識できない品詞である場合、このオプションは単一の単語 (ユニターム) を抽出します。

固有表現を抽出します。 電話番号、セキュリティー番号、時間、日付、通貨、数字、パーセント、電子メールアドレス、HTTP アドレスなどの固有表現を抽出します。 「拡張リソース」プロパティーの「固有表現: 構成」セクションで、特定のタイプの固有表現について、処理対象に含めたり、処理対象から除外したりすることができます。 不要な固有表現を無効にすることにより、抽出エンジンは処理時間を節約できます。

大文字アルゴリズム: キーワードの最初の文字が大文字である場合、組み込み辞書にない単純キーワードおよび複合キーワードを抽出します。 このオプションには、最も適切な名詞を抽出するのに優れた方法があります。

可能な場合は、個人名の一部と全体をグループ化します。 テキスト内で別々の形式で同時に出現する名前をグループ化します。 名前はテキストの始めでは完全な形式で、後は短い形式でのみ参照されるため、この機能が役立ちます。 このオプションでは、タイプが <Unknown> のユニタームが、タイプ <Person> の複合キーワードの最後の単語に一致するようにします。 例えば、doe があり、最初タイプが <Unknown> である場合、抽出エンジンは、<Person> タイプの複合キーワードに最後の単語として doe が含まれているかどうか (例: john doe) を確認します。 ほとんどがユニタームとして抽出されることがないため、人の名前に適用されることはありません。

非機能的な単語の置換の最大数: 倒置手法を適用する場合に指定されている場合がある非機能的単語の最大数を指定します。 この倒置手法では、活用語尾に関係なく、含まれる非機能的単語 (ofthe など) によってお互いに異なる類似した句をグループ化します。 例えば、この最大単語数を「2」に設定し、「company officials」と「officials of the company」が抽出されたとします。 この場合、両方の抽出キーワードは、of the が無視されると同じであるとみなされるため、最終コンセプト・リストに共にグループ化されます。

マルチタームをグループ化するときに派生を使用します。 ビッグデータを処理するときにこのオプションを選択すると、派生規則を使用してマルチタームがグループ化されます。

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細