テキスト埋め込みは、実数値のベクトルとしてのセンテンスまたはパッセージの数値表現です。 センテンスを数値ベクトルに変換することで、センテンスに対する操作は数学の方程式のようになります。これは、コンピューターが迅速に実行できることであり、うまくいくことができます。
組み込みモデルがセンテンスのベクトル表現を作成すると、組み込みモデルは、センテンスの意味を取り込む値を割り当てます。 また、埋め込みモデルは、割り当てられた値に基づいて、ベクトルを多次元空間内に配置します。 次元空間のサイズはモデルによって異なります。つまり、正確なベクトル値も変化します。 しかし、すべてのモデルは、同じ意味を持つ文が互いに近接するようにベクトルを配置します。
ほとんどの埋め込みモデルでは、数百次元から数千次元までの非常に多くの次元でベクトルが生成されるため、視覚化することは不可能です。 埋め込みモデルが 3 次元ベクトルを生成する場合は、次のようになります。 図に示されているベクトル値は架空のものですが、この仮定のシナリオを説明するために含まれていることに注意してください。
この図は、共有キーワードを持つ文と共有サブジェクトを持つ文に、類似した値を持つベクトルがあることを示しています。これにより、それらのベクトルは 3 次元空間内で相互に近い位置に配置されます。 以下の文は、ベクトル値に基づいて配置されます。
- Degreproduction が den にハングしています
- Jan は、カードを使用して犬の絵を購入しました
- 犬を散歩に連れて行きました
アートワークに関する最初の 2 つのセンテンスと、キーワード 犬 を共有する最後の 2 つのセンテンスは、1 番目と 3 番目のセンテンスより近くにあります。これらのセンテンスは、一般的な単語や意味を共有していません。
生成されたベクトルは、ベクトル・データベースに保管できます。 同じ組み込みモデルを使用してデータベース内のすべてのセンテンスを変換する場合、ベクトル・ストアは、ベクトル値に基づいてセンテンス間に存在する固有のグループおよび関係を利用して、関連する検索結果を迅速に返すことができます。
テキストを保管し、情報検索のためにキーワード検索に依存する従来の索引とは異なり、ベクトル・ストアは、意味が似ている情報を検索するセマンティック検索をサポートします。 例えば、キーワード検索でキーワードが存在するかどうかのみが検査される場合、セマンティック検索では、キーワードが使用されているコンテキストが重み付けされます。これにより、通常はより良い検索結果が生成されます。
親トピック: テキストのベクトル化