Vue d'ensemble des incorporations de texte
Une incorporation de texte est une représentation numérique d'une phrase ou d'un passage en tant que vecteur de nombres à valeurs réelles. En convertissant des phrases en vecteurs de nombres, les opérations sur les phrases deviennent plus similaires à des équations mathématiques, ce qui est quelque chose que les ordinateurs peuvent faire rapidement et qui peut bien faire.
Lorsqu'un modèle d'imbrication crée une représentation vectorielle d'une phrase, le modèle d'imbrication affecte des valeurs qui capturent la signification sémantique de la phrase. Le modèle de plongement positionne également le vecteur dans un espace multidimensionnel en fonction de ses valeurs affectées. La taille de l'espace dimensionnel varie en fonction du modèle, ce qui signifie que les valeurs de vecteur exactes varient également. Cependant, tous les modèles positionnent les vecteurs de sorte que les phrases ayant des significations similaires soient plus proches les unes des autres.
La plupart des modèles d'intégration génèrent des vecteurs dans tant de dimensions, allant de centaines à milliers de dimensions, qu'il est impossible de visualiser. Si un modèle d'imbrication devait générer un vecteur à 3 dimensions, il pourrait se présenter comme suit. Notez que les valeurs vectorielles affichées dans l'image sont fictives, mais sont incluses pour illustrer ce scénario hypothétique.
L'image montre que les phrases avec des mots clés partagés et avec des sujets partagés ont des vecteurs avec des valeurs similaires, ce qui les rapproche les unes des autres à l'intérieur de l'espace tridimensionnel. Les phrases suivantes sont positionnées en fonction de leurs valeurs vectorielles:
- La reproduction de Degas est suspendue dans la tanière
- Jan a acheté une peinture de chiens jouant aux cartes
- J'ai pris mes chiens pour une promenade
Les deux premières phrases sur les œuvres d'art et les deux dernières phrases qui partagent le mot clé dogs sont plus proches l'une de l'autre que les première et troisième phrases, qui ne partagent aucun mot ou sens commun.
Vous pouvez stocker les vecteurs générés dans une base de données vectorielle. Lorsque le même modèle d'intégration est utilisé pour convertir toutes les phrases de la base de données, le magasin de vecteurs peut tirer parti des regroupements et des relations inhérents qui existent entre les phrases en fonction de leurs valeurs vectorielles pour renvoyer rapidement les résultats de recherche pertinents.
Contrairement aux index traditionnels qui stockent du texte et reposent sur la recherche par mot clé pour l'extraction d'informations, les magasins de vecteurs prennent en charge les recherches sémantiques qui extraient des informations ayant une signification similaire. Par exemple, lorsque la recherche par mot clé vérifie uniquement si le mot clé est présent, la recherche sémantique pèse le contexte dans lequel le mot clé est utilisé, ce qui produit généralement de meilleurs résultats de recherche.
Sujet parent : Vectorisation du texte