Descripción general de la incrustación de texto

Última actualización: 29 ene 2025
Descripción general de la incrustación de texto

Una incrustación de texto es una representación numérica de una frase o pasaje como vector de números con valor real. Al convertir las frases en vectores de números, las operaciones en las frases se vuelven más parecidas a las ecuaciones matemáticas, que es algo que las computadoras pueden hacer rápidamente, y pueden hacerlo bien.

Cuando un modelo de inclusión crea una representación vectorial de una frase, el modelo de inclusión asigna valores que capturan el significado semántico de la frase. El modelo de incrustación también posiciona el vector dentro de un espacio multidimensional basado en sus valores asignados. El tamaño del espacio dimensional varía según el modelo, lo que significa que los valores vectoriales exactos también varían. Sin embargo, todos los modelos posicionan los vectores de tal manera que las frases con significados similares están más cerca unas de otras.

La mayoría de los modelos de incrustación generan vectores en tantas dimensiones, que van de cientos a miles de dimensiones, que es imposible de visualizar. Si un modelo de inclusión generara un vector tridimensional, podría tener el aspecto siguiente. Tenga en cuenta que los valores de vector que se muestran en la imagen son ficticios, pero se incluyen para ayudar a ilustrar este escenario hipotético.

Un cubo tridimensional con tres puntos de datos que representan tres incrustaciones de frase

La imagen muestra que las frases con palabras clave compartidas y con sujetos compartidos tienen vectores con valores similares, lo que las coloca más cerca unas de otras dentro del espacio tridimensional. Las frases siguientes se posicionan en función de sus valores de vector:

  • La reproducción de Degas está colgando en la guarida
  • Jan compró una pintura de perros jugando a las cartas
  • He llevado a mis perros a dar un paseo

Las primeras dos frases sobre obras de arte y las últimas dos frases que comparten la palabra clave perros están más cerca unas de otras que la primera y la tercera frases, que no comparten palabras o significados comunes.

Puede almacenar los vectores generados en una base de datos de vectores. Cuando se utiliza el mismo modelo de inclusión para convertir todas las frases de la base de datos, el almacén de vectores puede aprovechar las agrupaciones inherentes y las relaciones que existen entre las frases basándose en sus valores de vector para devolver rápidamente los resultados de búsqueda relevantes.

A diferencia de los índices tradicionales que almacenan texto y se basan en la búsqueda de palabras clave para la recuperación de información, los almacenes de vectores soportan búsquedas semánticas que recuperan información que es similar en significado. Por ejemplo, donde la búsqueda de palabras clave sólo comprueba si la palabra clave está presente, la búsqueda semántica pesa el contexto en el que se utiliza la palabra clave, lo que normalmente produce mejores resultados de búsqueda.

Tema principal: Vectorización de texto