0 / 0
Torna alla versione inglese della documentazione

Panoramica sulle incorporazioni di testo

Ultimo aggiornamento: 29 gen 2025
Panoramica sulle incorporazioni di testo

Un inserimento di testo è una rappresentazione numerica di una frase o di un passaggio come vettore di numeri reali. Convertendo le frasi in vettori numerici, le operazioni sulle frasi diventano più simili alle equazioni matematiche, che è qualcosa che i computer possono fare rapidamente e possono fare bene.

Quando un modello di inclusione crea una rappresentazione vettoriale di una frase, il modello di inclusione assegna valori che acquisiscono il significato semantico della frase. Il modello di incorporazione posiziona anche il vettore all'interno di uno spazio multidimensionale in base ai valori assegnati. La dimensione dello spazio dimensionale varia in base al modello, il che significa che variano anche i valori vettoriali esatti. Tuttavia, tutti i modelli posizionano i vettori in modo che le frasi con significati simili siano più vicine l'una all'altra.

La maggior parte dei modelli incorporati generano vettori in così tante dimensioni, che vanno da centinaia a migliaia di dimensioni, che è impossibile visualizzare. Se un modello di incorporazione dovesse generare un vettore tridimensionale, potrebbe avere il seguente aspetto. Notare che i valori del vettore mostrati nell'immagine sono fittizi, ma sono inclusi per illustrare questo scenario ipotetico.

Un cubo tridimensionale con tre punti di dati che rappresentano tre incorporazioni di frasi

L'immagine mostra che le frasi con parole chiave condivise e con soggetti condivisi hanno vettori con valori simili, che li posiziona più vicini l'uno all'altro all'interno dello spazio tridimensionale. Le seguenti frasi vengono posizionate in base al loro valore vettoriale:

  • La riproduzione di Degas è appesa nella tana
  • Jan ha acquistato un dipinto di cani che giocano a carte
  • Ho preso i miei cani per una passeggiata

Le prime due frasi sull'artwork e le ultime due che condividono la parola chiave dogs sono più vicine tra loro rispetto alla prima e alla terza frase, che non condividono parole o significati comuni.

È possibile memorizzare i vettori generati in un database di vettori. Quando lo stesso modello di incorporazione viene utilizzato per convertire tutte le frasi nel database, l'archivio vettoriale può sfruttare i raggruppamenti e le relazioni inerenti che esistono tra le frasi in base ai loro valori vettoriali per restituire rapidamente i risultati della ricerca pertinenti.

A differenza degli indici tradizionali che memorizzano il testo e si basano sulla ricerca di parole chiave per il richiamo delle informazioni, gli archivi vettoriali supportano le ricerche semantiche che richiamano le informazioni che hanno un significato simile. Ad esempio, dove la ricerca per parola chiave controlla solo se la parola chiave è presente, la ricerca semantica pesa il contesto in cui viene utilizzata la parola chiave, che in genere produce risultati di ricerca migliori.

Argomento principale: Vettorializzazione del testo