Übersicht über Texteinbettungen

Letzte Aktualisierung: 29. Jan. 2025
Übersicht über Texteinbettungen

Eine Texteinbettung ist eine numerische Darstellung eines Satzes oder einer Passage als Vektor von reellwertigen Zahlen. Durch die Umwandlung von Sätzen in Zahlenvektoren werden Operationen für Sätze mehr wie mathematische Gleichungen, was Computer schnell und gut tun können.

Wenn ein einbettendes Modell eine Vektordarstellung eines Satzes erstellt, ordnet das einbettende Modell Werte zu, die die semantische Bedeutung des Satzes erfassen. Das Einbettungsmodell positioniert den Vektor auch in einem mehrdimensionalen Raum basierend auf seinen zugeordneten Werten. Die Größe des Dimensionsraums variiert je nach Modell, was bedeutet, dass die genauen Vektorwerte ebenfalls variieren. Alle Modelle positionieren die Vektoren jedoch so, daß Sätze mit ähnlichen Bedeutungen näher zueinander stehen.

Die meisten Einbettungsmodelle generieren Vektoren in so vielen Dimensionen, von Hunderten bis zu Tausenden von Dimensionen, dass es unmöglich ist, sie zu visualisieren. Wenn ein Einbettungsmodell einen dreidimensionalen Vektor generieren würde, könnte es wie folgt aussehen. Beachten Sie, dass die in der Abbildung gezeigten Vektorwerte fiktiv sind, aber eingeschlossen sind, um dieses hypothetische Szenario zu veranschaulichen.

Ein dreidimensionaler Cube mit drei Datenpunkten, die drei Satzeinbettungen darstellen

Die Abbildung zeigt, dass Sätze mit gemeinsam genutzten Schlüsselwörtern und mit gemeinsam genutzten Subjekten Vektoren mit ähnlichen Werten haben, die sie im dreidimensionalen Raum näher zueinander bringen. Die folgenden Sätze werden basierend auf ihren Vektorwerten positioniert:

  • Die Degas-Reproduktion hängt in der Höhle
  • Jan hat ein Gemälde von Hunden gekauft, die Karten spielen
  • Ich nahm meine Hunde zu einem Spaziergang

Die ersten beiden Sätze über Artwork und die letzten beiden Sätze, die das Schlüsselwort dogs teilen, sind einander näher als die ersten und dritten Sätze, die keine gemeinsamen Wörter oder Bedeutungen teilen.

Sie können generierte Vektoren in einer Vektordatenbank speichern. Wenn dasselbe Einbettungsmodell verwendet wird, um alle Sätze in der Datenbank zu konvertieren, kann der Vektorspeicher die inhärenten Gruppierungen und Beziehungen, die zwischen den Sätzen bestehen, basierend auf ihren Vektorwerten nutzen, um relevante Suchergebnisse schnell zurückzugeben.

Im Gegensatz zu traditionellen Indizes, die Text speichern und sich auf die Schlüsselwortsuche zum Abrufen von Informationen verlassen, unterstützen Vektorspeicher semantische Suchen, die Informationen abrufen, die in ihrer Bedeutung ähnlich sind. Wenn die Schlüsselwortsuche beispielsweise nur prüft, ob das Schlüsselwort vorhanden ist, gewichtet die semantische Suche den Kontext, in dem das Schlüsselwort verwendet wird. Dies führt in der Regel zu besseren Suchergebnissen.

Übergeordnetes Thema: Text vektorisieren