0 / 0
Zurück zur englischen Version der Dokumentation
Token und Zerlegung in Tokens
Letzte Aktualisierung: 18. Dez. 2024
Token und Zerlegung in Tokens

Ein Token ist eine Sammlung von Zeichen mit semantischer Bedeutung für ein Modell. Die Zerlegung in Tokens ist der Prozess, bei dem die Wörter in Ihrer Eingabeaufforderung in Tokens konvertiert werden.

Sie können die Verwendung von foundation model Token in einem Projekt auf der Seite Umgebungen auf der Registerkarte Ressourcenverwendung überwachen.

Wörter in Tokens und wieder zurück konvertieren

Der Eingabeaufforderungstext wird in Token konvertiert, bevor die Eingabeaufforderung von Basismodellen verarbeitet wird.

Die Korrelation zwischen Wörtern und Tokens ist komplex:

  • Manchmal wird ein einzelnes Wort in mehrere Tokens zerlegt
  • The same word might be broken into a different number of tokens, depending on context (such as: where the word appears, or surrounding words)
  • Leerzeichen, Zeilenvorschubzeichen und Interpunktionszeichen werden manchmal in Tokens eingeschlossen und manchmal nicht
  • Die Art und Weise, wie Wörter in Tokens zerlegt werden, variiert von Sprache zu Sprache
  • Die Art und Weise, wie Wörter in Tokens zerlegt werden, variiert von Modell zu Modell

Für eine grobe Idee könnte ein Satz mit 10 Wörtern 15 bis 20 Token sein.

Die Rohdaten eines Modells liegen ebenfalls in Form von Token vor. Im Prompt Lab in IBM watsonx.ai werden die vom Modell ausgegebenen Token in Wörter umgewandelt, die im Prompt Editor angezeigt werden.

Beispiel

Die folgende Abbildung zeigt, wie diese Beispieleingabe mit einem Token versehen werden kann:

Tomaten sind eine der beliebtesten Pflanzen für Gemüsegärten. Tipp für Erfolg: Wenn Sie Sorten auswählen, die resistent gegen Krankheiten und Schädlinge sind, kann der Anbau von Tomaten ganz einfach sein. Für erfahrene Gärtner auf der Suche nach einer Herausforderung, gibt es endlose Erbstück und Spezialität Sorten zu kultivieren. Tomatenpflanzen gibt es in verschiedenen Größen.

Visualisierung der Zerlegung in Tokens

Beachten Sie einige interessante Punkte:

  • Einige Wörter sind in mehrere Tokens zerlegt, andere nicht
  • Das Wort "Tomaten" wird am Anfang in mehrere Token zerbrochen, aber später "Tomaten" ist alles ein Token
  • Leerzeichen werden manchmal am Anfang eines Worts eingeschlossen-Token und manchmal sind Leerzeichen ein Token für sich allein.
  • Interpunktionszeichen sind Tokens

Tokengrenzwerte

Jedes Modell hat eine Obergrenze für die Anzahl der Token in der Eingabeeingabeaufforderung plus die Anzahl der Token in der generierten Ausgabe des Modells. Dieser Grenzwert wird manchmal als Kontextfensterlänge, Kontextfenster, Kontextlängeoder maximale Sequenzlängebezeichnet. Im Prompt Lab zeigt eine Informationsmeldung an, wie viele Token für eine Eingabeaufforderung verwendet werden und welche Ausgabe daraus resultiert.

Im Prompt Lab verwenden Sie den Parameter Max tokens, um eine Obergrenze für die Anzahl der Ausgabe-Token festzulegen, die das Modell erzeugen soll. Die maximale Anzahl der Token, die in der Ausgabe zulässig sind, variiert je nach Modell. Weitere Informationen finden Sie unter Maximale Anzahl Token im Abschnitt Unterstützte Basismodelle.

Weitere Informationen

  • Wenn Ihre Eingabeaufforderungen den Grenzwert für Kontextfenster regelmäßig überschreiten, finden Sie weitere Informationen unter Verfahren zur Überwindung von Kontextlängenbeschränkungen.
  • Sie können die watsonx.ai API verwenden, um zu überprüfen, wie viele Token für Ihren Prompt von einem foundation model berechnet werden, bevor Sie ihn abschicken. Weitere Informationen finden Sie unter Text-Tokenisierung.
  • Informationen darüber, wie Token für Abrechnungszwecke gemessen werden, finden Sie unter watsonx.ai Runtime plans.

Übergeordnetes Thema: Abgenerative KI-Lösungen entwickeln

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen