0 / 0
Go back to the English version of the documentation
Tokeny i dzielenie na leksemy
Last updated: 07 lis 2023
Tokeny i dzielenie na leksemy

Token jest kolekcją znaków, które mają znaczenie semantyczne dla modelu. Dzielenie na leksemy jest procesem przekształcania słów w zachęcie w leksemy.

Użytkownik może monitorować użycie tokenu modelu Foundation w projekcie na stronie Środowiska na karcie Użycie zasobu .

 

Przekształcanie słów w leksemy i z powrotem

Tekst pytania jest przekształcany w leksemy przed przetworzeniem przez modele podstawowe.

Korelacja między słowami i tokenami jest złożona:

  • Czasami pojedyncze słowo jest podzielone na wiele leksemów
  • To samo słowo może być podzielone na różne liczby leksemów, w zależności od kontekstu (na przykład: gdzie pojawia się słowo lub otaczających je słów)
  • Spacje, znaki nowego wiersza i znaki interpunkcyjne są czasami uwzględniane w znacznikach, a czasami nie
  • Sposób podziału słów na leksemy różni się w zależności od języka
  • Sposób podziału słów na leksemy różni się w zależności od modelu

Dla brutalnego pomysłu, zdanie, które ma 10 słów może być od 15 do 20 żetonów.

Surowe dane wyjściowe z modelu są również tokenami. W laboratorium podpowiedzi w produkcie IBM watsonx.aitokeny wyjściowe z modelu są przekształcane w słowa, które mają być wyświetlane w edytorze zapytań.

Przykład

Na poniższym obrazku przedstawiono, w jaki sposób można podzielić na leksemy te przykładowe dane wejściowe:

Pomidory są jednym z najbardziej popularnych roślin do ogrodów warzywnych. Wskazówka dla sukcesu: Jeśli wybierzesz odmiany, które są odporne na choroby i szkodniki, uprawy pomidorów mogą być bardzo łatwe. Dla doświadczonych ogrodników poszukujących wyzwania, istnieje niekończące się dziedzictwo i specjalności odmian do uprawienia. Pomidorowe rośliny są w różnych rozmiarach.

Wizualizacja podziału na leksemy

Zwróć uwagę na kilka interesujących punktów:

  • Niektóre słowa są podzielone na wiele leksemów, a niektóre nie są
  • Na początku słowo "Pomidory" jest podzielone na wiele leksemów, ale później słowo "pomidory" jest tylko jednym leksemem.
  • Spacje są czasami dołączane na początku leksemu słownego, a czasami same spacje są leksemami.
  • Znaki interpunkcyjne są tokenami

 

Limity tokenów

Każdy model ma górny limit liczby elementów w zachęcie wejściowej plus liczba elementów w wygenerowanych danych wyjściowych modelu (czasami nazywanych długością okna kontekstu, oknem kontekstu, długością kontekstulub maksymalną długością sekwencji). W narzędziu Prompt Lab (Laboratorium podpowiedzi) komunikat informacyjny pokazuje, ile znaczników jest używanych w danym przedłożeniu pytania i wygenerowanych danych wyjściowych.

W laboratorium podpowiedzi parametr Maksymalna liczba tokenów służy do określania górnego limitu liczby tokenów wyjściowych generowanych przez model. Maksymalna liczba leksemów dozwolonych w wynikach różni się w zależności od modelu. Więcej informacji na ten temat zawiera sekcja Maksymalna liczba tokenów w sekcji Obsługiwane modele podstawowe.

 

Temat nadrzędny: Modele produktu Foundation

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more