Translation not up to date
Token jest kolekcją znaków, które mają znaczenie semantyczne dla modelu. Dzielenie na leksemy jest procesem przekształcania słów w zachęcie w leksemy.
Użytkownik może monitorować użycie tokenu modelu Foundation w projekcie na stronie Środowiska na karcie Użycie zasobu .
Przekształcanie słów w leksemy i z powrotem
Tekst pytania jest przekształcany w leksemy przed przetworzeniem przez modele podstawowe.
Korelacja między słowami i tokenami jest złożona:
- Czasami pojedyncze słowo jest podzielone na wiele leksemów
- To samo słowo może być podzielone na różne liczby leksemów, w zależności od kontekstu (na przykład: gdzie pojawia się słowo lub otaczających je słów)
- Spacje, znaki nowego wiersza i znaki interpunkcyjne są czasami uwzględniane w znacznikach, a czasami nie
- Sposób podziału słów na leksemy różni się w zależności od języka
- Sposób podziału słów na leksemy różni się w zależności od modelu
Dla brutalnego pomysłu, zdanie, które ma 10 słów może być od 15 do 20 żetonów.
Surowe dane wyjściowe z modelu są również tokenami. W laboratorium podpowiedzi w produkcie IBM watsonx.aitokeny wyjściowe z modelu są przekształcane w słowa, które mają być wyświetlane w edytorze zapytań.
Przykład
Na poniższym obrazku przedstawiono, w jaki sposób można podzielić na leksemy te przykładowe dane wejściowe:
Pomidory są jednym z najbardziej popularnych roślin do ogrodów warzywnych. Wskazówka dla sukcesu: Jeśli wybierzesz odmiany, które są odporne na choroby i szkodniki, uprawy pomidorów mogą być bardzo łatwe. Dla doświadczonych ogrodników poszukujących wyzwania, istnieje niekończące się dziedzictwo i specjalności odmian do uprawienia. Pomidorowe rośliny są w różnych rozmiarach.
Zwróć uwagę na kilka interesujących punktów:
- Niektóre słowa są podzielone na wiele leksemów, a niektóre nie są
- Na początku słowo "Pomidory" jest podzielone na wiele leksemów, ale później słowo "pomidory" jest tylko jednym leksemem.
- Spacje są czasami dołączane na początku leksemu słownego, a czasami same spacje są leksemami.
- Znaki interpunkcyjne są tokenami
Limity tokenów
Każdy model ma górny limit liczby elementów w zachęcie wejściowej plus liczba elementów w wygenerowanych danych wyjściowych modelu (czasami nazywanych długością okna kontekstu, oknem kontekstu, długością kontekstulub maksymalną długością sekwencji). W narzędziu Prompt Lab (Laboratorium podpowiedzi) komunikat informacyjny pokazuje, ile znaczników jest używanych w danym przedłożeniu pytania i wygenerowanych danych wyjściowych.
W laboratorium podpowiedzi parametr Maksymalna liczba tokenów służy do określania górnego limitu liczby tokenów wyjściowych generowanych przez model. Maksymalna liczba leksemów dozwolonych w wynikach różni się w zależności od modelu. Więcej informacji na ten temat zawiera sekcja Maksymalna liczba tokenów w sekcji Obsługiwane modele podstawowe.
Temat nadrzędny: Modele produktu Foundation