Belirteçler ve tokenizasyon

Translation not up to date

The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.

Go back to the English version of the documentation

Belirteçler ve tokenizasyon

Last updated: 07 Kas 2023

Belirteçler ve tokenizasyon

Simge , bir model için anlamsal anlamı olan bir karakter toplamasıdır. Tokenizasyon, bilgi isteminizdeki sözcükleri belirteçlere dönüştürme işlemindir.

Kaynak kullanımı sekmesindeki Ortamlar sayfasındaki bir projede temel model simgesi kullanımını izleyebilirsiniz.

Sözcükleri simgelere dönüştürme ve yeniden geri dönüştürme

Bilgi istemi metni, temel modeller tarafından işlenmeden önce belirteçlere dönüştürülür.

Sözcükler ve simgeler arasındaki ilinti karmaşıktır:

Bazen tek bir sözcük birden çok simgeye ayrılır
Aynı sözcük, bağlama bağlı olarak farklı sayıda simgeyle bölünebilir (örneğin: sözcüğün nerede göründüğü ya da sözcükleri çevreleyen sözcükler)
Boşluklar, yeni satır karakterleri ve noktalama işaretleri bazen belirteçlere dahil edilir, bazen edilmez
Sözcüklerin simgelere ayrılma şekli dilden dile değişir
Sözcüklerin simgelere ayrılma şekli modelden modele değişir

Kaba bir fikir için, 10 kelime olan bir cümle 15 ila 20 jeton olabilir.

Bir modelin ham çıkışı da belirteçtir. IBM watsonx.aiiçindeki Bilgi İstemi Laboratuvarında modeldeki çıkış belirteçleri, bilgi istemi düzenleyicisinde görüntülenecek sözcüklere dönüştürülür.

Örnek

Aşağıdaki resim, bu örnek girişin nasıl bölümlenmiş olabileceğini göstermektedir:

Domatesler sebze bahçeleri için en popüler bitkilerden biridir. Başarı için ipucu: Hastalığa ve zararlılara dirençli çeşitleri seçerseniz, domates yetiştirmek oldukça kolay olabilir. Zorlu bir mücadele arayan deneyimli bahçıvanlar için yetiştirmek için sonsuz yadigarlar ve uzmanlık çeşitleri vardır. Domates bitkileri çeşitli boyutlarda gelir.

Tokenizasyon görselleştirmesi

Birkaç ilginç noktaya dikkat edin:

Bazı sözcükler birden çok simgeye bölünmüş, bazıları bölünmemiş
"Tomatoes" kelimesi başlangıçta birden çok belirtece bölünmüş, ancak daha sonra "domates" kelimesi tek bir belirteçtir.
Boşluklar bazen bir sözcük simgesinin başına eklenir ve bazen boşluklar tek başlarına bir simgedir.
Noktalama işaretleri simgelerdir

Simge sınırları

Her modelin giriş bilgi istemindeki simge sayısı ve modelden oluşturulan çıkıştaki simge sayısı üst sınırı vardır (bazen bağlam penceresi uzunluğu, bağlam penceresi, bağlam uzunluğuya da sıra uzunluğu üst sınırıolarak adlandırılır). Bilgi İstemi Laboratuvarında, bilgi verici bir ileti belirli bir bilgi istemi gönderimde kaç belirteç kullanıldığını ve elde edilen çıktıyı gösterir.

Bilgi İstemi Laboratuvarı 'nda, oluşturulacak modele ilişkin çıkış simgesi sayısı üst sınırını belirtmek için En çok simge parametresini kullanırsınız. Çıkışta izin verilen simge sayısı üst sınırı modele göre değişir. Daha fazla bilgi için Desteklenen temel modelleriiçindeki Maksimum belirteç bilgilerine bakın.

Üst konu: Foundation modelleri