Token e tokenizzazione

Ultimo aggiornamento: 04 mar 2025
Token e tokenizzazione

Un token è una raccolta di caratteri che ha un significato semantico per un modello. La tokenizzazione è il processo di conversione delle parole nel prompt in token.

È possibile monitorare l'utilizzo dei token del modello di fondazione in un progetto nella pagina Ambienti nella scheda Utilizzo risorse.

Conversione di parole in token e di nuovo

Il testo del prompt viene convertito in token prima che il prompt venga elaborato dai modelli di base.

La correlazione tra parole e token è complessa:

  • A volte una singola parola viene suddivisa in più token
  • La stessa parola potrebbe essere suddivisa in un numero diverso di token, a seconda del contesto (ad esempio: dove appare la parola o parole circostanti)
  • Gli spazi, i caratteri di nuova riga e la punteggiatura sono a volte inclusi nei token e a volte non
  • Il modo in cui le parole vengono suddivise in token varia da lingua a lingua
  • Il modo in cui le parole vengono suddivise in token varia da modello a modello

Per un'idea approssimativa, una frase che ha 10 parole potrebbe essere da 15 a 20 token.

Anche l'output grezzo di un modello è sotto forma di token. Nel Prompt Lab di IBM watsonx.ai, i token in uscita dal modello vengono convertiti in parole da visualizzare nell'editor di prompt.

Esempio

La seguente immagine mostra come questo input di esempio potrebbe essere tokenizzato:

I pomodori sono una delle piante più popolari per gli orti. Suggerimento per il successo: Se si selezionano varietà che sono resistenti alle malattie e parassiti, la coltivazione dei pomodori può essere abbastanza facile. Per i giardinieri esperti che cercano una sfida, ci sono infinite varietà di cimelio e specialità da coltivare. Le piante di pomodoro sono disponibili in una gamma di dimensioni.

Visualizzazione della tokenizzazione

Notate alcuni punti interessanti:

  • Alcune parole sono suddivise in più token e alcune non lo sono
  • La parola "Tomatoes" è divisa in più token all'inizio, ma in seguito "pomodori" è tutto un token
  • Gli spazi sono a volte inclusi all'inizio di una parola - token e a volte gli spazi sono un token tutto da soli
  • I segni di punteggiatura sono token

Limiti token

Ogni modello ha un limite superiore al numero di token nel prompt di input più il numero di token nell'output generato dal modello. Questo limite viene talvolta definito lunghezza della finestra di contesto, finestra di contesto, lunghezza di contestoo lunghezza massima della sequenza. Nel Prompt Lab, un messaggio informativo mostra il numero di token utilizzati per l'invio di un prompt e l'output generato.

Nel Prompt Lab, si usa il parametro Max tokens per specificare un limite superiore al numero di tokens in uscita che il modello deve generare. Il numero massimo di token consentiti nell'output differisce per modello. Per ulteriori informazioni, vedi le informazioni Numero massimo di token in Supported foundation models.

Ulteriori informazioni

  • È possibile utilizzare l'API watsonx.ai per verificare quanti token verranno calcolati per il prompt da un modello di base prima di inviarlo. Per ulteriori informazioni, vedere Tokenizzazione del testo .
  • Per informazioni su come vengono misurati i token ai fini della fatturazione, consultare i piani di runtimewatsonx.ai.

Argomento principale: Sviluppo di soluzioni AI generative