Un token è una raccolta di caratteri che ha un significato semantico per un modello. La tokenizzazione è il processo di conversione delle parole nel prompt in token.
È possibile monitorare l'utilizzo dei token del modello di fondazione in un progetto nella pagina Ambienti nella scheda Utilizzo risorse.
Conversione di parole in token e di nuovo
Copy link to section
Il testo del prompt viene convertito in token prima che il prompt venga elaborato dai modelli di base.
La correlazione tra parole e token è complessa:
A volte una singola parola viene suddivisa in più token
La stessa parola potrebbe essere suddivisa in un numero diverso di token, a seconda del contesto (ad esempio: dove appare la parola o parole circostanti)
Gli spazi, i caratteri di nuova riga e la punteggiatura sono a volte inclusi nei token e a volte non
Il modo in cui le parole vengono suddivise in token varia da lingua a lingua
Il modo in cui le parole vengono suddivise in token varia da modello a modello
Per un'idea approssimativa, una frase che ha 10 parole potrebbe essere da 15 a 20 token.
Anche l'output grezzo di un modello è sotto forma di token. Nel Prompt Lab di IBM watsonx.ai, i token in uscita dal modello vengono convertiti in parole da visualizzare nell'editor di prompt.
Esempio
Copy link to section
La seguente immagine mostra come questo input di esempio potrebbe essere tokenizzato:
I pomodori sono una delle piante più popolari per gli orti. Suggerimento per il successo: Se si selezionano varietà che sono resistenti alle malattie e parassiti, la coltivazione dei pomodori può essere abbastanza facile. Per i giardinieri esperti che cercano una sfida, ci sono infinite varietà di cimelio e specialità da coltivare. Le piante di pomodoro sono disponibili in una gamma di dimensioni.
Notate alcuni punti interessanti:
Alcune parole sono suddivise in più token e alcune non lo sono
La parola "Tomatoes" è divisa in più token all'inizio, ma in seguito "pomodori" è tutto un token
Gli spazi sono a volte inclusi all'inizio di una parola - token e a volte gli spazi sono un token tutto da soli
I segni di punteggiatura sono token
Limiti token
Copy link to section
Ogni modello ha un limite superiore al numero di token nel prompt di input più il numero di token nell'output generato dal modello. Questo limite viene talvolta definito lunghezza della finestra di contesto, finestra di contesto, lunghezza di contestoo lunghezza massima della sequenza. Nel Prompt Lab, un messaggio informativo mostra il numero di token utilizzati per l'invio di un prompt e l'output generato.
Nel Prompt Lab, si usa il parametro Max tokens per specificare un limite superiore al numero di tokens in uscita che il modello deve generare. Il numero massimo di token consentiti nell'output differisce per modello. Per ulteriori informazioni, vedi le informazioni Numero massimo di token in Supported foundation models.
Ulteriori informazioni
È possibile utilizzare l'API watsonx.ai per verificare quanti token verranno calcolati per il prompt da un modello di base prima di inviarlo. Per ulteriori informazioni, vedere Tokenizzazione del testo .
Per informazioni su come vengono misurati i token ai fini della fatturazione, consultare i piani di runtimewatsonx.ai.
Informazioni sui cookie del presente sitoPer il corretto funzionamento, i nostri siti Web richiedono alcuni cookie (richiesto). Inoltre, con il suo consenso, potrebbero essere utilizzati altri cookie per l'analisi dell'utilizzo del sito, per migliorare l'esperienza utente e per scopi pubblicitari.Per ulteriori informazioni, consultare le Preferenze cookie. Visitando il nostro sito web, accettate il trattamento delle informazioni da parte nostra come descritto nelladichiarazione sulla privacy di IBM.Per consentire una corretta navigazione, le preferenze per i cookie dell'utente verranno condivise sui domini Web IBM qui elencati.