Señales y tokenización

Última actualización: 04 mar 2025

Una señal es una colección de caracteres que tiene significado semántico para un modelo. La tokenización es el proceso de convertir las palabras de la solicitud en señales.

Puede supervisar el uso de tokens de modelo de base en un proyecto en la página Entornos de la pestaña Uso de recursos.

Conversión de palabras a señales y de nuevo

El texto de solicitud se convierte en símbolos antes de que los modelos de base procesen la solicitud.

La correlación entre palabras y señales es compleja:

A veces, una sola palabra se divide en varias señales
La misma palabra se puede dividir en un número diferente de señales, dependiendo del contexto (por ejemplo: donde aparece la palabra, o palabras circundantes)
Los espacios, los caracteres de nueva línea y los signos de puntuación a veces se incluyen en los símbolos y a veces no
La forma en que las palabras se dividen en señales varía de un idioma a otro
La forma en que las palabras se dividen en señales varía de un modelo a otro

Para una idea aproximada, una frase que tiene 10 palabras podría ser de 15 a 20 fichas.

La salida bruta de un modelo también está en forma de tokens. En el Prompt Lab de IBM watsonx.ai, los tokens de salida del modelo se convierten en palabras que se muestran en el editor de avisos.

Ejemplo

La imagen siguiente muestra cómo se puede tokenizar esta entrada de ejemplo:

Los tomates son una de las plantas más populares para los huertos. Consejo para el éxito: Si selecciona variedades que son resistentes a las enfermedades y plagas, el cultivo de tomates puede ser bastante fácil. Para los jardineros experimentados que buscan un desafío, hay un sinfín de variedades de reliquia y especialidades para cultivar. Las plantas de tomate vienen en una gama de tamaños.

Visualización de tokenización

Observe algunos puntos interesantes:

Algunas palabras se dividen en varias señales y otras no
La palabra "Tomates" se divide en varios símbolos al principio, pero más tarde "tomates" es todo un símbolo
Los espacios se incluyen a veces al principio de una señal de palabra y a veces los espacios son una señal por sí mismos
Los signos de puntuación son señales

Límites de señal

Cada modelo tiene un límite superior al número de señales en la solicitud de entrada más el número de señales en la salida generada del modelo. Este límite a veces se denomina longitud de ventana de contexto, ventana de contexto, longitud de contextoo longitud máxima de secuencia. En el Prompt Lab, un mensaje informativo muestra cuántos tokens se utilizan en un envío de avisos y la salida generada resultante.

En el Prompt Lab, se utiliza el parámetro Max tokens para especificar un límite superior en el número de tokens de salida para que el modelo genere. El número máximo de señales que se permiten en la salida difiere según el modelo. Para obtener más información, consulte la información sobre Número máximo de señales en Modelos base soportados.

Más información

Puede utilizar la API de watsonx.ai para comprobar cuántos tokens se calcularán para su solicitud por un modelo de fundación antes de enviarla. Para más información, consulte tokenización de texto.
Para más información sobre cómo se miden los tokens a efectos de facturación, véase " watsonx.ai ' Planes de tiempo de ejecución.

Tema principal: Desarrollo de soluciones de IA generativas

¿Fue útil el tema?

0/1000

Conversión de palabras a señales y de nuevoCopy link to section

EjemploCopy link to section

Límites de señalCopy link to section

Conversión de palabras a señales y de nuevo

Ejemplo

Límites de señal