0 / 0
Volver a la versión inglesa de la documentación
Señales y tokenización
Última actualización: 18 dic 2024
Señales y tokenización

Una señal es una colección de caracteres que tiene significado semántico para un modelo. La tokenización es el proceso de convertir las palabras de la solicitud en señales.

Puede supervisar el uso de tokens foundation model en un proyecto en la página Entornos, en la pestaña Uso de recursos.

Conversión de palabras a señales y de nuevo

El texto de solicitud se convierte en símbolos antes de que los modelos de base procesen la solicitud.

La correlación entre palabras y señales es compleja:

  • A veces, una sola palabra se divide en varias señales
  • La misma palabra se puede dividir en un número diferente de señales, dependiendo del contexto (por ejemplo: donde aparece la palabra, o palabras circundantes)
  • Los espacios, los caracteres de nueva línea y los signos de puntuación a veces se incluyen en los símbolos y a veces no
  • La forma en que las palabras se dividen en señales varía de un idioma a otro
  • La forma en que las palabras se dividen en señales varía de un modelo a otro

Para una idea aproximada, una frase que tiene 10 palabras podría ser de 15 a 20 fichas.

La salida bruta de un modelo también está en forma de tokens. En el Prompt Lab de IBM watsonx.ai, los tokens de salida del modelo se convierten en palabras que se muestran en el editor de avisos.

Ejemplo

La imagen siguiente muestra cómo se puede tokenizar esta entrada de ejemplo:

Los tomates son una de las plantas más populares para los huertos. Consejo para el éxito: Si selecciona variedades que son resistentes a las enfermedades y plagas, el cultivo de tomates puede ser bastante fácil. Para los jardineros experimentados que buscan un desafío, hay un sinfín de variedades de reliquia y especialidades para cultivar. Las plantas de tomate vienen en una gama de tamaños.

Visualización de tokenización

Observe algunos puntos interesantes:

  • Algunas palabras se dividen en varias señales y otras no
  • La palabra "Tomates" se divide en varios símbolos al principio, pero más tarde "tomates" es todo un símbolo
  • Los espacios se incluyen a veces al principio de una señal de palabra y a veces los espacios son una señal por sí mismos
  • Los signos de puntuación son señales

Límites de señal

Cada modelo tiene un límite superior al número de señales en la solicitud de entrada más el número de señales en la salida generada del modelo. Este límite a veces se denomina longitud de ventana de contexto, ventana de contexto, longitud de contextoo longitud máxima de secuencia. En el Prompt Lab, un mensaje informativo muestra cuántos tokens se utilizan en un envío de avisos y la salida generada resultante.

En el Prompt Lab, se utiliza el parámetro Max tokens para especificar un límite superior en el número de tokens de salida para que el modelo genere. El número máximo de señales que se permiten en la salida difiere según el modelo. Para obtener más información, consulte la información sobre Número máximo de señales en Modelos base soportados.

Más información

Tema principal: Desarrollo de soluciones de IA generativas

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información