토큰 은 모델에 대한 시맨틱 의미가 있는 문자의 콜렉션입니다. 토큰화는 프롬프트의 단어를 토큰으로 변환하는 프로세스입니다.
리소스 사용량 탭의 환경 페이지에서 프로젝트의 foundation model 토큰 사용량을 모니터링할 수 있습니다.
단어를 토큰으로 변환하고 다시 토큰으로 변환
프롬프트 텍스트는 기초 모델에서 프롬프트를 처리하기 전에 토큰으로 변환됩니다.
단어와 토큰 사이의 상관은 복잡합니다.
- 단일 단어가 여러 토큰으로 구분되는 경우가 있습니다.
- 컨텍스트에 따라 동일한 단어가 다른 수의 토큰으로 구분될 수 있습니다 (예: 단어가 표시되는 위치 또는 주변 단어).
- 공백, 줄 바꾸기 문자 및 구두점이 토큰에 포함되는 경우도 있고 토큰에 포함되지 않는 경우도 있습니다.
- 단어가 토큰으로 구분되는 방식은 언어마다 다릅니다.
- 단어가 토큰으로 구분되는 방법은 모델마다 다릅니다.
대략적으로, 10개의 단어가 있는 문장은 15-20개의 토큰일 수 있습니다.
모델의 원시 출력도 토큰의 형태입니다. IBM watsonx.ai Prompt Lab 모델의 출력 토큰을 단어로 변환하여 프롬프트 편집기에 표시합니다.
예
다음 이미지는 이 샘플 입력을 토큰화하는 방법을 보여줍니다.
토마토는 식물원에서 가장 인기 있는 식물 중 하나이다. 성공을 위한 팁: 질병과 해충에 내성이 있는 품종을 선택하면 토마토를 재배하는 것이 매우 쉽습니다. 도전을 찾는 경험 많은 정원사들을 위해, 경작할 수 있는 끝없는 가보와 특이한 품종이 있습니다. 토마토 식물들은 다양한 크기로 제공된다.
몇 가지 흥미로운 점은 다음과 같습니다.
- 일부 단어는 여러 토큰으로 구분되고 일부 단어는 여러 토큰으로 구분되지 않습니다.
- "토마토" 라는 단어는 처음에는 여러 개의 토큰으로 구분되지만 나중에 "토마토" 는 모두 하나의 토큰입니다.
- 공백은 때로는 단어 토큰의 시작 부분에 포함되고 때로는 공백 자체가 모두 토큰입니다.
- 구두점 표시는 토큰입니다.
토큰 한계
모든 모델에는 입력 프롬프트의 토큰 수에 모델에서 생성된 출력의 토큰 수를 더한 상한이 있습니다. 이 한계를 컨텍스트 창 길이, 컨텍스트 창, 컨텍스트 길이또는 최대 시퀀스 길이라고도 합니다. Prompt Lab 프롬프트 제출에 사용된 토큰 수와 그 결과 생성된 출력을 정보 메시지로 확인할 수 있습니다.
Prompt Lab 최대 토큰 수 매개변수를 사용하여 모델이 생성할 출력 토큰 수의 상한을 지정할 수 있습니다. 출력에 허용되는 최대 토큰 수는 모델에 따라 다릅니다. 자세한 정보는 지원되는 기반 모델의 최대 토큰 정보를 참조하십시오.
자세히 알아보기
- 프롬프트가 정기적으로 컨텍스트 창 한계를 초과하는 경우 컨텍스트 길이 한계 극복 기술을 참조하십시오.
- watsonx.ai API를 사용하여 프롬프트를 제출하기 전에 foundation model 의해 얼마나 많은 토큰이 계산되는지 확인할 수 있습니다. 자세한 내용은 텍스트 토큰화를 참조하세요.
- 청구 목적으로 토큰을 측정하는 방법에 대한 자세한 내용은 watsonx.ai 런타임 요금제를 참조하세요.
상위 주제: 생성 AI 솔루션 개발