토큰 은 모델에 대한 시맨틱 의미가 있는 문자의 콜렉션입니다. 토큰화는 프롬프트의 단어를 토큰으로 변환하는 프로세스입니다.
프로젝트의 토큰 사용량을 환경 페이지의자원 사용량 탭에서 모니터링할 수 있습니다.
단어를 토큰으로 변환하고 다시 토큰으로 변환
Copy link to section
프롬프트 텍스트는 기초 모델에서 프롬프트를 처리하기 전에 토큰으로 변환됩니다.
단어와 토큰 사이의 상관은 복잡합니다.
단일 단어가 여러 토큰으로 구분되는 경우가 있습니다.
컨텍스트에 따라 동일한 단어가 다른 수의 토큰으로 구분될 수 있습니다 (예: 단어가 표시되는 위치 또는 주변 단어).
공백, 줄 바꾸기 문자 및 구두점이 토큰에 포함되는 경우도 있고 토큰에 포함되지 않는 경우도 있습니다.
단어가 토큰으로 구분되는 방식은 언어마다 다릅니다.
단어가 토큰으로 구분되는 방법은 모델마다 다릅니다.
대략적으로, 10개의 단어가 있는 문장은 15-20개의 토큰일 수 있습니다.
모델의 원시 출력도 토큰의 형태입니다. IBM watsonx.ai Prompt Lab 모델의 출력 토큰을 단어로 변환하여 프롬프트 편집기에 표시합니다.
예
Copy link to section
다음 이미지는 이 샘플 입력을 토큰화하는 방법을 보여줍니다.
토마토는 식물원에서 가장 인기 있는 식물 중 하나이다. 성공을 위한 팁: 질병과 해충에 내성이 있는 품종을 선택하면 토마토를 재배하는 것이 매우 쉽습니다. 도전을 찾는 경험 많은 정원사들을 위해, 경작할 수 있는 끝없는 가보와 특이한 품종이 있습니다. 토마토 식물들은 다양한 크기로 제공된다.
몇 가지 흥미로운 점은 다음과 같습니다.
일부 단어는 여러 토큰으로 구분되고 일부 단어는 여러 토큰으로 구분되지 않습니다.
"토마토" 라는 단어는 처음에는 여러 개의 토큰으로 구분되지만 나중에 "토마토" 는 모두 하나의 토큰입니다.
공백은 때로는 단어 토큰의 시작 부분에 포함되고 때로는 공백 자체가 모두 토큰입니다.
구두점 표시는 토큰입니다.
토큰 한계
Copy link to section
모든 모델에는 입력 프롬프트의 토큰 수에 모델에서 생성된 출력의 토큰 수를 더한 상한이 있습니다. 이 한계를 컨텍스트 창 길이, 컨텍스트 창, 컨텍스트 길이또는 최대 시퀀스 길이라고도 합니다. Prompt Lab 프롬프트 제출에 사용된 토큰 수와 그 결과 생성된 출력을 정보 메시지로 확인할 수 있습니다.
Prompt Lab 최대 토큰 수 매개변수를 사용하여 모델이 생성할 출력 토큰 수의 상한을 지정할 수 있습니다. 출력에 허용되는 최대 토큰 수는 모델에 따라 다릅니다. 자세한 정보는 지원되는 기반 모델의 최대 토큰 정보를 참조하십시오.
자세히 알아보기
watsonx.ai 의 API를 사용하면 제출하기 전에 기초 모델에 의해 프롬프트에 대해 계산될 토큰의 수를 확인할 수 있습니다. 자세한 내용은 텍스트 토큰화를 참조하세요.