토큰화 (Tokenization)

모델

토큰화

Tokenization

텍스트를 LLM이 처리할 수 있는 최소 단위(토큰)로 쪼개는 과정. 어떻게 쪼개느냐에 따라 언어별 비용과 성능이 달라진다.

토큰화란

LLM은 글자가 아니라 토큰 단위로 생각한다. "안녕하세요"가 1토큰일 수도, 3토큰일 수도 있다. BPE(Byte Pair Encoding)가 가장 널리 쓰이는 분할 알고리즘이며, 자주 나오는 글자 조합을 하나의 토큰으로 묶는다.

왜 알아야 하나

API 비용이 토큰 수에 비례하므로, 같은 내용이라도 토큰을 적게 쓰면 비용이 줄어든다. 영어는 1,000단어가 약 750토큰이지만, 한국어는 같은 분량에서 더 많은 토큰을 소비한다. 이건 한국어가 비효율적이라는 게 아니라, 토크나이저가 영어 중심으로 설계됐기 때문이다.

컨텍스트 윈도우도 토큰 단위다. "100만 토큰 지원"이 한국어로 얼마나 되는지는 토크나이저에 따라 다르다. OpenAI의 tiktoken이나 Anthropic의 토큰 카운터로 미리 토큰 수를 확인하는 습관이 비용 관리에 도움된다.

#전처리#BPE

← AI Wiki에서 더 보기