인프라
토큰 예산
Token Budget

추론 모델이 답을 생성하기 전에 얼마나 오래 "생각"할 수 있는지를 제한하는 파라미터. 응답 품질과 토큰 비용·지연 사이의 균형을 제어한다.

개념 설명

Claude의 확장 사고나 OpenAI의 추론 모델(o-series)처럼 내부적으로 사고 과정을 생성하는 모델들은 얼마나 길게 생각할지 조절할 수 있다. 토큰 예산은 이 사고에 사용할 수 있는 최대 토큰 수를 설정하는 파라미터다. 예산이 높을수록 더 깊이 생각해 어려운 문제에서 정확도가 올라가지만, 비용과 지연도 함께 늘어난다.

간단한 질문에 불필요하게 큰 예산을 쓰는 것은 낭비이므로, 태스크 복잡도에 따라 예산을 동적으로 조절하는 전략이 필요하다.

사용 예시

Claude API에서 thinking: {type: "enabled", budget_tokens: 10000}으로 사고 예산을 설정한다. 수학 증명이나 복잡한 코드 디버깅에는 예산을 높게, 단순 요약이나 번역에는 낮게 또는 비활성화해 비용을 관리한다. 프로덕션에서는 요청의 복잡도를 분류해 예산을 자동으로 설정하는 라우터를 구성하는 것이 이상적이다.

#사고예산#비용제어#추론
← AI Wiki에서 더 보기