LLM API 호출 비용을 줄이는 전략. 프롬프트 캐싱, 모델 라우팅, 배치 처리, 토큰 절약 등을 조합해 품질을 유지하면서 비용을 낮춘다.
프로덕션에서 LLM을 사용하면 비용이 생각보다 빠르게 쌓인다. 입력 토큰 수, 출력 토큰 수, 호출 빈도가 모두 비용에 영향을 미친다. 주요 전략은 네 가지다. 반복되는 컨텍스트는 프롬프트 캐싱으로 재계산을 막고, 간단한 태스크는 소형 모델로 라우팅하며, 실시간이 필요 없으면 배치 API를 쓰고, 프롬프트는 간결하게 최적화한다.
모델 라우팅은 특히 효과적이다. 간단한 질문은 GPT-4o mini, 복잡한 추론만 GPT-4o로 보내면 평균 비용이 크게 줄어든다. LLM Router, RouteLLM 같은 라우팅 라이브러리가 이를 자동화한다.
Claude API에서 cache_control로 긴 시스템 프롬프트를 캐시하면 반복 호출 시 입력 비용이 90%까지 줄어든다. LangChain의 SQLiteCache로 동일한 프롬프트 결과를 캐싱하면 중복 API 호출 자체를 없앨 수 있다.