긴 시스템 프롬프트나 문서를 매 요청마다 재처리하지 않고 캐시해서 비용과 지연 시간을 줄이는 기법.
RAG나 긴 시스템 프롬프트를 쓸 때, 매 API 호출마다 같은 긴 텍스트를 처리하면 비용이 크게 늘어난다. 컨텍스트 캐싱은 변하지 않는 부분(시스템 프롬프트, 참고 문서 등)을 서버 측에 캐시해두고, 이후 요청에서는 캐시된 내용을 재사용해 입력 토큰 비용을 절감하는 기능이다. Anthropic은 캐시된 토큰을 일반 입력보다 약 90% 저렴하게 제공한다.
법률 문서 분석 앱에서 1만 토큰짜리 참고 문서를 매 요청마다 넣는다면, Anthropic SDK의 cache_control: {"type": "ephemeral"} 파라미터로 해당 블록을 캐시 대상으로 지정하면 된다. 같은 문서를 참조하는 반복 요청이 많을수록 절감 효과가 크다.