인프라
프롬프트 캐싱
Prompt Caching

반복되는 긴 프롬프트 컨텍스트를 서버에 캐시해 다음 요청에서 재처리 없이 재사용하는 기능. 비용을 최대 90%, 지연을 최대 85% 줄인다.

개념 설명

같은 시스템 프롬프트나 긴 문서를 매 요청마다 다시 처리하는 것은 낭비다. 프롬프트 캐싱은 서버가 특정 컨텍스트의 KV Cache를 메모리에 보존해두고, 다음 요청에서 같은 컨텍스트가 오면 재계산을 건너뛴다. Anthropic이 2024년 8월 Claude API에 도입했다. 캐시 히트 시 입력 토큰 비용이 90% 감소하고, TTFT도 크게 줄어든다.

캐시는 약 5분간 유지된다. 캐시할 컨텐츠는 요청에서 cache_control: {type: "ephemeral"}로 명시적으로 지정한다. 최소 1024토큰 이상이어야 캐싱된다.

사용 예시

긴 코드베이스를 컨텍스트로 제공하는 AI 코딩 도우미에서, 코드베이스 부분에 cache_control을 붙이면 첫 요청에서 캐시가 생성되고 이후 요청은 캐시에서 불러온다. 수백 페이지 문서를 자주 참조하는 RAG 시스템에서도 문서 부분을 캐시하면 비용이 대폭 줄어든다.

#캐싱#비용절감#KV캐시
← AI Wiki에서 더 보기