시맨틱 캐시 (Semantic Cache)

데이터

시맨틱 캐시

Semantic Cache

이전에 처리한 쿼리와 의미적으로 유사한 새 쿼리가 들어오면 LLM을 다시 호출하지 않고 캐시된 답변을 반환하는 기법.

개념 설명

일반 캐시는 완전히 동일한 입력에만 적용된다. 하지만 "오늘 날씨 어때?"와 "오늘 날씨가 어떻습니까?"는 다른 문자열이지만 같은 질문이다. 시맨틱 캐시는 쿼리를 임베딩으로 변환해서 벡터 유사도를 측정하고, 충분히 유사한 과거 쿼리가 있으면 LLM 호출 없이 캐시된 답변을 반환한다. 반복 질문이 많은 서비스에서 비용을 크게 줄일 수 있다.

사용 예시

FAQ 기반 고객 지원 챗봇은 비슷한 질문이 반복되므로 시맨틱 캐시 효과가 크다. GPTCache나 Redis의 시맨틱 캐시 기능을 붙이면, 임베딩 유사도가 0.95 이상인 쿼리에 대해서는 LLM을 호출하지 않고 캐시에서 바로 응답한다. 코사인 유사도 임계값을 조정해 캐시 히트율과 정확도를 균형 잡는다.

#캐싱#유사도검색#비용절감

← AI Wiki에서 더 보기