긴 컨텍스트를 핵심 정보만 남기도록 압축해서 LLM 비용을 줄이고 성능을 높이는 기법.
긴 대화 이력이나 문서를 통째로 컨텍스트에 넣으면 비용이 크고 정작 중요한 정보가 묻힌다. 컨텍스트 압축은 긴 컨텍스트에서 현재 질문과 관련 없는 부분을 제거하거나 요약해서, 핵심만 남긴 짧은 컨텍스트를 만드는 기법이다. LLM Lingua, Selective Context 같은 도구가 이 역할을 담당한다.
장기 대화 에이전트에서 대화가 50턴을 넘어가면, 초기 대화를 "사용자는 Python 백엔드 개발자, React 사용, Docker 환경"처럼 사실 요약으로 압축하고 최근 10턴만 전체로 유지한다. LangChain의 ConversationSummaryMemory가 이 패턴을 구현한 컴포넌트다.