LLM에게 많은 양의 참고 문서를 컨텍스트로 넣어서 답변 정확도를 높이는 방식. RAG의 검색 단계를 생략하고 전부 넣는다.
RAG는 벡터 검색으로 관련 문서를 골라 넣지만, 어떤 문서가 필요한지 정확히 예측하기 어려울 때는 놓치는 정보가 생긴다. 컨텍스트 스터핑은 필요한 문서를 선별하는 대신, 관련 문서 전체를 컨텍스트에 쏟아 넣어서 LLM이 스스로 필요한 부분을 찾아 쓰게 하는 방식이다. 컨텍스트 윈도우가 길어지면서 현실적인 선택지가 됐다.
소규모 회사 내부 문서(전체 100만 토큰 이하)라면 RAG 파이프라인을 구축하는 대신 전체를 컨텍스트에 넣고 질의하는 방식이 더 간단하다. Claude의 200K 컨텍스트를 활용하면 긴 소설을 통째로 넣고 내용을 분석하거나, 전체 코드베이스를 넣고 리팩토링 계획을 세울 수 있다. 단, 비용과 속도를 고려해야 한다.