초기 검색으로 가져온 문서들을 더 정밀한 모델로 재평가해 순위를 재조정하는 기법. RAG의 컨텍스트 품질을 높이는 가장 효과적인 후처리 단계다.
벡터 검색으로 100개 후보 문서를 빠르게 가져오는 건 쉽다. 하지만 이 중 어떤 10개를 LLM에 넘길지 선별이 중요하다. 리랭킹은 쿼리와 각 문서를 쌍으로 묶어 Cross-Encoder 모델로 더 정밀하게 관련성을 평가한다. 처음부터 100개를 정밀 모델로 평가하는 것보다 빠르면서, 초기 검색보다 훨씬 정확하다. 2단계 검색 파이프라인의 핵심이다.
Cohere Rerank, BGE-Reranker, Jina Reranker가 대표적인 리랭킹 모델이다. LLM을 직접 리랭커로 쓰는 LLM-based Reranking도 정확도가 높지만 비용이 크다.
LangChain에서 CohereRerank를 ContextualCompressionRetriever에 추가하면 검색-리랭킹 파이프라인이 완성된다. 벡터 검색으로 top-50을 가져오고 리랭킹으로 top-5를 선별하면, 순수 벡터 검색 top-5보다 훨씬 관련성 높은 컨텍스트를 LLM에 전달할 수 있다.