키워드 기반 검색(BM25)과 의미 기반 벡터 검색을 결합해 두 방식의 장점을 모두 취하는 검색 기법. RAG의 검색 품질을 높이는 가장 실용적인 방법이다.
벡터 검색은 의미가 비슷한 문서를 잘 찾지만, "GPT-4o-2024-11-20"처럼 정확한 키워드나 고유명사를 찾는 데 약하다. BM25 같은 키워드 검색은 정확한 단어 매칭에 강하지만 의미 유사성을 모른다. 하이브리드 검색은 두 방식으로 각각 검색한 결과를 RRF(Reciprocal Rank Fusion)로 합쳐 두 방식의 장단점을 보완한다.
Elasticsearch, Weaviate, Pinecone, Qdrant 등 주요 벡터 DB가 하이브리드 검색을 기본 기능으로 제공한다.
코드 문서나 API 레퍼런스처럼 정확한 키워드가 중요한 도메인에서 순수 벡터 검색 대비 하이브리드 검색이 훨씬 좋은 결과를 보인다. LangChain의 EnsembleRetriever로 BM25Retriever와 벡터 리트리버를 합칠 수 있다. alpha 값(0~1)으로 두 방식의 가중치를 조절한다.