데이터
하이브리드 검색
Hybrid Search

키워드 기반 검색(BM25)과 의미 기반 벡터 검색을 결합해 두 방식의 장점을 모두 취하는 검색 기법. RAG의 검색 품질을 높이는 가장 실용적인 방법이다.

개념 설명

벡터 검색은 의미가 비슷한 문서를 잘 찾지만, "GPT-4o-2024-11-20"처럼 정확한 키워드나 고유명사를 찾는 데 약하다. BM25 같은 키워드 검색은 정확한 단어 매칭에 강하지만 의미 유사성을 모른다. 하이브리드 검색은 두 방식으로 각각 검색한 결과를 RRF(Reciprocal Rank Fusion)로 합쳐 두 방식의 장단점을 보완한다.

Elasticsearch, Weaviate, Pinecone, Qdrant 등 주요 벡터 DB가 하이브리드 검색을 기본 기능으로 제공한다.

사용 예시

코드 문서나 API 레퍼런스처럼 정확한 키워드가 중요한 도메인에서 순수 벡터 검색 대비 하이브리드 검색이 훨씬 좋은 결과를 보인다. LangChain의 EnsembleRetriever로 BM25Retriever와 벡터 리트리버를 합칠 수 있다. alpha 값(0~1)으로 두 방식의 가중치를 조절한다.

#키워드검색#의미검색#BM25
← AI Wiki에서 더 보기