텍스트뿐 아니라 이미지, 표, 차트를 포함한 문서에서 검색하고 답변하는 RAG 확장. PDF나 프레젠테이션처럼 시각적 요소가 섞인 비즈니스 문서 처리에 필수다.
기업 문서의 상당 부분은 텍스트만이 아니다. 연간 보고서의 재무 차트, 기술 문서의 다이어그램, 발표 자료의 이미지에 중요한 정보가 있다. 일반 RAG는 이 시각적 정보를 무시한다. 멀티모달 RAG는 문서의 이미지·차트를 VLM으로 분석해 의미 있는 텍스트 설명으로 변환하거나, CLIP 같은 멀티모달 임베딩으로 직접 이미지를 벡터로 저장해 검색한다.
ColPali는 문서 페이지 자체를 이미지로 임베딩해 레이아웃과 시각 정보를 보존하는 새로운 접근으로 2024년 주목받았다.
기술 매뉴얼 PDF에서 다이어그램을 GPT-4o로 설명문으로 변환하고 텍스트 청크와 함께 인덱싱하면, "배선도에서 A 모듈과 B 모듈의 연결 방식은?"에도 답할 수 있다. Unstructured.io나 LlamaParse가 PDF에서 표·이미지·텍스트를 분리하는 파이프라인을 제공한다.