텍스트와 이미지, 오디오 등 서로 다른 형식의 데이터를 같은 벡터 공간에 표현하는 기술. "이 이미지와 비슷한 설명 찾기"처럼 형식을 넘나드는 검색이 가능해진다.
일반 임베딩은 텍스트를 벡터로 변환한다. 멀티모달 임베딩은 텍스트와 이미지를 같은 벡터 공간에 매핑한다. OpenAI의 CLIP 모델이 이 분야를 열었는데, "강아지 사진"이라는 텍스트와 실제 강아지 사진이 벡터 공간에서 가까운 위치에 있도록 학습된다. 서로 다른 형식 간의 의미적 연결을 만드는 것이 핵심이다.
이커머스에서 사용자가 사진을 올리면 비슷한 상품을 텍스트 없이 검색하는 "이미지로 검색" 기능에 멀티모달 임베딩이 쓰인다. 개발할 때는 OpenAI CLIP, Google Vertex AI Multimodal Embeddings API를 활용하면 이미지와 텍스트를 같은 벡터 DB에 넣고 크로스모달 검색을 구현할 수 있다. RAG에서 이미지가 포함된 문서를 처리할 때 이미지 내용도 검색 대상에 포함하려면 멀티모달 임베딩이 필요하다.