모델
비전-언어 모델
Vision-Language Model

이미지와 텍스트를 함께 이해하고 생성하는 모델. 이미지를 보고 설명하거나, 이미지 속 정보를 바탕으로 질문에 답하는 등 시각과 언어를 연결한다.

개념 설명

텍스트만 처리하던 LLM에 시각 인식 능력을 더한 것이 VLM이다. 이미지를 패치로 분할해 Visual Encoder(주로 ViT)로 임베딩을 추출하고, 이를 언어 모델이 이해할 수 있는 토큰으로 변환해 텍스트와 함께 처리한다. CLIP(2021)이 이미지-텍스트 정렬의 기반을 만들었고, GPT-4V, Claude 3 Vision, Gemini, LLaVA가 이를 발전시켰다.

단순 이미지 설명을 넘어 UI 스크린샷 이해, 차트 분석, 의료 영상 판독, 문서 OCR 등으로 활용 범위가 넓어지고 있다.

사용 예시

Claude나 GPT-4o API에 이미지를 첨부하면 "이 에러 스크린샷이 왜 발생했는지 설명해줘"처럼 시각 정보를 포함한 질문이 가능하다. Figma 디자인 스크린샷을 넣고 코드 구현을 요청하거나, UI 테스트에서 스크린샷과 예상 화면을 비교하는 자동화 파이프라인도 VLM으로 구현된다.

#멀티모달#이미지이해#VLM
← AI Wiki에서 더 보기