텍스트뿐 아니라 이미지, 음성, 영상 등 여러 형태의 데이터를 하나의 모델이 동시에 이해하고 처리하는 AI.
초기 LLM은 텍스트만 처리했다. 멀티모달 모델은 이미지를 보고, 음성을 듣고, 영상을 이해한다. 스크린샷을 보여주면서 "이 UI의 문제점을 찾아줘"라고 할 수 있고, 손으로 그린 와이어프레임을 사진으로 찍어서 "이거 HTML로 만들어줘"라고 할 수 있다.
Claude API에서 이미지를 메시지에 첨부하면 모델이 내용을 이해하고 응답한다. Claude Code에서도 스크린샷을 읽어서 UI 버그를 파악하거나, 에러 화면을 보고 원인을 분석한다.
개발에서 자주 쓰이는 패턴은 디자인 시안(이미지)을 보고 코드를 생성하거나, 다이어그램을 읽고 아키텍처를 설명하거나, PDF 문서의 표와 그래프를 함께 분석하는 것이다. 음성 입출력이 결합되면 실시간 대화형 AI 인터페이스도 가능해진다.