Google DeepMind가 개발한 멀티모달 AI 모델 시리즈. 텍스트, 이미지, 오디오, 비디오를 네이티브로 처리하며 최대 1M 토큰의 롱 컨텍스트를 지원한다.
Gemini는 Google이 GPT-4, Claude에 대응해 내놓은 모델이다. 처음부터 멀티모달로 설계되어 텍스트, 이미지, 오디오, 비디오를 하나의 모델에서 처리한다. 1M 토큰 컨텍스트 윈도우는 경쟁 모델 대비 압도적으로 길어서 긴 문서나 영상 분석에 강점이 있다. Gemini Ultra, Pro, Flash, Nano로 크기별 라인업을 갖추고 있다.
Google AI Studio에서 Gemini API를 바로 테스트하거나, Vertex AI를 통해 프로덕션에 통합할 수 있다. 1시간짜리 영상을 통째로 넣고 "핵심 장면을 요약해줘"라고 할 수 있는 건 Gemini의 롱 컨텍스트 덕분이다. LiteLLM을 통해 Claude, GPT와 같은 인터페이스로 호출할 수도 있다.