텍스트나 이미지를 입력으로 받아 동영상을 자동 생성하는 AI 기술. Sora 공개 이후 영상 제작의 패러다임이 바뀌고 있다.
텍스트-이미지 생성이 정적 이미지라면, AI 비디오 생성은 시간 축이 추가된다. 일관된 물리 법칙과 장면 연속성을 유지하며 수십 초 분량의 영상을 생성하는 것이 핵심 기술 도전이다. OpenAI Sora, Google Veo, Runway Gen-3, Kling 등이 주요 플레이어다. 텍스트 설명 외에 참조 이미지를 주거나 기존 영상을 변환하는 방식도 지원한다.
광고 소재 프로토타입, 교육 콘텐츠 초안, 게임 컷신 스토리보드 등 영상 제작 초기 단계에서 빠르게 아이디어를 시각화하는 용도로 쓰인다. Runway API나 Kling API를 앱에 통합하면 사용자가 텍스트만 입력해도 짧은 클립을 생성하는 기능을 구현할 수 있다. 현재는 2분 이내 짧은 영상에서 강점을 보이며, 긴 영상이나 복잡한 내러티브 일관성은 아직 한계가 있다.