텍스트 설명을 기반으로 영상을 생성하는 모델이다. 2024년 OpenAI Sora 발표 이후 글로벌 경쟁이 심화됐다. 모델은 보통 트랜스포머 또는 디퓨전 아키텍처 기반이며, 입력 텍스트를 인코딩한 뒤 시간축을 가진 잠재 공간에서 프레임을 점진적으로 생성한다. 평가 지표로는 영상 품질(해상도·아티팩트), 시간적 일관성(연속 프레임 간 일관성), 텍스트 정합성, 생성 속도·비용이 사용된다. Runway, Pika, Luma, Kling, MiniMax, Alibaba HappyHorse 등이 상업 모델을 운영 중이다.
텍스트-투-비디오
aka Text-to-Video
자연어 프롬프트를 입력하면 그에 맞는 영상 클립을 생성하는 AI 모델 카테고리