텍스트-투-비디오

aka Text-to-Video

자연어 프롬프트를 입력하면 그에 맞는 영상 클립을 생성하는 AI 모델 카테고리

텍스트 설명을 기반으로 영상을 생성하는 모델이다. 2024년 OpenAI Sora 발표 이후 글로벌 경쟁이 심화됐다. 모델은 보통 트랜스포머 또는 디퓨전 아키텍처 기반이며, 입력 텍스트를 인코딩한 뒤 시간축을 가진 잠재 공간에서 프레임을 점진적으로 생성한다. 평가 지표로는 영상 품질(해상도·아티팩트), 시간적 일관성(연속 프레임 간 일관성), 텍스트 정합성, 생성 속도·비용이 사용된다. Runway, Pika, Luma, Kling, MiniMax, Alibaba HappyHorse 등이 상업 모델을 운영 중이다.

관련 용어

2

언급된 포스트

1