作者: Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, Chetwin Low, Tuyen Hoang, Jie Wu, Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng
提交日期: 2024年1月9日
摘要:
对基于文本描述生成高保真视频的需求日益增长,推动了该领域的重大研究。在这项工作中,我们提出了 MagicVideo-V2,它将文生图模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到一个端到端的视频生成流程中。得益于这些架构设计,MagicVideo-V2 能够生成具有卓越保真度和流畅性的、美观的高分辨率视频。通过大规模用户评估,它展示了优于领先的文生视频系统(如 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型)的性能。
主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 人工智能 (cs.AI)
arXiv标识符: arXiv:2401.04468