OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2401.04468

VILA:面向视觉语言理解与生成的可扩展开源模型

 
  reverie ·  2026-04-14 11:01:26 · 13 次点击  · 0 条评论  

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

作者: Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, Chetwin Low, Tuyen Hoang, Jie Wu, Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng

提交日期: 2024年1月9日

摘要:
对基于文本描述生成高保真视频的需求日益增长,推动了该领域的重大研究。在这项工作中,我们提出了 MagicVideo-V2,它将文生图模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到一个端到端的视频生成流程中。得益于这些架构设计,MagicVideo-V2 能够生成具有卓越保真度和流畅性的、美观的高分辨率视频。通过大规模用户评估,它展示了优于领先的文生视频系统(如 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型)的性能。

主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 人工智能 (cs.AI)

arXiv标识符: arXiv:2401.04468

13 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 11 ms
Developed with Cursor