OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2303.13439

Text2Video-Zero:无需额外训练的零样本文本到视频生成

 
  bank ·  2026-06-12 11:01:17 · 14 次点击  · 0 条评论  

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

作者

Levon Khachatryan, Andranik Movsisyan, Vahram Tadevosyan, Roberto Henschel, Zhangyang Wang, Shant Navasardyan, Humphrey Shi

摘要

近期文本到视频生成方法依赖于计算量庞大的训练过程,并需要大规模视频数据集。本文提出了一项新的零样本文本到视频生成任务,并提出了一种低成本方法(无需任何训练或优化),通过利用现有文本到图像合成方法(如 Stable Diffusion)的能力,使其适用于视频领域。

本文的关键改进包括:(i)用运动动态丰富生成帧的潜在编码,以保持全局场景和背景在时间上的一致性;(ii)使用每帧对第一帧的新型跨帧注意力机制重新编程帧级自注意力,以保留前景对象的上下文、外观和身份。

实验表明,该方法具有低开销、高质量且显著一致的视频生成能力。此外,本文方法不仅限于文本到视频合成,还适用于其他任务,如条件式和内容专用化视频生成,以及 Video Instruct-Pix2Pix(即指导性视频编辑)。实验表明,尽管没有在额外视频数据上进行训练,本文方法的表现与近期方法相当,有时甚至更好。

主题/分类

计算机视觉与模式识别 (cs.CV)

代码

https://github.com/Picsart-AI-Research/Text2Video-Zero

14 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 16 ms
Developed with Cursor