Levon Khachatryan, Andranik Movsisyan, Vahram Tadevosyan, Roberto Henschel, Zhangyang Wang, Shant Navasardyan, Humphrey Shi
近期文本到视频生成方法依赖于计算量庞大的训练过程,并需要大规模视频数据集。本文提出了一项新的零样本文本到视频生成任务,并提出了一种低成本方法(无需任何训练或优化),通过利用现有文本到图像合成方法(如 Stable Diffusion)的能力,使其适用于视频领域。
本文的关键改进包括:(i)用运动动态丰富生成帧的潜在编码,以保持全局场景和背景在时间上的一致性;(ii)使用每帧对第一帧的新型跨帧注意力机制重新编程帧级自注意力,以保留前景对象的上下文、外观和身份。
实验表明,该方法具有低开销、高质量且显著一致的视频生成能力。此外,本文方法不仅限于文本到视频合成,还适用于其他任务,如条件式和内容专用化视频生成,以及 Video Instruct-Pix2Pix(即指导性视频编辑)。实验表明,尽管没有在额外视频数据上进行训练,本文方法的表现与近期方法相当,有时甚至更好。
计算机视觉与模式识别 (cs.CV)
https://github.com/Picsart-AI-Research/Text2Video-Zero