Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

作者

Levon Khachatryan, Andranik Movsisyan, Vahram Tadevosyan, Roberto Henschel, Zhangyang Wang, Shant Navasardyan, Humphrey Shi

摘要

近期文本到视频生成方法依赖于计算量庞大的训练过程，并需要大规模视频数据集。本文提出了一项新的零样本文本到视频生成任务，并提出了一种低成本方法（无需任何训练或优化），通过利用现有文本到图像合成方法（如 Stable Diffusion）的能力，使其适用于视频领域。

本文的关键改进包括：（i）用运动动态丰富生成帧的潜在编码，以保持全局场景和背景在时间上的一致性；（ii）使用每帧对第一帧的新型跨帧注意力机制重新编程帧级自注意力，以保留前景对象的上下文、外观和身份。

实验表明，该方法具有低开销、高质量且显著一致的视频生成能力。此外，本文方法不仅限于文本到视频合成，还适用于其他任务，如条件式和内容专用化视频生成，以及 Video Instruct-Pix2Pix（即指导性视频编辑）。实验表明，尽管没有在额外视频数据上进行训练，本文方法的表现与近期方法相当，有时甚至更好。

主题/分类

计算机视觉与模式识别 (cs.CV)

代码

https://github.com/Picsart-AI-Research/Text2Video-Zero

论文地址：https://arxiv.org/abs/2303.13439

14 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Text2Video-Zero：无需额外训练的零样本文本到视频生成

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

作者

摘要

主题/分类

代码