Video Diffusion Models

作者: Jonathan Ho, Tim Salimans, Alexey Gritsenko, William Chan, Mohammad Norouzi, David J. Fleet

提交/修订日期: 2022年4月7日提交，2022年6月22日修订

摘要:
生成时间上连贯的高保真视频是生成建模研究的一个重要里程碑。本文通过提出一个用于视频生成的扩散模型，朝着这一里程碑取得了进展，该模型显示出非常有前景的初步结果。我们的模型是标准图像扩散架构的自然扩展，它支持从图像和视频数据中进行联合训练，我们发现这可以减少小批量梯度的方差并加速优化。为了生成长时长和更高分辨率的视频，我们引入了一种新的用于空间和时间视频扩展的条件采样技术，其性能优于先前提出的方法。我们首次展示了一个大规模文本条件视频生成任务的结果，并在视频预测和无条件视频生成的既定基准上取得了最先进的结果。补充材料可在 https://video-diffusion.github.io/ 获取。