作者: Jonathan Ho, Tim Salimans, Alexey Gritsenko, William Chan, Mohammad Norouzi, David J. Fleet
提交/修订日期: 2022年4月7日提交,2022年6月22日修订
摘要:
生成时间上连贯的高保真视频是生成建模研究的一个重要里程碑。本文通过提出一个用于视频生成的扩散模型,朝着这一里程碑取得了进展,该模型显示出非常有前景的初步结果。我们的模型是标准图像扩散架构的自然扩展,它支持从图像和视频数据中进行联合训练,我们发现这可以减少小批量梯度的方差并加速优化。为了生成长时长和更高分辨率的视频,我们引入了一种新的用于空间和时间视频扩展的条件采样技术,其性能优于先前提出的方法。我们首次展示了一个大规模文本条件视频生成任务的结果,并在视频预测和无条件视频生成的既定基准上取得了最先进的结果。补充材料可在 https://video-diffusion.github.io/ 获取。
主题/分类: 计算机视觉与模式识别 (cs.CV); 人工智能 (cs.AI); 机器学习 (cs.LG)