标题: Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models
作者: Songwei Ge, Seungjun Nah, Guilin Liu, Tyler Poon, Andrew Tao, Bryan Catanzaro, David Jacobs, Jia-Bin Huang, Ming-Yu Liu, Yogesh Balaji
摘要:
尽管利用扩散模型生成高质量图像已取得巨大进展,但合成既逼真又具有时间连贯性的动画帧序列仍处于起步阶段。虽然用于图像生成的现成十亿级数据集是可用的,但收集同等规模的视频数据仍然具有挑战性。此外,训练视频扩散模型的计算成本远高于其图像对应模型。在这项工作中,我们探索使用视频数据对预训练的图像扩散模型进行微调,作为视频合成任务的一种实用解决方案。我们发现,在视频扩散中将图像噪声先验简单地扩展到视频噪声先验会导致次优性能。我们精心设计的视频噪声先验带来了显著更好的性能。广泛的实验验证表明,我们的模型——保持自身相关性(PYoCo)——在 UCF-101 和 MSR-VTT 基准测试中获得了最先进的零样本文本到视频结果。它还在小规模 UCF-101 基准测试上实现了最先进的视频生成质量,使用的模型比现有技术小 $10\times$,且计算量显著减少。
主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 图形学 (cs.GR)
- 机器学习 (cs.LG)
提交/修订历史:
- 提交于 2023年5月17日 (v1)
- 最后修订于 2024年3月26日 (v3)
备注: ICCV 2023。项目网页: https://research.nvidia.com/labs/dir/pyoco