作者: Yuwei Guo, Ceyuan Yang, Anyi Rao, Zhengyang Liang, Yaohui Wang, Yu Qiao, Maneesh Agrawala, Dahua Lin, Bo Dai
提交日期: 2023年7月10日 (v1),最后修订于2024年2月8日 (v2)
摘要:
随着文生图扩散模型(例如 Stable Diffusion)以及相应的个性化技术(如 DreamBooth 和 LoRA)的发展,每个人都能以可负担的成本将想象力转化为高质量图像。然而,为现有的高质量个性化文生图模型添加运动动态,使其能够生成动画,仍然是一个开放的挑战。本文提出了 AnimateDiff,一个无需模型特定调优即可为个性化文生图模型添加动画的实用框架。我们框架的核心是一个即插即用的运动模块,该模块只需训练一次,即可无缝集成到任何源自同一基础文生图模型的个性化模型中。通过我们提出的训练策略,运动模块能够有效地从真实世界视频中学习可迁移的运动先验。训练完成后,运动模块可以被插入到个性化文生图模型中,形成一个个性化的动画生成器。我们进一步提出了 MotionLoRA,这是 AnimateDiff 的一种轻量级微调技术,它使得预训练的运动模块能够以较低的训练和数据收集成本适应新的运动模式(例如不同的镜头类型)。我们在从社区收集的几个具有代表性的公共个性化文生图模型上评估了 AnimateDiff 和 MotionLoRA。结果表明,我们的方法能够帮助这些模型生成时间上平滑的动画片段,同时保持视觉质量和运动多样性。代码和预训练权重可在 https://github.com/guoyww/AnimateDiff 获取。
主题分类:
- 计算机视觉与模式识别 (cs.CV)
- 图形学 (cs.GR)
- 机器学习 (cs.LG)
arXiv标识符: arXiv:2307.04725 [cs.CV]