MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model
Zhongcong Xu, Jianfeng Zhang, Jun Hao Liew, Hanshu Yan, Jia-Wei Liu, Chenxu Zhang, Jiashi Feng, Mike Zheng Shou
本文研究人类图像动画任务,旨在根据特定的运动序列生成某一参考身份的视频。现有的动画工作通常采用帧变形(frame-warping)技术将参考图像朝向目标运动进行动画化。尽管取得了合理的结果,但这些方法由于缺乏时间建模以及对参考身份的保持不足,在动画过程中难以维持时间一致性。在本工作中,我们提出 MagicAnimate,一个基于扩散模型(diffusion model)的框架,旨在增强时间一致性、忠实保留参考图像并提高动画保真度。为此,我们首先开发了一个视频扩散模型来编码时间信息。其次,为保持帧间外观一致性,我们引入了一个新颖的外观编码器(appearance encoder)来保留参考图像的复杂细节。基于这两项创新,我们进一步采用了一个简单的视频融合技术来促进长视频动画中的平滑过渡。实验结果表明,我们的方法在两个基准数据集上均优于基线方法。值得注意的是,在具有挑战性的 TikTok 舞蹈数据集上,我们的方法在视频保真度方面比最强基线高出超过 38%。代码和模型将公开发布。