MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model

标题

作者

Zhongcong Xu, Jianfeng Zhang, Jun Hao Liew, Hanshu Yan, Jia-Wei Liu, Chenxu Zhang, Jiashi Feng, Mike Zheng Shou

摘要

本文研究人类图像动画任务，旨在根据特定的运动序列生成某一参考身份的视频。现有的动画工作通常采用帧变形（frame-warping）技术将参考图像朝向目标运动进行动画化。尽管取得了合理的结果，但这些方法由于缺乏时间建模以及对参考身份的保持不足，在动画过程中难以维持时间一致性。在本工作中，我们提出 MagicAnimate，一个基于扩散模型（diffusion model）的框架，旨在增强时间一致性、忠实保留参考图像并提高动画保真度。为此，我们首先开发了一个视频扩散模型来编码时间信息。其次，为保持帧间外观一致性，我们引入了一个新颖的外观编码器（appearance encoder）来保留参考图像的复杂细节。基于这两项创新，我们进一步采用了一个简单的视频融合技术来促进长视频动画中的平滑过渡。实验结果表明，我们的方法在两个基准数据集上均优于基线方法。值得注意的是，在具有挑战性的 TikTok 舞蹈数据集上，我们的方法在视频保真度方面比最强基线高出超过 38%。代码和模型将公开发布。

主题/分类

主要主题：计算机视觉与模式识别（Computer Vision and Pattern Recognition, cs.CV）
次要主题：图形学（Graphics, cs.GR）

其他信息

提交日期：2023年11月27日
项目页面：https://showlab.github.io/magicanimate

论文地址：https://arxiv.org/abs/2311.16498

2 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

MagicAnimate：基于参考图像与运动序列生成人像视频

MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model

标题

作者

摘要

主题/分类

其他信息