作者: Shengming Yin, Chenfei Wu, Jian Liang, Jie Shi, Houqiang Li, Gong Ming, Nan Duan
提交日期: 2023年8月16日
主题分类: 计算机视觉与模式识别 (cs.CV)
摘要:
可控视频生成近年来受到了广泛关注。然而,目前的研究存在两个主要局限:首先,大多数现有工作仅关注基于文本、图像或轨迹的单一控制方式,导致无法实现对视频的细粒度控制。其次,轨迹控制研究仍处于早期阶段,大多数实验仅在简单数据集(如 Human3.6M)上进行。这种限制使得模型难以处理开放域图像并有效处理复杂的曲线轨迹。
本文提出了 DragNUWA,一个基于扩散模型的开放域视频生成模型。为了解决现有工作中控制粒度不足的问题,我们同时引入了文本、图像和轨迹信息,从语义、空间和时间三个维度对视频内容提供细粒度控制。为了解决当前研究中开放域轨迹控制受限的问题,我们提出了三个方面的轨迹建模方法:一个轨迹采样器(TS)以实现对任意轨迹的开放域控制,一个多尺度融合(MF)模块以在不同粒度上控制轨迹,以及一个自适应训练(AT)策略来生成遵循轨迹的一致性视频。我们的实验验证了 DragNUWA 的有效性,证明了其在视频生成细粒度控制方面的优越性能。
项目主页: https://www.microsoft.com/en-us/research/project/dragnuwa/