DragNUWA: 通过集成文本、图像和轨迹实现视频生成的细粒度控制

作者： Shengming Yin, Chenfei Wu, Jian Liang, Jie Shi, Houqiang Li, Gong Ming, Nan Duan

提交日期： 2023年8月16日

主题分类： 计算机视觉与模式识别 (cs.CV)

摘要：
可控视频生成近年来受到了广泛关注。然而，目前的研究存在两个主要局限：首先，大多数现有工作仅关注基于文本、图像或轨迹的单一控制方式，导致无法实现对视频的细粒度控制。其次，轨迹控制研究仍处于早期阶段，大多数实验仅在简单数据集（如 Human3.6M）上进行。这种限制使得模型难以处理开放域图像并有效处理复杂的曲线轨迹。

本文提出了 DragNUWA，一个基于扩散模型的开放域视频生成模型。为了解决现有工作中控制粒度不足的问题，我们同时引入了文本、图像和轨迹信息，从语义、空间和时间三个维度对视频内容提供细粒度控制。为了解决当前研究中开放域轨迹控制受限的问题，我们提出了三个方面的轨迹建模方法：一个轨迹采样器（TS）以实现对任意轨迹的开放域控制，一个多尺度融合（MF）模块以在不同粒度上控制轨迹，以及一个自适应训练（AT）策略来生成遵循轨迹的一致性视频。我们的实验验证了 DragNUWA 的有效性，证明了其在视频生成细粒度控制方面的优越性能。

项目主页： https://www.microsoft.com/en-us/research/project/dragnuwa/

论文地址：https://arxiv.org/abs/2308.08089

23 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

DragNUWA：支持轨迹控制的文本到视频生成框架

DragNUWA: 通过集成文本、图像和轨迹实现视频生成的细粒度控制