OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2308.08089

DragNUWA:支持轨迹控制的文本到视频生成框架

 
  graphql ·  2026-04-04 11:01:31 · 1 次点击  · 0 条评论  

DragNUWA: 通过集成文本、图像和轨迹实现视频生成的细粒度控制

作者: Shengming Yin, Chenfei Wu, Jian Liang, Jie Shi, Houqiang Li, Gong Ming, Nan Duan

提交日期: 2023年8月16日

主题分类: 计算机视觉与模式识别 (cs.CV)

摘要:
可控视频生成近年来受到了广泛关注。然而,目前的研究存在两个主要局限:首先,大多数现有工作仅关注基于文本、图像或轨迹的单一控制方式,导致无法实现对视频的细粒度控制。其次,轨迹控制研究仍处于早期阶段,大多数实验仅在简单数据集(如 Human3.6M)上进行。这种限制使得模型难以处理开放域图像并有效处理复杂的曲线轨迹。

本文提出了 DragNUWA,一个基于扩散模型的开放域视频生成模型。为了解决现有工作中控制粒度不足的问题,我们同时引入了文本、图像和轨迹信息,从语义、空间和时间三个维度对视频内容提供细粒度控制。为了解决当前研究中开放域轨迹控制受限的问题,我们提出了三个方面的轨迹建模方法:一个轨迹采样器(TS)以实现对任意轨迹的开放域控制,一个多尺度融合(MF)模块以在不同粒度上控制轨迹,以及一个自适应训练(AT)策略来生成遵循轨迹的一致性视频。我们的实验验证了 DragNUWA 的有效性,证明了其在视频生成细粒度控制方面的优越性能。

项目主页: https://www.microsoft.com/en-us/research/project/dragnuwa/

1 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 39 ms
Developed with Cursor