OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2312.14125

VideoPoet:统一语言模型框架下的视频生成、理解与编辑

 
  docker ·  2026-02-15 13:08:35 · 3 次点击  · 0 条评论  

VideoPoet: A Large Language Model for Zero-Shot Video Generation

作者: Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Josh Dillon, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsuan Yang, Irfan Essa, Huisheng Wang, David A. Ross, Bryan Seybold, Lu Jiang

摘要: 本文提出了 VideoPoet,这是一个能够从多种条件信号(包括图像、视频、文本和音频)中合成高质量视频并匹配音频的语言模型。VideoPoet 采用仅解码器的 Transformer 架构来处理多模态输入。其训练协议遵循大语言模型(LLMs)的两阶段范式:预训练和任务特定适配。在预训练阶段,VideoPoet 在自回归 Transformer 框架内融合了多种多模态生成目标。预训练好的 LLM 可作为基础模型,适配于一系列视频生成任务。本文展示了该模型在零样本视频生成方面的先进能力,特别强调了 VideoPoet 生成高保真运动的能力。

主题分类: 计算机视觉与模式识别 (cs.CV); 人工智能 (cs.AI)

提交与修订日期: 2023年12月21日提交,2024年6月4日修订(当前版本 v4)

备注: 该论文将发表于 ICML 2024。项目页面:http://sites.research.google/videopoet/

3 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 13 ms
Developed with Cursor