VideoPoet: 用于零样本视频生成的大语言模型

作者: Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Rachel Hornung, Hartwig Adam, Hassan Akbari, Yair Alon, Vighnesh Birodkar, Yong Cheng, Ming-Chang Chiu, Josh Dillon, Irfan Essa, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, David Ross, Grant Schindler, Mikhail Sirotenko, Kihyuk Sohn, Krishna Somandepalli, Huisheng Wang, Jimmy Yan, Ming-Hsuan Yang, Xuan Yang, Bryan Seybold, Lu Jiang

提交日期: 2023年12月21日 (v1)

主题分类: 计算机视觉与模式识别 (cs.CV); 人工智能 (cs.AI)

摘要:
本文提出了 VideoPoet，这是一个能够从多种条件信号中合成高质量视频（并匹配音频）的语言模型。VideoPoet 采用仅解码器的 Transformer 架构，能够处理多模态输入，包括图像、视频、文本和音频。其训练协议遵循大语言模型 (LLM) 的范式，包含两个阶段：预训练和任务特定适应。在预训练期间，VideoPoet 在自回归 Transformer 框架内融合了多种多模态生成目标。预训练好的 LLM 可作为基础模型，适应于一系列视频生成任务。本文展示了实证结果，证明了该模型在零样本视频生成方面具备最先进的能力，特别突出了 VideoPoet 生成高保真运动的能力。

项目页面: http://sites.research.google/videopoet/

论文地址：https://arxiv.org/abs/2312.14125v1

39 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

VideoPoet：统一语言建模框架下的视频生成与编辑方法

VideoPoet: 用于零样本视频生成的大语言模型