作者: Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Josh Dillon, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsuan Yang, Irfan Essa, Huisheng Wang, David A. Ross, Bryan Seybold, Lu Jiang
摘要:
本文提出了 VideoPoet,这是一个能够根据多种条件信号合成高质量视频(并匹配音频)的语言模型。VideoPoet 采用仅解码器的 Transformer 架构,可处理多模态输入,包括图像、视频、文本和音频。其训练协议遵循大语言模型(LLMs)的两阶段流程:预训练和任务特定适应。在预训练阶段,VideoPoet 在自回归 Transformer 框架内融合了多种多模态生成目标。预训练好的 LLM 可作为基础,适应于一系列视频生成任务。我们提供了实证结果,展示了该模型在零样本视频生成方面的先进能力,特别突出了 VideoPoet 生成高保真运动的能力。
项目主页: http://sites.research.google/videopoet/
主题分类:
- 计算机视觉与模式识别 (cs.CV)
- 人工智能 (cs.AI)
提交历史:
- 提交于 2023年12月21日 (v1)
- 修订于 2024年3月22日 (当前版本 v3)
- 最新版本 2024年6月4日 (v4)
引用标识: arXiv:2312.14125 [cs.CV]