VideoPoet: 用于零样本视频生成的大语言模型

作者: Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Rachel Hornung, Hartwig Adam, Hassan Akbari, Yair Alon, Vighnesh Birodkar, Yong Cheng, Ming-Chang Chiu, Josh Dillon, Irfan Essa, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, David Ross, Grant Schindler, Mikhail Sirotenko, Kihyuk Sohn, Krishna Somandepalli, Huisheng Wang, Jimmy Yan, Ming-Hsuan Yang, Xuan Yang, Bryan Seybold, Lu Jiang

提交/修订日期: 2023年12月21日提交，2024年3月14日修订 (v2)

摘要:
本文介绍了 VideoPoet，这是一个能够根据多种多样的条件信号合成高质量视频（并匹配音频）的语言模型。VideoPoet 采用仅解码器的 Transformer 架构，能够处理多模态输入，包括图像、视频、文本和音频。其训练协议遵循大语言模型 (LLMs) 的两阶段流程：预训练和任务特定适应。在预训练阶段，VideoPoet 在自回归 Transformer 框架内融合了多种多模态生成目标。预训练好的 LLM 可作为基础模型，适应于一系列视频生成任务。本文展示了该模型在零样本视频生成方面具备业界领先能力的实证结果，特别强调了 VideoPoet 生成高保真运动的能力。

主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 人工智能 (cs.AI)

项目页面: http://sites.research.google/videopoet/

论文地址：https://arxiv.org/abs/2312.14125v2

44 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

VideoPoet：统一视频生成、补全与编辑的多模态模型

VideoPoet: 用于零样本视频生成的大语言模型