VideoPoet: A Large Language Model for Zero-Shot Video Generation

作者

Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Josh Dillon, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsuan Yang, Irfan Essa, Huisheng Wang, David A. Ross, Bryan Seybold, Lu Jiang

摘要

本文提出 VideoPoet，一种能够从多种条件信号中合成高质量视频（并匹配相应音频）的语言模型。VideoPoet 采用仅解码器（decoder-only）的 Transformer 架构，处理包括图像、视频、文本和音频在内的多模态输入。训练流程遵循大型语言模型（LLM）的两阶段方法：预训练和任务特定微调。在预训练阶段，VideoPoet 在自回归 Transformer 框架内融合了多模态生成目标。预训练后的 LLM 可作为基础模型，适用于多种视频生成任务。实验结果表明，该模型在零样本视频生成方面具有最先进的能力，特别突出了 VideoPoet 生成高保真运动的能力。

主题/分类

主要学科： 计算机视觉与模式识别 (cs.CV)
相关学科： 人工智能 (cs.AI)

其他信息

提交日期： 2023年12月21日（v1），最后修订于2024年6月4日（v4）
会议/刊物： 将发表于 ICML 2024
项目页面： http://sites.research.google/videopoet/

论文地址：https://arxiv.org/abs/2312.14125v4

37 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

VCoder：支持界面元素与布局理解的代码生成多模态模型

VideoPoet: A Large Language Model for Zero-Shot Video Generation

作者

摘要

主题/分类

其他信息