MAGVIT: Masked Generative Video Transformer
Lijun Yu, Yong Cheng, Kihyuk Sohn, José Lezama, Han Zhang, Huiwen Chang, Alexander G. Hauptmann, Ming-Hsuan Yang, Yuan Hao, Irfan Essa, Lu Jiang
本文提出 MAGVIT(MAsked Generative VIdeo Transformer),旨在用一个统一的模型处理多种视频合成任务。主要贡献包括:
- 引入 3D tokenizer,将视频量化为时空视觉 token。
- 提出一种用于 掩码视频 token 建模 的嵌入方法,以支持多任务学习。
实验结果表明:
1. 质量:MAGVIT 在三个视频生成基准(包括具有挑战性的 Kinetics-600)上取得了最好的 FVD 指标,优于现有最先进方法。
2. 效率:推理速度比扩散模型快两个数量级,比自回归模型快 60 倍。
3. 灵活性:单个 MAGVIT 模型可支持十种不同的生成任务,并在不同视觉领域的视频中具有良好的泛化能力。