MAGVIT: Masked Generative Video Transformer

标题

MAGVIT: Masked Generative Video Transformer

作者

Lijun Yu, Yong Cheng, Kihyuk Sohn, José Lezama, Han Zhang, Huiwen Chang, Alexander G. Hauptmann, Ming-Hsuan Yang, Yuan Hao, Irfan Essa, Lu Jiang

摘要

本文提出 MAGVIT（MAsked Generative VIdeo Transformer），旨在用一个统一的模型处理多种视频合成任务。主要贡献包括：
- 引入 3D tokenizer，将视频量化为时空视觉 token。
- 提出一种用于 掩码视频 token 建模 的嵌入方法，以支持多任务学习。

实验结果表明：
1. 质量：MAGVIT 在三个视频生成基准（包括具有挑战性的 Kinetics-600）上取得了最好的 FVD 指标，优于现有最先进方法。
2. 效率：推理速度比扩散模型快两个数量级，比自回归模型快 60 倍。
3. 灵活性：单个 MAGVIT 模型可支持十种不同的生成任务，并在不同视觉领域的视频中具有良好的泛化能力。

主题/分类

Primary Subject：计算机视觉与模式识别（cs.CV）

备注

该论文被 CVPR 2023 接收为 highlight 论文。
首次提交日期：2022 年 12 月 10 日；最后修订版本（v2）日期：2023 年 4 月 5 日。
源代码和训练模型将在 https://magvit.cs.cmu.edu 公开发布。

论文地址：https://arxiv.org/abs/2212.05199

32 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

MAGVIT：高质量视频生成的掩码生成式视觉标记器

MAGVIT: Masked Generative Video Transformer

标题

作者

摘要

主题/分类

备注