OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2212.05199

MAGVIT:高质量视频生成的掩码生成式视觉标记器

 
  queen ·  2026-05-25 11:01:20 · 8 次点击  · 0 条评论  

MAGVIT: Masked Generative Video Transformer

标题

MAGVIT: Masked Generative Video Transformer

作者

Lijun Yu, Yong Cheng, Kihyuk Sohn, José Lezama, Han Zhang, Huiwen Chang, Alexander G. Hauptmann, Ming-Hsuan Yang, Yuan Hao, Irfan Essa, Lu Jiang

摘要

本文提出 MAGVIT(MAsked Generative VIdeo Transformer),旨在用一个统一的模型处理多种视频合成任务。主要贡献包括:
- 引入 3D tokenizer,将视频量化为时空视觉 token。
- 提出一种用于 掩码视频 token 建模 的嵌入方法,以支持多任务学习。

实验结果表明:
1. 质量:MAGVIT 在三个视频生成基准(包括具有挑战性的 Kinetics-600)上取得了最好的 FVD 指标,优于现有最先进方法。
2. 效率:推理速度比扩散模型快两个数量级,比自回归模型快 60 倍。
3. 灵活性:单个 MAGVIT 模型可支持十种不同的生成任务,并在不同视觉领域的视频中具有良好的泛化能力。

主题/分类

  • Primary Subject:计算机视觉与模式识别(cs.CV)

备注

  • 该论文被 CVPR 2023 接收为 highlight 论文。
  • 首次提交日期:2022 年 12 月 10 日;最后修订版本(v2)日期:2023 年 4 月 5 日。
  • 源代码和训练模型将在 https://magvit.cs.cmu.edu 公开发布。
8 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 17 ms
Developed with Cursor