作者: Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu, Xinggang Wang
提交/修订日期: 2024年1月17日提交,2024年11月14日修订 (v3)
主题分类: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
摘要:
最近,具有高效硬件感知设计的状态空间模型(SSMs),即 Mamba 深度学习模型,在长序列建模方面展现出巨大潜力。同时,完全基于 SSMs 构建高效且通用的视觉主干网络是一个有吸引力的方向。然而,由于视觉数据的位置敏感性以及视觉理解对全局上下文的要求,用 SSMs 表示视觉数据具有挑战性。
本文表明,视觉表示学习对自注意力机制的依赖并非必要,并提出了一种新的通用视觉主干网络——双向 Mamba 块(Vim)。该方法通过位置嵌入标记图像序列,并利用双向状态空间模型压缩视觉表示。在 ImageNet 分类、COCO 目标检测和 ADE20k 语义分割任务上,Vim 相比成熟的视觉 Transformer(如 DeiT)实现了更高的性能,同时显著提升了计算和内存效率。例如,在对分辨率为 1248×1248 的图像进行批量推理以提取特征时,Vim 的速度比 DeiT 快 2.8 倍,并节省了 86.8% 的 GPU 内存。结果表明,Vim 能够克服在高分辨率图像上执行 Transformer 式理解的计算和内存限制,并具有成为下一代视觉基础模型主干网络的巨大潜力。
代码地址: https://github.com/hustvl/Vim
备注: Vision Mamba (Vim) 已被 ICML 2024 接收。