Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

作者： Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu, Xinggang Wang

提交/修订日期： 2024年1月17日提交，2024年11月14日修订 (v3)

主题分类： Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

摘要：
最近，具有高效硬件感知设计的状态空间模型（SSMs），即 Mamba 深度学习模型，在长序列建模方面展现出巨大潜力。同时，完全基于 SSMs 构建高效且通用的视觉主干网络是一个有吸引力的方向。然而，由于视觉数据的位置敏感性以及视觉理解对全局上下文的要求，用 SSMs 表示视觉数据具有挑战性。

本文表明，视觉表示学习对自注意力机制的依赖并非必要，并提出了一种新的通用视觉主干网络——双向 Mamba 块（Vim）。该方法通过位置嵌入标记图像序列，并利用双向状态空间模型压缩视觉表示。在 ImageNet 分类、COCO 目标检测和 ADE20k 语义分割任务上，Vim 相比成熟的视觉 Transformer（如 DeiT）实现了更高的性能，同时显著提升了计算和内存效率。例如，在对分辨率为 1248×1248 的图像进行批量推理以提取特征时，Vim 的速度比 DeiT 快 2.8 倍，并节省了 86.8% 的 GPU 内存。结果表明，Vim 能够克服在高分辨率图像上执行 Transformer 式理解的计算和内存限制，并具有成为下一代视觉基础模型主干网络的巨大潜力。

代码地址： https://github.com/hustvl/Vim

备注： Vision Mamba (Vim) 已被 ICML 2024 接收。

论文地址：https://arxiv.org/abs/2401.09417

12 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

V-JEPA：通过预测视频抽象表示学习世界模型

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model