OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2401.09417

V-JEPA:通过预测视频抽象表示学习世界模型

 
  agency ·  2026-04-16 11:01:25 · 12 次点击  · 0 条评论  

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

作者: Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu, Xinggang Wang

提交/修订日期: 2024年1月17日提交,2024年11月14日修订 (v3)

主题分类: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

摘要:
最近,具有高效硬件感知设计的状态空间模型(SSMs),即 Mamba 深度学习模型,在长序列建模方面展现出巨大潜力。同时,完全基于 SSMs 构建高效且通用的视觉主干网络是一个有吸引力的方向。然而,由于视觉数据的位置敏感性以及视觉理解对全局上下文的要求,用 SSMs 表示视觉数据具有挑战性。

本文表明,视觉表示学习对自注意力机制的依赖并非必要,并提出了一种新的通用视觉主干网络——双向 Mamba 块(Vim)。该方法通过位置嵌入标记图像序列,并利用双向状态空间模型压缩视觉表示。在 ImageNet 分类、COCO 目标检测和 ADE20k 语义分割任务上,Vim 相比成熟的视觉 Transformer(如 DeiT)实现了更高的性能,同时显著提升了计算和内存效率。例如,在对分辨率为 1248×1248 的图像进行批量推理以提取特征时,Vim 的速度比 DeiT 快 2.8 倍,并节省了 86.8% 的 GPU 内存。结果表明,Vim 能够克服在高分辨率图像上执行 Transformer 式理解的计算和内存限制,并具有成为下一代视觉基础模型主干网络的巨大潜力。

代码地址: https://github.com/hustvl/Vim

备注: Vision Mamba (Vim) 已被 ICML 2024 接收。

12 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 11 ms
Developed with Cursor