OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2204.03645

DaViT:双注意力机制的视觉 Transformer

 
  editor ·  2025-09-21 21:18:20 · 30 次点击  · 0 条评论  

作者: Mingyu Ding, Bin Xiao, Noel Codella, Ping Luo, Jingdong Wang, Lu Yuan

提交日期: 2022年4月7日

主题/分类: 计算机视觉与模式识别 (cs.CV)

摘要:
本文提出了双注意力视觉变换器(DaViT),这是一种简单而有效的视觉变换器架构,能够在保持计算效率的同时捕获全局上下文信息。我们从一个正交的角度来解决这个问题:同时利用“空间令牌”和“通道令牌”的自注意力机制。对于空间令牌,空间维度定义了令牌的范围,而通道维度定义了令牌的特征维度。对于通道令牌,情况则相反:通道维度定义了令牌的范围,而空间维度定义了令牌的特征维度。我们进一步对空间和通道令牌沿序列方向进行分组,以保持整个模型的线性复杂度。我们证明了这两种自注意力机制是互补的:(i) 由于每个通道令牌都包含了整幅图像的抽象表示,通道注意力在计算通道间的注意力分数时考虑了所有空间位置,从而自然地捕获了全局交互和表示;(ii) 空间注意力通过跨空间位置进行细粒度的交互来细化局部表示,这反过来又有助于通道注意力中的全局信息建模。大量实验表明,我们的DaViT在四个不同的任务上以高效的计算实现了最先进的性能。在没有额外数据的情况下,DaViT-Tiny、DaViT-Small和DaViT-Base在ImageNet-1K上分别以28.3M、49.7M和87.9M的参数实现了82.8%、84.2%和84.6%的top-1准确率。当我们使用15亿个弱监督的图像-文本对进一步扩展DaViT时,DaViT-Gaint在ImageNet-1K上达到了90.4%的top-1准确率。代码可在 https://github.com/dingmyu/davit 获取。

30 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 16 ms
Developed with Cursor