DaViT：双注意力机制的视觉 Transformer

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

作者: Mingyu Ding, Bin Xiao, Noel Codella, Ping Luo, Jingdong Wang, Lu Yuan

提交日期: 2022年4月7日

主题/分类: 计算机视觉与模式识别 (cs.CV)

摘要:
本文提出了双注意力视觉变换器（DaViT），这是一种简单而有效的视觉变换器架构，能够在保持计算效率的同时捕获全局上下文信息。我们从一个正交的角度来解决这个问题：同时利用“空间令牌”和“通道令牌”的自注意力机制。对于空间令牌，空间维度定义了令牌的范围，而通道维度定义了令牌的特征维度。对于通道令牌，情况则相反：通道维度定义了令牌的范围，而空间维度定义了令牌的特征维度。我们进一步对空间和通道令牌沿序列方向进行分组，以保持整个模型的线性复杂度。我们证明了这两种自注意力机制是互补的：(i) 由于每个通道令牌都包含了整幅图像的抽象表示，通道注意力在计算通道间的注意力分数时考虑了所有空间位置，从而自然地捕获了全局交互和表示；(ii) 空间注意力通过跨空间位置进行细粒度的交互来细化局部表示，这反过来又有助于通道注意力中的全局信息建模。大量实验表明，我们的DaViT在四个不同的任务上以高效的计算实现了最先进的性能。在没有额外数据的情况下，DaViT-Tiny、DaViT-Small和DaViT-Base在ImageNet-1K上分别以28.3M、49.7M和87.9M的参数实现了82.8%、84.2%和84.6%的top-1准确率。当我们使用15亿个弱监督的图像-文本对进一步扩展DaViT时，DaViT-Gaint在ImageNet-1K上达到了90.4%的top-1准确率。代码可在 https://github.com/dingmyu/davit 获取。

论文地址：https://arxiv.org/abs/2204.03645

30 次点击 ∙ 0 人收藏

登录后收藏

0 条回复