作者: Mingyu Ding, Bin Xiao, Noel Codella, Ping Luo, Jingdong Wang, Lu Yuan
提交日期: 2022年4月7日
主题/分类: 计算机视觉与模式识别 (cs.CV)
摘要:
本文提出了双注意力视觉变换器(DaViT),这是一种简单而有效的视觉变换器架构,能够在保持计算效率的同时捕获全局上下文信息。我们从一个正交的角度来解决这个问题:同时利用“空间令牌”和“通道令牌”的自注意力机制。对于空间令牌,空间维度定义了令牌的范围,而通道维度定义了令牌的特征维度。对于通道令牌,情况则相反:通道维度定义了令牌的范围,而空间维度定义了令牌的特征维度。我们进一步对空间和通道令牌沿序列方向进行分组,以保持整个模型的线性复杂度。我们证明了这两种自注意力机制是互补的:(i) 由于每个通道令牌都包含了整幅图像的抽象表示,通道注意力在计算通道间的注意力分数时考虑了所有空间位置,从而自然地捕获了全局交互和表示;(ii) 空间注意力通过跨空间位置进行细粒度的交互来细化局部表示,这反过来又有助于通道注意力中的全局信息建模。大量实验表明,我们的DaViT在四个不同的任务上以高效的计算实现了最先进的性能。在没有额外数据的情况下,DaViT-Tiny、DaViT-Small和DaViT-Base在ImageNet-1K上分别以28.3M、49.7M和87.9M的参数实现了82.8%、84.2%和84.6%的top-1准确率。当我们使用15亿个弱监督的图像-文本对进一步扩展DaViT时,DaViT-Gaint在ImageNet-1K上达到了90.4%的top-1准确率。代码可在 https://github.com/dingmyu/davit 获取。