作者: Zhengzhong Tu, Hossein Talebi, Han Zhang, Feng Yang, Peyman Milanfar, Alan Bovik, Yinxiao Li
提交/修订日期: 2022年4月4日提交,2022年9月9日修订 (v4)
主题/分类: 计算机视觉与模式识别 (cs.CV); 人工智能 (cs.AI); 机器学习 (cs.LG)
摘要:
Transformer 模型近期在计算机视觉领域获得了广泛关注。然而,自注意力机制在处理图像大小时缺乏可扩展性,限制了其在先进视觉骨干网络中的广泛应用。本文提出了一种高效且可扩展的注意力模型,称为多轴注意力 (multi-axis attention),它包含两个方面:分块的局部注意力和扩张的全局注意力。这些设计使得模型能够在任意输入分辨率下,仅以线性复杂度实现全局-局部的空间交互。我们还提出了一种新的架构元素,将所提出的注意力模型与卷积有效融合,并据此提出了一种简单的分层视觉骨干网络,称为 MaxViT,其基本构建块在多个阶段重复堆叠。值得注意的是,MaxViT 能够在整个网络中实现全局“视野”,即使在早期的高分辨率阶段也是如此。我们在广泛的视觉任务上验证了模型的有效性。在图像分类任务上,MaxViT 在各种设置下均达到了最先进的性能:在不使用额外数据的情况下,MaxViT 在 ImageNet-1K 上获得了 86.5% 的 top-1 准确率;使用 ImageNet-21K 预训练后,模型达到了 88.7% 的 top-1 准确率。对于下游任务,MaxViT 作为骨干网络在目标检测和视觉美学评估任务上也表现优异。我们还展示了所提模型在 ImageNet 上具备强大的生成建模能力,证明了 MaxViT 模块作为通用视觉模块的优越潜力。源代码和训练模型将在 https://github.com/google-research/maxvit 发布。
备注: ECCV 2022 收录论文。