MaxViT：多轴注意力视觉 Transformer

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

作者： Zhengzhong Tu, Hossein Talebi, Han Zhang, Feng Yang, Peyman Milanfar, Alan Bovik, Yinxiao Li

提交/修订日期： 2022年4月4日提交，2022年9月9日修订 (v4)

主题/分类： 计算机视觉与模式识别 (cs.CV); 人工智能 (cs.AI); 机器学习 (cs.LG)

摘要：
Transformer 模型近期在计算机视觉领域获得了广泛关注。然而，自注意力机制在处理图像大小时缺乏可扩展性，限制了其在先进视觉骨干网络中的广泛应用。本文提出了一种高效且可扩展的注意力模型，称为多轴注意力 (multi-axis attention)，它包含两个方面：分块的局部注意力和扩张的全局注意力。这些设计使得模型能够在任意输入分辨率下，仅以线性复杂度实现全局-局部的空间交互。我们还提出了一种新的架构元素，将所提出的注意力模型与卷积有效融合，并据此提出了一种简单的分层视觉骨干网络，称为 MaxViT，其基本构建块在多个阶段重复堆叠。值得注意的是，MaxViT 能够在整个网络中实现全局“视野”，即使在早期的高分辨率阶段也是如此。我们在广泛的视觉任务上验证了模型的有效性。在图像分类任务上，MaxViT 在各种设置下均达到了最先进的性能：在不使用额外数据的情况下，MaxViT 在 ImageNet-1K 上获得了 86.5% 的 top-1 准确率；使用 ImageNet-21K 预训练后，模型达到了 88.7% 的 top-1 准确率。对于下游任务，MaxViT 作为骨干网络在目标检测和视觉美学评估任务上也表现优异。我们还展示了所提模型在 ImageNet 上具备强大的生成建模能力，证明了 MaxViT 模块作为通用视觉模块的优越潜力。源代码和训练模型将在 https://github.com/google-research/maxvit 发布。

备注： ECCV 2022 收录论文。

论文地址：https://arxiv.org/abs/2204.01697

30 次点击 ∙ 0 人收藏

登录后收藏

0 条回复