原论文标题: MaxViT: Multi-Axis Vision Transformer 作者: Zhengzhong Tu 等 arXiv: 2204.01697
为了解决自注意力在大尺寸图像上的扩展性问题,提出了多轴注意力机制,同时结合局部分块与全局扩张注意力,使得模型可以在不同尺度上统一建模视觉信息,在 ImageNet 等视觉任务上表现优异。:contentReference[oaicite:2]{index=2}