原论文标题: DaViT: Dual Attention Vision Transformers 作者: Mingyu Ding 等 arXiv: 2204.03645
本文提出了一种新的视觉 Transformer 架构,通过空间 token 和通道 token 上的双注意力机制同时捕获全局与局部信息,并通过序列分组维持计算效率。在多个视觉任务上显示了较强性能。:contentReference[oaicite:1]{index=1}