# Vision Transformers Need Registers
- **作者:** Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
- **分类:** Computer Vision and Pattern Recognition (cs.CV)
- **提交日期:** 2023-09-28(v1),最后修订于 2024-04-12(v2)
## 摘要
Transformer 已成为学习视觉表征的强大工具。本文识别并刻画了监督和自监督 ViT 网络中特征图中的伪影。这些伪影表现为推理过程中主要出现在图像低信息背景区域的高范数 token,这些 token 被重新用于内部计算。我们提出了一种简单而有效的解决方案:向 Vision Transformer 的输入序列中提供额外的 token 来承担该角色。实验表明,该方案能完全解决监督和自监督模型中的这一问题,在密集视觉预测任务上为自监督视觉模型树立了新的最先进水平,使得更大模型的对象发现方法成为可能,并且最关键的是,为下游视觉处理提供了更平滑的特征图和注意力图。