Vision Transformers Need Registers：为视觉 Transformer 引入寄存器提升表示稳定性

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

# Vision Transformers Need Registers

- **作者:** Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
- **分类:** Computer Vision and Pattern Recognition (cs.CV)
- **提交日期:** 2023-09-28（v1），最后修订于 2024-04-12（v2）

## 摘要

Transformer 已成为学习视觉表征的强大工具。本文识别并刻画了监督和自监督 ViT 网络中特征图中的伪影。这些伪影表现为推理过程中主要出现在图像低信息背景区域的高范数 token，这些 token 被重新用于内部计算。我们提出了一种简单而有效的解决方案：向 Vision Transformer 的输入序列中提供额外的 token 来承担该角色。实验表明，该方案能完全解决监督和自监督模型中的这一问题，在密集视觉预测任务上为自监督视觉模型树立了新的最先进水平，使得更大模型的对象发现方法成为可能，并且最关键的是，为下游视觉处理提供了更平滑的特征图和注意力图。

论文地址：https://arxiv.org/abs/2309.16588

41 次点击 ∙ 0 人收藏

登录后收藏

0 条回复