OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2309.16588

Vision Transformers Need Registers:为视觉 Transformer 引入寄存器提升表示稳定性

 
  hunterx ·  2026-05-27 11:01:22 · 1 次点击  · 0 条评论  
# Vision Transformers Need Registers

- **作者:** Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
- **分类:** Computer Vision and Pattern Recognition (cs.CV)
- **提交日期:** 2023-09-28(v1),最后修订于 2024-04-12(v2)

## 摘要

Transformer 已成为学习视觉表征的强大工具。本文识别并刻画了监督和自监督 ViT 网络中特征图中的伪影。这些伪影表现为推理过程中主要出现在图像低信息背景区域的高范数 token,这些 token 被重新用于内部计算。我们提出了一种简单而有效的解决方案:向 Vision Transformer 的输入序列中提供额外的 token 来承担该角色。实验表明,该方案能完全解决监督和自监督模型中的这一问题,在密集视觉预测任务上为自监督视觉模型树立了新的最先进水平,使得更大模型的对象发现方法成为可能,并且最关键的是,为下游视觉处理提供了更平滑的特征图和注意力图。
1 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 15 ms
Developed with Cursor