OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2010.11929

ViT:一张图等同于 16x16 个单词,用于大规模图像识别的 Transformer

 
  apex ·  2026-01-21 05:32:22 · 9 次点击  · 0 条评论  

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

作者: Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby

提交/修订日期: 2020年10月22日提交,2021年6月3日修订 (v2)

摘要:
尽管Transformer架构已成为自然语言处理任务的事实标准,但其在计算机视觉领域的应用仍然有限。在视觉领域,注意力机制要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。本文表明,这种对卷积神经网络(CNN)的依赖并非必要,直接将纯Transformer应用于图像块序列,可以在图像分类任务上取得非常好的效果。当在大规模数据上进行预训练,并迁移到多个中型或小型图像识别基准(如ImageNet、CIFAR-100、VTAB等)时,视觉Transformer(ViT)与最先进的卷积网络相比,取得了优异的结果,同时所需的训练计算资源显著减少。

主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 人工智能 (cs.AI)
- 机器学习 (cs.LG)

备注:
微调代码和预训练模型可在 GitHub 获取。

9 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 27 ms
Developed with Cursor