作者: Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby
提交/修订日期: 2020年10月22日提交,2021年6月3日修订 (v2)
摘要:
尽管Transformer架构已成为自然语言处理任务的事实标准,但其在计算机视觉领域的应用仍然有限。在视觉领域,注意力机制要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。本文表明,这种对卷积神经网络(CNN)的依赖并非必要,直接将纯Transformer应用于图像块序列,可以在图像分类任务上取得非常好的效果。当在大规模数据上进行预训练,并迁移到多个中型或小型图像识别基准(如ImageNet、CIFAR-100、VTAB等)时,视觉Transformer(ViT)与最先进的卷积网络相比,取得了优异的结果,同时所需的训练计算资源显著减少。
主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 人工智能 (cs.AI)
- 机器学习 (cs.LG)
备注:
微调代码和预训练模型可在 GitHub 获取。