An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

作者: Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby

提交/修订日期: 2020年10月22日提交，2021年6月3日修订 (v2)

摘要:
尽管Transformer架构已成为自然语言处理任务的事实标准，但其在计算机视觉领域的应用仍然有限。在视觉领域，注意力机制要么与卷积网络结合使用，要么用于替换卷积网络的某些组件，同时保持其整体结构不变。本文表明，这种对卷积神经网络（CNN）的依赖并非必要，直接将纯Transformer应用于图像块序列，可以在图像分类任务上取得非常好的效果。当在大规模数据上进行预训练，并迁移到多个中型或小型图像识别基准（如ImageNet、CIFAR-100、VTAB等）时，视觉Transformer（ViT）与最先进的卷积网络相比，取得了优异的结果，同时所需的训练计算资源显著减少。

主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 人工智能 (cs.AI)
- 机器学习 (cs.LG)

备注:
微调代码和预训练模型可在 GitHub 获取。

论文地址：https://arxiv.org/abs/2010.11929

27 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

ViT：一张图等同于 16x16 个单词，用于大规模图像识别的 Transformer

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale