作者: Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip H.S. Torr, Li Zhang
提交/修订日期: 2020年12月31日提交,2021年7月25日修订 (v3)
主题/分类: 计算机视觉与模式识别 (cs.CV)
简介/摘要:
大多数现有的语义分割方法采用基于编码器-解码器架构的全卷积网络 (FCN)。编码器逐步降低空间分辨率,并利用更大的感受野学习更抽象/语义的视觉概念。由于上下文建模对分割至关重要,最新的研究重点是通过空洞卷积或插入注意力模块来增大感受野。然而,基于编码器-解码器的FCN架构本身并未改变。
本文旨在提供一个全新的视角,将语义分割视为一个序列到序列的预测任务。具体来说,我们部署了一个纯Transformer(即不使用卷积和分辨率降低)将图像编码为一系列图像块序列。由于Transformer的每一层都建模了全局上下文,这种编码器可以与一个简单的解码器结合,形成一个强大的分割模型,称为SEgmentation TRansformer (SETR)。
大量实验表明,SETR在ADE20K (50.28% mIoU)、Pascal Context (55.83% mIoU) 数据集上取得了新的最优性能,并在Cityscapes数据集上取得了具有竞争力的结果。特别地,在提交当天,我们在竞争激烈的ADE20K测试服务器排行榜上获得了第一名。
备注: CVPR 2021。项目页面:https://fudan-zvg.github.io/SETR/