Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

作者： Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip H.S. Torr, Li Zhang

提交/修订日期： 2020年12月31日提交，2021年7月25日修订 (v3)

主题/分类： 计算机视觉与模式识别 (cs.CV)

简介/摘要：
大多数现有的语义分割方法采用基于编码器-解码器架构的全卷积网络 (FCN)。编码器逐步降低空间分辨率，并利用更大的感受野学习更抽象/语义的视觉概念。由于上下文建模对分割至关重要，最新的研究重点是通过空洞卷积或插入注意力模块来增大感受野。然而，基于编码器-解码器的FCN架构本身并未改变。

本文旨在提供一个全新的视角，将语义分割视为一个序列到序列的预测任务。具体来说，我们部署了一个纯Transformer（即不使用卷积和分辨率降低）将图像编码为一系列图像块序列。由于Transformer的每一层都建模了全局上下文，这种编码器可以与一个简单的解码器结合，形成一个强大的分割模型，称为SEgmentation TRansformer (SETR)。

大量实验表明，SETR在ADE20K (50.28% mIoU)、Pascal Context (55.83% mIoU) 数据集上取得了新的最优性能，并在Cityscapes数据集上取得了具有竞争力的结果。特别地，在提交当天，我们在竞争激烈的ADE20K测试服务器排行榜上获得了第一名。

备注： CVPR 2021。项目页面：https://fudan-zvg.github.io/SETR/

论文地址：https://arxiv.org/abs/2012.15840

32 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

SETR：将语义分割建模为纯 Transformer 序列到序列任务

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers