OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2012.15840

SETR:将语义分割建模为纯 Transformer 序列到序列任务

 
  user ·  2026-03-27 11:01:32 · 11 次点击  · 0 条评论  

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

作者: Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip H.S. Torr, Li Zhang

提交/修订日期: 2020年12月31日提交,2021年7月25日修订 (v3)

主题/分类: 计算机视觉与模式识别 (cs.CV)

简介/摘要:
大多数现有的语义分割方法采用基于编码器-解码器架构的全卷积网络 (FCN)。编码器逐步降低空间分辨率,并利用更大的感受野学习更抽象/语义的视觉概念。由于上下文建模对分割至关重要,最新的研究重点是通过空洞卷积或插入注意力模块来增大感受野。然而,基于编码器-解码器的FCN架构本身并未改变。

本文旨在提供一个全新的视角,将语义分割视为一个序列到序列的预测任务。具体来说,我们部署了一个纯Transformer(即不使用卷积和分辨率降低)将图像编码为一系列图像块序列。由于Transformer的每一层都建模了全局上下文,这种编码器可以与一个简单的解码器结合,形成一个强大的分割模型,称为SEgmentation TRansformer (SETR)

大量实验表明,SETR在ADE20K (50.28% mIoU)、Pascal Context (55.83% mIoU) 数据集上取得了新的最优性能,并在Cityscapes数据集上取得了具有竞争力的结果。特别地,在提交当天,我们在竞争激烈的ADE20K测试服务器排行榜上获得了第一名。

备注: CVPR 2021。项目页面:https://fudan-zvg.github.io/SETR/

11 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 17 ms
Developed with Cursor