作者: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
提交日期: 2015年12月10日
主题分类: 计算机视觉与模式识别 (cs.CV)
摘要:
更深的神经网络通常更难训练。本文提出了一个残差学习框架,以简化比以往网络更深得多的网络的训练。我们明确地将网络层重新定义为学习关于层输入的残差函数,而不是学习无参考的函数。我们提供了全面的经验证据,表明这些残差网络更容易优化,并且可以从显著增加的深度中获得精度提升。
在 ImageNet 数据集上,我们评估了深度高达152层的残差网络——比 VGG 网络深8倍,但复杂度更低。这些残差网络的集成模型在 ImageNet 测试集上达到了 3.57% 的错误率。该结果在 ILSVRC 2015 分类任务中获得了第一名。我们还展示了在 CIFAR-10 数据集上对100层和1000层网络的分析。
表征的深度对于许多视觉识别任务至关重要。仅凭我们极深的表征,我们在 COCO 目标检测数据集上获得了 28% 的相对性能提升。深度残差网络是我们提交给 ILSVRC 和 COCO 2015 竞赛的基础,我们在 ImageNet 检测、ImageNet 定位、COCO 检测和 COCO 分割任务中也均获得了第一名。
备注: 技术报告