RoBERTa: A Robustly Optimized BERT Pretraining Approach

作者： Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov

提交日期： 2019年7月26日

主题分类： 计算与语言 (cs.CL)

摘要：
语言模型预训练带来了显著的性能提升，但不同方法之间的仔细比较具有挑战性。训练计算成本高昂，通常在规模不同的私有数据集上进行，并且正如我们将展示的，超参数选择对最终结果有重大影响。我们提出了一项对BERT预训练（Devlin等人，2019）的复制研究，仔细测量了许多关键超参数和训练数据规模的影响。我们发现BERT的训练严重不足，并且可以匹配或超越其后发布的每个模型的性能。我们最好的模型在GLUE、RACE和SQuAD基准上取得了最先进的结果。这些结果突显了先前被忽视的设计选择的重要性，并对近期报告改进的来源提出了疑问。我们发布了我们的模型和代码。

论文地址：https://arxiv.org/abs/1907.11692

26 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

RoBERTa：稳健优化的 BERT 预训练方法

RoBERTa: A Robustly Optimized BERT Pretraining Approach