作者: Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov
提交日期: 2019年7月26日
主题分类: 计算与语言 (cs.CL)
摘要:
语言模型预训练带来了显著的性能提升,但不同方法之间的仔细比较具有挑战性。训练计算成本高昂,通常在规模不同的私有数据集上进行,并且正如我们将展示的,超参数选择对最终结果有重大影响。我们提出了一项对BERT预训练(Devlin等人,2019)的复制研究,仔细测量了许多关键超参数和训练数据规模的影响。我们发现BERT的训练严重不足,并且可以匹配或超越其后发布的每个模型的性能。我们最好的模型在GLUE、RACE和SQuAD基准上取得了最先进的结果。这些结果突显了先前被忽视的设计选择的重要性,并对近期报告改进的来源提出了疑问。我们发布了我们的模型和代码。