OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/1907.11692

RoBERTa:稳健优化的 BERT 预训练方法

 
  cosmic ·  2026-01-22 03:02:27 · 9 次点击  · 0 条评论  

RoBERTa: A Robustly Optimized BERT Pretraining Approach

作者: Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov

提交日期: 2019年7月26日

主题分类: 计算与语言 (cs.CL)

摘要:
语言模型预训练带来了显著的性能提升,但不同方法之间的仔细比较具有挑战性。训练计算成本高昂,通常在规模不同的私有数据集上进行,并且正如我们将展示的,超参数选择对最终结果有重大影响。我们提出了一项对BERT预训练(Devlin等人,2019)的复制研究,仔细测量了许多关键超参数和训练数据规模的影响。我们发现BERT的训练严重不足,并且可以匹配或超越其后发布的每个模型的性能。我们最好的模型在GLUE、RACE和SQuAD基准上取得了最先进的结果。这些结果突显了先前被忽视的设计选择的重要性,并对近期报告改进的来源提出了疑问。我们发布了我们的模型和代码。

9 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  Ping ·   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor