作者: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
提交日期: 2018年10月11日 (v1), 2019年5月24日修订 (v2)
主题: 计算与语言 (cs.CL)
摘要:
本文提出了一种新的语言表示模型 BERT (Bidirectional Encoder Representations from Transformers)。与近期的语言表示模型不同,BERT 旨在通过在所有层中联合调节左右上下文,从未标记的文本中预训练深度双向表示。因此,预训练好的 BERT 模型只需添加一个额外的输出层进行微调,即可为广泛的任务(如问答和语言推理)创建最先进的模型,而无需对特定任务的架构进行实质性修改。
BERT 概念简单且经验上强大。它在十一个自然语言处理任务上取得了新的最先进结果,包括将 GLUE 分数提升至 80.5%(绝对提升 7.7 个百分点),MultiNLI 准确率提升至 86.7%(绝对提升 4.6%),SQuAD v1.1 问答测试 F1 值提升至 93.2(绝对提升 1.5 分),以及 SQuAD v2.0 测试 F1 值提升至 83.1(绝对提升 5.1 分)。