BERT：深度双向 Transformer 预训练语言模型

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

作者: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

提交日期: 2018年10月11日 (v1)， 2019年5月24日修订 (v2)

主题: 计算与语言 (cs.CL)

摘要:
本文提出了一种新的语言表示模型 BERT (Bidirectional Encoder Representations from Transformers)。与近期的语言表示模型不同，BERT 旨在通过在所有层中联合调节左右上下文，从未标记的文本中预训练深度双向表示。因此，预训练好的 BERT 模型只需添加一个额外的输出层进行微调，即可为广泛的任务（如问答和语言推理）创建最先进的模型，而无需对特定任务的架构进行实质性修改。

BERT 概念简单且经验上强大。它在十一个自然语言处理任务上取得了新的最先进结果，包括将 GLUE 分数提升至 80.5%（绝对提升 7.7 个百分点），MultiNLI 准确率提升至 86.7%（绝对提升 4.6%），SQuAD v1.1 问答测试 F1 值提升至 93.2（绝对提升 1.5 分），以及 SQuAD v2.0 测试 F1 值提升至 83.1（绝对提升 5.1 分）。

论文地址：https://arxiv.org/abs/1810.04805

29 次点击 ∙ 0 人收藏

登录后收藏

0 条回复