OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  论文  ›  arxiv:1810.04805

BERT:深度双向 Transformer 预训练语言模型

 
  testing ·  2018-10-11 00:00:00 · 1 次点击  · 0 条评论  

BERT:深度双向 Transformer 预训练语言模型

原论文标题: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
作者: Jacob Devlin 等
arXiv: 1810.04805


论文简介

BERT 提出了一种基于双向 Transformer 的预训练语言模型,通过大规模无监督语料进行预训练,然后在下游任务上微调。其核心在于:

  • Masked Language Model(MLM)
  • Next Sentence Prediction(NSP)

BERT 在问答、文本分类、自然语言推理等任务上刷新了多个 SOTA 记录,成为 NLP 预训练范式的重要里程碑。


技术影响

BERT 奠定了“预训练 + 微调”范式,推动了后续 RoBERTa、ALBERT、DeBERTa 等模型的发展。

1 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor