原论文标题: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
作者: Jacob Devlin 等
arXiv: 1810.04805
BERT 提出了一种基于双向 Transformer 的预训练语言模型,通过大规模无监督语料进行预训练,然后在下游任务上微调。其核心在于:
BERT 在问答、文本分类、自然语言推理等任务上刷新了多个 SOTA 记录,成为 NLP 预训练范式的重要里程碑。
BERT 奠定了“预训练 + 微调”范式,推动了后续 RoBERTa、ALBERT、DeBERTa 等模型的发展。