GLM: General Language Model Pretraining with Autoregressive Blank Infilling

作者： Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, Jie Tang

提交日期： 2021年3月18日（v1），最后修订于2022年3月17日（v2）

主题分类： 计算机科学 > 计算与语言 (cs.CL)；人工智能 (cs.AI)；机器学习 (cs.LG)

发表信息： 将发表于 ACL 2022

摘要

现有的预训练架构包括自编码模型（如 BERT）、自回归模型（如 GPT）和编码器-解码器模型（如 T5）。然而，没有任何一种预训练框架能在所有三大类任务（自然语言理解 NLU、无条件生成、条件生成）上均表现最佳。本文提出了一种基于自回归空白填充的通用语言模型（GLM）来应对这一挑战。GLM 通过添加二维位置编码并允许以任意顺序预测跨度（span）来改进空白填充预训练，从而在 NLU 任务上取得了优于 BERT 和 T5 的性能。同时，通过改变空白的数量和长度，GLM 可以为不同类型的任务进行预训练。在涵盖 NLU、条件生成和无条件生成的广泛任务中，给定相同的模型大小和数据，GLM 优于 BERT、T5 和 GPT，并且仅使用 BERT Large 1.25 倍的参数量就从一个单一预训练模型中取得了最佳性能，展示了其对不同下游任务的泛化能力。

论文地址：https://arxiv.org/abs/2103.10360

43 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

GLM：自回归空白填充式预训练的通用语言模型

GLM: General Language Model Pretraining with Autoregressive Blank Infilling

摘要