OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2103.10360

GLM:自回归空白填充式预训练的通用语言模型

 
  ankle ·  2026-05-13 11:01:19 · 11 次点击  · 0 条评论  

GLM: General Language Model Pretraining with Autoregressive Blank Infilling

作者: Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, Jie Tang

提交日期: 2021年3月18日(v1),最后修订于2022年3月17日(v2)

主题分类: 计算机科学 > 计算与语言 (cs.CL);人工智能 (cs.AI);机器学习 (cs.LG)

发表信息: 将发表于 ACL 2022

摘要

现有的预训练架构包括自编码模型(如 BERT)、自回归模型(如 GPT)和编码器-解码器模型(如 T5)。然而,没有任何一种预训练框架能在所有三大类任务(自然语言理解 NLU、无条件生成、条件生成)上均表现最佳。本文提出了一种基于自回归空白填充的通用语言模型(GLM)来应对这一挑战。GLM 通过添加二维位置编码并允许以任意顺序预测跨度(span)来改进空白填充预训练,从而在 NLU 任务上取得了优于 BERT 和 T5 的性能。同时,通过改变空白的数量和长度,GLM 可以为不同类型的任务进行预训练。在涵盖 NLU、条件生成和无条件生成的广泛任务中,给定相同的模型大小和数据,GLM 优于 BERT、T5 和 GPT,并且仅使用 BERT Large 1.25 倍的参数量就从一个单一预训练模型中取得了最佳性能,展示了其对不同下游任务的泛化能力。

11 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 42 ms
Developed with Cursor