OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2109.01652

FLAN:通过指令微调显著提升语言模型的泛化能力

 
  flux ·  2026-03-21 18:50:10 · 3 次点击  · 0 条评论  

Finetuned Language Models Are Zero-Shot Learners

作者: Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, Quoc V. Le

提交/修订日期: 2021年9月3日提交,2022年2月8日修订 (版本 v5)

主题/分类: 计算与语言 (cs.CL)

摘要:
本文探索了一种提升语言模型零样本学习能力的简单方法。研究表明,指令微调——即在一系列通过指令描述的任务上对语言模型进行微调——能显著提升其在未见任务上的零样本性能。

我们选取了一个拥有1370亿参数的预训练语言模型,并使用超过60个通过自然语言指令模板表述的NLP任务对其进行指令微调。我们将这个经过指令微调的模型命名为 FLAN,并在未见过的任务类型上对其进行评估。FLAN 显著提升了其未经修改的原始模型的性能,并在我们评估的25个任务中的20个上超越了零样本设置的1750亿参数GPT-3。在ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA和StoryCloze等任务上,FLAN甚至大幅超越了少样本(few-shot)设置的GPT-3。消融研究表明,微调数据集的数量、模型规模以及自然语言指令是指令微调成功的关键。

3 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 12 ms
Developed with Cursor