作者: Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, Hannaneh Hajishirzi
摘要:
大型“指令调优”语言模型(即经过微调以响应指令的模型)已展现出零样本泛化到新任务的卓越能力。然而,它们严重依赖于人类编写的指令数据,而这些数据通常在数量、多样性和创造性方面有限,从而限制了微调模型的通用性。我们提出了 Self-Instruct,这是一个通过引导模型自身生成来提升预训练语言模型指令遵循能力的框架。我们的流程从语言模型中生成指令、输入和输出样本,然后过滤无效或相似的样本,再将其用于微调原始模型。将我们的方法应用于原始 GPT-3,我们在 Super-NaturalInstructions 基准上展示了相比原始模型 33% 的绝对性能提升,与使用私有用户数据和人工标注训练的 InstructGPT-001 性能相当。为了进一步评估,我们整理了一组针对新任务的专家编写指令,并通过人工评估表明,使用 Self-Instruct 微调的 GPT-3 大幅优于使用现有公共指令数据集的结果,与 InstructGPT-001 相比仅存在 5% 的绝对性能差距。Self-Instruct 提供了一种几乎无需人工标注的方法来将预训练语言模型与指令对齐,我们发布了我们的大型合成数据集以促进未来关于指令调优的研究。
主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
提交/修订日期: 2022年12月20日提交,2023年5月25日修订 (v2)
备注: ACL 2023 最终版,23页,9个图,11个表
代码与数据: https://github.com/yizhongw/self-instruct