作者: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu
提交/修订日期: 2019年10月23日提交,2023年9月19日修订(版本v4)
摘要:
迁移学习是一种强大的自然语言处理(NLP)技术,其核心思想是模型先在数据丰富的任务上进行预训练,然后在特定下游任务上进行微调。该技术的有效性催生了多样化的方法、方法论和实践。本文通过引入一个统一的框架,将所有基于文本的语言问题转换为文本到文本的格式,从而系统性地探索了NLP迁移学习的广阔领域。我们的系统性研究比较了数十种语言理解任务上的预训练目标、模型架构、无标签数据集、迁移方法以及其他因素。通过将探索得到的洞见与大规模计算以及我们新构建的“Colossal Clean Crawled Corpus”(C4)数据集相结合,我们在涵盖摘要、问答、文本分类等多个基准测试中取得了当时最先进的结果。为了促进NLP迁移学习的未来研究,我们公开了我们的数据集、预训练模型和代码。
主题/分类:
- 主要类别: Machine Learning (cs.LG)
- 其他类别: Computation and Language (cs.CL); Machine Learning (stat.ML)
arXiv标识符: arXiv:1910.10683