探索迁移学习的极限：统一的文本到文本 Transformer

作者: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

提交/修订日期: 2019年10月23日提交，2023年9月19日修订（版本v4）

摘要:
迁移学习是一种强大的自然语言处理（NLP）技术，其核心思想是模型先在数据丰富的任务上进行预训练，然后在特定下游任务上进行微调。该技术的有效性催生了多样化的方法、方法论和实践。本文通过引入一个统一的框架，将所有基于文本的语言问题转换为文本到文本的格式，从而系统性地探索了NLP迁移学习的广阔领域。我们的系统性研究比较了数十种语言理解任务上的预训练目标、模型架构、无标签数据集、迁移方法以及其他因素。通过将探索得到的洞见与大规模计算以及我们新构建的“Colossal Clean Crawled Corpus”（C4）数据集相结合，我们在涵盖摘要、问答、文本分类等多个基准测试中取得了当时最先进的结果。为了促进NLP迁移学习的未来研究，我们公开了我们的数据集、预训练模型和代码。

主题/分类:
- 主要类别: Machine Learning (cs.LG)
- 其他类别: Computation and Language (cs.CL); Machine Learning (stat.ML)

arXiv标识符: arXiv:1910.10683

论文地址：https://arxiv.org/abs/1910.10683

26 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

T5：利用统一的文本到文本传递框架探索迁移学习的极限

探索迁移学习的极限：统一的文本到文本 Transformer