作者: Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, Julien Launay
提交日期: 2023年6月1日
主题/分类: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
摘要:
大型语言模型通常是在经过过滤的网络数据与精心策划的高质量语料库(如社交媒体对话、书籍或技术论文)的混合体上进行训练的。人们普遍认为这种策划过程对于产生具有广泛零样本泛化能力的性能模型是必要的。然而,考虑到需要数万亿token进行预训练的更大模型,策划过程的可扩展性尚不明确,我们是否很快会耗尽独特的高质量数据也成疑问。与先前的观点不同,本文表明,经过适当过滤和去重的网络数据本身就可以产生强大的模型;其性能甚至显著优于在The Pile语料库上训练的最先进模型。尽管进行了广泛的过滤,我们从网络中提取的高质量数据仍然非常丰富,并且能够从CommonCrawl中获取五万亿token。我们公开发布了从我们的RefinedWeb数据集中提取的6000亿token,以及在其上训练的1.3B/7.5B参数语言模型。