通过从数万亿词元中检索来改进语言模型

标题: Improving language models by retrieving from trillions of tokens

作者: Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego de Las Casas, Aurelia Guy, Jacob Menick, Roman Ring, Tom Hennigan, Saffron Huang, Loren Maggiore, Chris Jones, Albin Cassirer, Andy Brock, Michela Paganini, Geoffrey Irving, Oriol Vinyals, Simon Osindero, Karen Simonyan, Jack W. Rae, Erich Elsen, Laurent Sifre

提交/修订日期: 2021年12月8日提交，2022年2月7日修订（版本v3）

摘要:
我们通过基于与先前词元的局部相似性，从大型语料库中检索文档块作为条件，来增强自回归语言模型。利用一个包含2万亿词元的数据库，我们的检索增强型Transformer（RETRO）在Pile数据集上获得了与GPT-3和Jurassic-1相当的性能，尽管使用的参数减少了25倍。经过微调后，RETRO的性能可迁移到下游知识密集型任务，如问答。RETRO结合了一个冻结的Bert检索器、一个可微分编码器和一个分块交叉注意力机制，用于基于比训练期间通常消耗的数据量多一个数量级的数据来预测词元。我们通常从头开始训练RETRO，但也可以快速地对预训练的Transformer进行“RETROfit”（即添加检索功能），并且仍然能获得良好的性能。我们的工作为通过前所未有的规模的显式内存来改进语言模型开辟了新途径。

主题/分类:
- 主要类别: Computation and Language (cs.CL)
- 次要类别: Machine Learning (cs.LG)

arXiv标识符: arXiv:2112.04426 [cs.CL]

DOI: https://doi.org/10.48550/arXiv.2112.04426

论文地址：https://arxiv.org/abs/2112.04426

25 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

RETRO：结合海量检索语料的增强型生成模型

通过从数万亿词元中检索来改进语言模型