作者: Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela
提交/修订日期: 2020年5月22日提交,2021年4月12日修订 (v4)
主题/分类: 计算与语言 (cs.CL); 机器学习 (cs.LG)
状态: 已被 NeurIPS 2020 接收
大型预训练语言模型已被证明能在其参数中存储事实性知识,并在下游 NLP 任务上微调后达到最先进的结果。然而,它们访问和精确操作知识的能力仍然有限,因此在知识密集型任务上,其性能落后于特定任务的架构。此外,为其决策提供来源证明以及更新其世界知识仍然是开放的研究问题。具备可微分访问显式非参数记忆机制的预训练模型可以克服这个问题,但迄今为止仅针对抽取式下游任务进行了研究。
我们探索了一种用于检索增强生成 (RAG) 的通用微调方法——RAG 模型将预训练的参数化记忆和非参数化记忆结合起来用于语言生成。我们提出的 RAG 模型中,参数化记忆是一个预训练的 seq2seq 模型,非参数化记忆是一个维基百科的稠密向量索引,通过一个预训练的神经检索器进行访问。我们比较了两种 RAG 公式:一种在整个生成序列上基于相同的检索段落进行条件生成,另一种可以在每个标记上使用不同的段落。我们在广泛的、知识密集型的 NLP 任务上对模型进行了微调和评估,并在三个开放域问答任务上取得了最先进的结果,超越了参数化的 seq2seq 模型和特定任务的“检索-抽取”架构。对于语言生成任务,我们发现 RAG 模型生成的文本比最先进的纯参数化 seq2seq 基线更具特异性、多样性和事实性。