面向知识密集型 NLP 任务的检索增强生成

标题: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

作者: Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela

提交/修订日期: 2020年5月22日提交，2021年4月12日修订 (v4)

主题/分类: 计算与语言 (cs.CL); 机器学习 (cs.LG)

状态: 已被 NeurIPS 2020 接收

摘要

大型预训练语言模型已被证明能在其参数中存储事实性知识，并在下游 NLP 任务上微调时取得最先进的结果。然而，它们访问和精确操纵知识的能力仍然有限，因此在知识密集型任务上，其性能落后于特定任务的架构。此外，为其决策提供来源证明以及更新其世界知识仍然是开放的研究问题。具有可微分访问机制以连接显式非参数记忆的预训练模型可以克服这个问题，但迄今为止仅被研究用于抽取式下游任务。

本文探索了一种用于检索增强生成（RAG）的通用微调方法——RAG 模型结合了用于语言生成的预训练参数化记忆和非参数化记忆。我们引入了 RAG 模型，其中参数化记忆是一个预训练的 seq2seq 模型，非参数化记忆是维基百科的密集向量索引，通过一个预训练的神经检索器进行访问。我们比较了两种 RAG 公式：一种在整个生成序列上基于相同的检索段落进行条件化，另一种可以在每个词元上使用不同的段落。

我们在广泛的、知识密集型的 NLP 任务上对模型进行了微调和评估，并在三个开放域问答任务上取得了最先进的结果，超越了参数化的 seq2seq 模型和特定任务的“检索-抽取”架构。对于语言生成任务，我们发现 RAG 模型比最先进的纯参数化 seq2seq 基线生成的语言更具体、更多样且更具事实性。

论文地址：https://arxiv.org/abs/2005.11401

24 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

RAG：针对知识密集型 NLP 任务的检索增强生成

面向知识密集型 NLP 任务的检索增强生成

摘要