作者: Ziyan Jiang, Xueguang Ma, Wenhu Chen
提交日期: 2024年6月21日 (最后修订于2024年9月1日)
摘要:
在传统的检索增强生成(RAG)框架中,基本的检索单元通常很短。常见的检索器(如DPR)通常处理约100词的维基百科段落。这种设计迫使检索器在庞大的语料库中搜索以找到“针尖”单元。相比之下,阅读器只需要从检索到的短单元中生成答案。这种“重”检索器和“轻”阅读器的不平衡设计可能导致次优性能。短小的、分块的单元中上下文信息的丢失,可能会增加在检索阶段引入困难负样本的可能性。此外,阅读器可能无法充分利用LLMs最新进展的能力。
为了缓解这种不平衡,我们提出了一个新的框架LongRAG,它由一个“长检索器”和一个“长阅读器”组成。在两个基于维基百科的数据集NQ和HotpotQA上,LongRAG通过将相关文档分组,将整个维基百科语料库处理成4K词元的单元。通过增加单元大小,我们显著减少了单元总数。这大大减轻了检索器的负担,仅用少数(少于8个)的顶部单元就实现了强大的检索性能。无需任何训练,LongRAG在NQ上达到了62.7%的精确匹配率(EM),在HotpotQA上达到了64.3%的EM,与(完全训练的)最先进模型性能相当。
此外,我们在两个非维基百科数据集Qasper和MultiFieldQA-en上进行了测试。LongRAG将每个单独的文档作为一个(长的)单元处理,而不是将它们分割成更小的单元。通过这样做,我们在Qasper上实现了25.9%的F1分数,在MultiFieldQA-en上实现了57.5%的F1分数。我们的研究为RAG与长上下文LLMs结合的未来路线图提供了见解。
主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
备注: 技术报告