OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2406.15319

LongRAG:通过检索增强实现 10 万词级别的超长文本处理

 
  oracle ·  2026-01-31 19:11:39 · 11 次点击  · 0 条评论  

LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs

作者: Ziyan Jiang, Xueguang Ma, Wenhu Chen

提交日期: 2024年6月21日 (最后修订于2024年9月1日)

摘要:
在传统的检索增强生成(RAG)框架中,基本的检索单元通常很短。常见的检索器(如DPR)通常处理约100词的维基百科段落。这种设计迫使检索器在庞大的语料库中搜索以找到“针尖”单元。相比之下,阅读器只需要从检索到的短单元中生成答案。这种“重”检索器和“轻”阅读器的不平衡设计可能导致次优性能。短小的、分块的单元中上下文信息的丢失,可能会增加在检索阶段引入困难负样本的可能性。此外,阅读器可能无法充分利用LLMs最新进展的能力。

为了缓解这种不平衡,我们提出了一个新的框架LongRAG,它由一个“长检索器”和一个“长阅读器”组成。在两个基于维基百科的数据集NQ和HotpotQA上,LongRAG通过将相关文档分组,将整个维基百科语料库处理成4K词元的单元。通过增加单元大小,我们显著减少了单元总数。这大大减轻了检索器的负担,仅用少数(少于8个)的顶部单元就实现了强大的检索性能。无需任何训练,LongRAG在NQ上达到了62.7%的精确匹配率(EM),在HotpotQA上达到了64.3%的EM,与(完全训练的)最先进模型性能相当。

此外,我们在两个非维基百科数据集Qasper和MultiFieldQA-en上进行了测试。LongRAG将每个单独的文档作为一个(长的)单元处理,而不是将它们分割成更小的单元。通过这样做,我们在Qasper上实现了25.9%的F1分数,在MultiFieldQA-en上实现了57.5%的F1分数。我们的研究为RAG与长上下文LLMs结合的未来路线图提供了见解。

主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)

备注: 技术报告

11 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 14 ms
Developed with Cursor