作者: Parth Sarthi, Salman Abdullah, Aditi Tuli, Shubh Khanna, Anna Goldie, Christopher D. Manning
提交日期: 2024年1月31日
主题/分类: Computation and Language (cs.CL); Machine Learning (cs.LG)
摘要:
检索增强的语言模型能更好地适应世界状态的变化并整合长尾知识。然而,现有方法大多仅从检索语料库中检索短的连续文本块,限制了对整体文档上下文的全盘理解。本文提出了一种新颖的方法:递归地对文本块进行嵌入、聚类和摘要,自底向上构建一个具有不同摘要层次的树结构。在推理时,我们的 RAPTOR 模型从这棵树中进行检索,在不同抽象层次上整合长文档中的信息。受控实验表明,在多项任务上,使用递归摘要进行检索相比传统的检索增强语言模型有显著提升。在涉及复杂多步推理的问答任务上,我们展示了最先进的结果;例如,将 RAPTOR 检索与 GPT-4 结合使用,可以将 QuALITY 基准上的最佳性能绝对提升 20%。