作者: Parth Sarthi, Salman Abdullah, Aditi Tuli, Shubh Khanna, Anna Goldie, Christopher D. Manning
提交日期: 2024年1月31日
主题/分类: 计算与语言 (cs.CL); 机器学习 (cs.LG)
摘要:
检索增强的语言模型能更好地适应世界状态的变化并整合长尾知识。然而,大多数现有方法仅从检索语料库中检索短的连续文本块,限制了对整体文档上下文的全貌理解。本文提出了一种新颖的方法:递归地对文本块进行嵌入、聚类和摘要,自底向上构建一个具有不同摘要级别的树。在推理时,我们的RAPTOR模型从这棵树中检索信息,在不同抽象级别上整合跨长文档的信息。对照实验表明,使用递归摘要进行检索在多项任务上相比传统的检索增强语言模型有显著改进。在涉及复杂、多步推理的问答任务上,我们展示了最先进的结果;例如,通过将RAPTOR检索与GPT-4结合使用,我们可以在QuALITY基准测试上将最佳性能提升20%的绝对准确率。