作者: Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, Dasha Metropolitansky, Robert Osazuwa Ness, Jonathan Larson
摘要:
检索增强生成(RAG)通过从外部知识源检索相关信息,使大型语言模型(LLM)能够回答关于私有和/或先前未见过的文档集合的问题。然而,RAG在处理针对整个文本语料库的全局性问题时(例如“数据集中的主要主题是什么?”)会失败,因为这本质上是一个面向查询的摘要(QFS)任务,而非显式的检索任务。同时,先前的QFS方法无法扩展到典型RAG系统所索引的文本量。为了结合这两种不同方法的优势,我们提出了GraphRAG,一种基于图的方法,用于对私有文本语料库进行问答,该方法能够适应用户问题的通用性和源文本的数量。我们的方法使用LLM分两个阶段构建图索引:首先,从源文档中推导出实体知识图谱;然后,为所有紧密相关的实体组预生成社区摘要。给定一个问题,每个社区摘要被用来生成一个部分回答,然后所有部分回答再次被汇总,形成给用户的最终回答。对于在百万令牌量级数据集上的一类全局意义构建问题,我们展示了GraphRAG在生成答案的全面性和多样性方面,相较于传统的RAG基线带来了显著改进。
主题/分类:
- 主要:计算与语言(cs.CL)
- 相关:人工智能(cs.AI);信息检索(cs.IR)
提交/修订日期:
- 提交于2024年4月24日
- 最后修订于2025年2月19日(本版本,v2)