GraphRAG：结合图机器学习提升 RAG 的全局问答能力

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

从局部到全局：一种面向查询摘要的图RAG方法

作者： Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, Dasha Metropolitansky, Robert Osazuwa Ness, Jonathan Larson

摘要：
检索增强生成（RAG）通过从外部知识源检索相关信息，使大型语言模型（LLM）能够回答关于私有和/或先前未见过的文档集合的问题。然而，RAG在处理针对整个文本语料库的全局性问题时（例如“数据集中的主要主题是什么？”）会失败，因为这本质上是一个面向查询的摘要（QFS）任务，而非显式的检索任务。同时，先前的QFS方法无法扩展到典型RAG系统所索引的文本量。为了结合这两种不同方法的优势，我们提出了GraphRAG，一种基于图的方法，用于对私有文本语料库进行问答，该方法能够适应用户问题的通用性和源文本的数量。我们的方法使用LLM分两个阶段构建图索引：首先，从源文档中推导出实体知识图谱；然后，为所有紧密相关的实体组预生成社区摘要。给定一个问题，每个社区摘要被用来生成一个部分回答，然后所有部分回答再次被汇总，形成给用户的最终回答。对于在百万令牌量级数据集上的一类全局意义构建问题，我们展示了GraphRAG在生成答案的全面性和多样性方面，相较于传统的RAG基线带来了显著改进。

主题/分类：
- 主要：计算与语言（cs.CL）
- 相关：人工智能（cs.AI）；信息检索（cs.IR）

提交/修订日期：
- 提交于2024年4月24日
- 最后修订于2025年2月19日（本版本，v2）

论文地址：https://arxiv.org/abs/2404.16130

48 次点击 ∙ 0 人收藏

登录后收藏

0 条回复