CRAG -- Comprehensive RAG Benchmark

作者： Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong

提交/修订日期： 2024年6月7日提交，2024年11月1日修订

主题/分类： Computation and Language (cs.CL)

会议/评论： NeurIPS 2024 Datasets and Benchmarks Track

摘要

检索增强生成（RAG）已成为缓解大语言模型（LLM）知识匮乏问题的一种有前景的解决方案。然而，现有的RAG数据集未能充分代表现实世界问答（QA）任务的多样性和动态性。为了弥补这一差距，我们提出了综合RAG基准（CRAG），这是一个包含4,409个问答对的事实性问答基准，并提供了模拟网络和知识图谱（KG）搜索的模拟API。

CRAG旨在囊括跨越五个领域和八个问题类别的多样化问题，反映了从热门到长尾的实体流行度差异，以及从年到秒不等的时间动态性。我们对该基准的评估凸显了实现完全可信的QA仍存在差距。虽然大多数先进LLM在CRAG上的准确率≤34%，但以简单方式添加RAG仅能将准确率提升至44%。最先进的工业界RAG解决方案也只能在没有任何幻觉的情况下回答63%的问题。

CRAG还揭示了在回答关于动态性更高、流行度更低或复杂性更高的事实时，准确率要低得多，这为未来的研究方向提供了启示。CRAG基准为KDD Cup 2024挑战赛奠定了基础，并吸引了数千名参与者和提交。我们承诺将持续维护CRAG，以服务于推进RAG解决方案和通用QA解决方案的研究社区。

项目地址： https://github.com/facebookresearch/CRAG/

论文地址：https://arxiv.org/abs/2406.04744

45 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

CRAG：面向检索增强生成的全面评测基准

CRAG -- Comprehensive RAG Benchmark

摘要