标题: 使大型语言模型生成带引文的文本(Enabling Large Language Models to Generate Text with Citations)
作者: Tianyu Gao, Howard Yen, Jiatong Yu, Danqi Chen
摘要:
大型语言模型(LLMs)已成为广泛使用的信息检索工具,但其生成的输出容易出现幻觉(hallucination)。本研究旨在让大型语言模型生成带引文的文本,以提高其事实正确性和可验证性。现有的工作主要依赖商业搜索引擎和人工评估,这使得复现和比较不同的建模方法变得困难。
我们提出了 ALCE,这是第一个用于自动评估 LLM 引文(Automatic LLMs' Citation Evaluation)的基准测试。ALCE 收集了多样化的问题和检索语料库,并要求构建端到端系统来检索支持性证据并生成带引文的答案。我们从流畅性、正确性和引文质量三个维度开发了自动评估指标,并证明了这些指标与人工判断的高度相关性。
我们使用最先进的 LLM 和新颖的提示策略进行的实验表明,当前系统仍有很大的改进空间——例如,在 ELI5 数据集上,即使是最好的模型,也有 50% 的情况缺乏完整的引文支持。我们的分析进一步突出了有前景的未来方向,包括开发更好的检索器、推进长上下文 LLM 的研究以及改进从多个来源综合信息的能力。
主题/分类:
备注:
- 已被 EMNLP 2023 接收。
- 代码和数据已在 GitHub 上开源(https://github.com/princeton-nlp/ALCE)。