RARR：通过检索与引用修正提升语言模型回答可信度

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

项目介绍

标题： 使大型语言模型生成带引文的文本（Enabling Large Language Models to Generate Text with Citations）

作者： Tianyu Gao, Howard Yen, Jiatong Yu, Danqi Chen

摘要：

大型语言模型（LLMs）已成为广泛使用的信息检索工具，但其生成的输出容易出现幻觉（hallucination）。本研究旨在让大型语言模型生成带引文的文本，以提高其事实正确性和可验证性。现有的工作主要依赖商业搜索引擎和人工评估，这使得复现和比较不同的建模方法变得困难。

我们提出了 ALCE，这是第一个用于自动评估 LLM 引文（Automatic LLMs' Citation Evaluation）的基准测试。ALCE 收集了多样化的问题和检索语料库，并要求构建端到端系统来检索支持性证据并生成带引文的答案。我们从流畅性、正确性和引文质量三个维度开发了自动评估指标，并证明了这些指标与人工判断的高度相关性。

我们使用最先进的 LLM 和新颖的提示策略进行的实验表明，当前系统仍有很大的改进空间——例如，在 ELI5 数据集上，即使是最好的模型，也有 50% 的情况缺乏完整的引文支持。我们的分析进一步突出了有前景的未来方向，包括开发更好的检索器、推进长上下文 LLM 的研究以及改进从多个来源综合信息的能力。

主题/分类：

主要分类： 计算与语言 (Computation and Language, cs.CL)
相关分类： 信息检索 (Information Retrieval, cs.IR); 机器学习 (Machine Learning, cs.LG)

备注：
- 已被 EMNLP 2023 接收。
- 代码和数据已在 GitHub 上开源（https://github.com/princeton-nlp/ALCE）。

论文地址：https://arxiv.org/abs/2305.14627

44 次点击 ∙ 0 人收藏

登录后收藏

0 条回复