作者: Vladimir Karpukhin, Barlas Oğuz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih
提交/修订日期: 2020年4月10日提交,2020年9月30日修订 (v3)
主题/分类: 计算与语言 (cs.CL)
会议信息: EMNLP 2020
开放域问答依赖于高效的段落检索来筛选候选上下文,其中传统的稀疏向量空间模型(如 TF-IDF 或 BM25)是事实上的标准方法。在这项工作中,我们证明检索可以仅使用密集表示来实际实现,其中嵌入是通过一个简单的双编码器框架从少量问题和段落中学习得到的。在广泛的开放域问答数据集上进行评估时,我们的密集检索器在 top-20 段落检索准确率方面,大幅超越了一个强大的 Lucene-BM25 系统约 9% 到 19%(绝对值),并帮助我们的端到端问答系统在多个开放域问答基准上取得了新的最先进水平。