大型语言模型(LLMs)通过指令微调得到了显著提升,但仍缺乏透明度以及利用最新知识和信息的能力。本文提出了搜索增强指令学习(SAIL),该方法将语言生成和指令遵循能力建立在由内部和外部搜索引擎生成的复杂搜索结果之上。作者利用一个指令调优语料库,从不同的搜索API和领域收集每个训练案例的搜索结果,构建了一个新的基于搜索的增强训练集,包含 (指令, 支撑信息, 响应) 三元组。然后,他们在构建的训练集上对 LLaMA-7B 模型进行微调。由于收集到的结果包含无关和矛盾的语言,模型需要学习基于可信的搜索结果,过滤掉干扰性段落,并生成目标响应。搜索结果的去噪过程涉及显式的可信信息选择和多跳推理,因为检索到的段落可能信息丰富但并未包含遵循指令的答案。实验表明,微调后的 SAIL-7B 模型具有很强的指令遵循能力,并且在透明度敏感的任务(包括开放式问答和事实核查)上表现显著更优。
Hongyin Luo, Yung-Sung Chuang, Yuan Gong, Tianhua Zhang, Yoon Kim, Xixin Wu, Danny Fox, Helen Meng, James Glass
Computation and Language (cs.CL)