作者: Binfeng Xu, Zhiyuan Peng, Bowen Lei, Subhabrata Mukherjee, Yuchen Liu, Dongkuan Xu
提交日期: 2023年5月23日
主题/分类: 计算与语言 (cs.CL); 人工智能 (cs.AI)
摘要:
增强语言模型 (ALMs) 融合了大语言模型 (LLMs) 的推理能力与用于知识检索和行动执行的外部工具。现有的 ALM 系统以交错的方式触发 LLM 的思考过程并从这些工具中获取观察结果。具体来说,LLM 经过推理调用外部工具,暂停以获取工具的响应,然后基于所有先前的响应令牌决定下一步行动。这种范式虽然直接且易于实现,但常常因冗余提示和重复执行而导致巨大的计算复杂度。本研究首次针对这些挑战,提出了一种模块化范式 ReWOO (Reasoning WithOut Observation),它将推理过程与外部观察解耦,从而显著减少了令牌消耗。在六个公共 NLP 基准测试和一个精选数据集上的综合评估表明,我们提出的方法带来了持续的性能提升。值得注意的是,在多步推理基准测试 HotpotQA 上,ReWOO 实现了 5 倍的令牌效率提升和 4% 的准确率提升。此外,ReWOO 在工具故障场景下也表现出鲁棒性。除了提示效率之外,将参数化模块与非参数化工具调用解耦,使得可以通过指令微调将 LLMs 的能力卸载到更小的语言模型中,从而大幅减少模型参数。我们的示例性工作成功地将 1750 亿参数的 GPT3.5 的推理能力卸载到 70 亿参数的 LLaMA 上,展示了构建真正高效且可扩展的 ALM 系统的巨大潜力。