作者: Tongxu Luo, Jiahe Lei, Fangyu Lei, Weihao Liu, Shizhu He, Jun Zhao, Kang Liu
提交日期: 2024年2月20日
主题/分类: 计算与语言 (cs.CL)
摘要:
微调对于增强大语言模型(LLM)对下游任务的适应性通常是必要的。然而,更新数十亿参数的过程需要大量的计算资源和训练时间,这为大规模模型在各种场景中的广泛应用带来了重大障碍。为了解决这个问题,参数高效微调(PEFT)已成为近期研究中的一个重要范式。然而,当前采用有限全局参数集的PEFT方法(例如LoRA,它向所有权重添加低秩近似矩阵)在下游任务中灵活组合不同计算模块方面面临挑战。在这项工作中,我们引入了一种新颖的PEFT方法:MoELoRA。我们将LoRA视为专家混合(MoE),并且为了缓解在MoE中观察到的随机路由现象,我们提出利用对比学习来鼓励专家学习不同的特征。我们在数学推理和常识推理基准测试中的11个任务上进行了实验。在参数数量相同的情况下,我们的方法显著优于LoRA。在数学推理中,MoELoRA的平均性能比LoRA高出4.2%,并且在多个基准测试中与175B参数的GPT-3.5相比表现出有竞争力的性能。