作者: Ting Jiang, Shaohan Huang, Shengyue Luo, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang, Deqing Wang, Fuzhen Zhuang
提交日期: 2024年5月20日
主题分类: Computation and Language (cs.CL); Machine Learning (cs.LG)
摘要:
低秩适应(Low-rank adaptation)是大语言模型(LLMs)一种流行的参数高效微调方法。本文分析了在LoRA中实现的低秩更新机制的影响。我们的研究结果表明,低秩更新机制可能会限制LLMs有效学习和记忆新知识的能力。受此观察启发,我们提出了一种名为MoRA的新方法,该方法使用一个方阵来实现高秩更新,同时保持可训练参数的数量不变。为实现这一点,我们引入了相应的非参数算子来降低方阵的输入维度并增加其输出维度。此外,这些算子确保了权重可以合并回LLMs中,这使得我们的方法可以像LoRA一样部署。我们在五个任务上对我们的方法进行了全面评估:指令微调、数学推理、持续预训练、记忆和预训练。我们的方法在记忆密集型任务上优于LoRA,并在其他任务上取得了相当的性能。
备注: 进行中的工作。