作者: Bin Lin, Zhenyu Tang, Yang Ye, Jinfa Huang, Junwu Zhang, Yatian Pang, Peng Jin, Munan Ning, Jiebo Luo, Li Yuan
提交/修订日期: 2024年1月29日提交,2024年12月23日修订(版本 v5)
主题/分类: Computer Vision and Pattern Recognition (cs.CV)
摘要:
近期的研究表明,扩展大型视觉-语言模型(LVLMs)能有效提升下游任务性能。然而,现有的扩展方法在计算时会使所有模型参数对每个标记都处于激活状态,这带来了巨大的训练和推理成本。本工作提出了一种简单而有效的 LVLM 训练策略 MoE-Tuning。该策略创新性地解决了多模态稀疏学习中常见的性能下降问题,从而构建了一个参数数量庞大但计算成本恒定的稀疏模型。此外,我们提出了 MoE-LLaVA,一种基于混合专家(MoE)的稀疏 LVLM 架构,该架构在部署时通过路由器仅激活 top-k 专家,而保持其余专家处于非激活状态。大量实验表明,MoE-LLaVA 在各种视觉理解和物体幻觉基准测试中表现优异。值得注意的是,仅激活约 30 亿稀疏参数,MoE-LLaVA 在各种视觉理解数据集上的性能即可与 LLaVA-1.5-7B 相媲美,甚至在物体幻觉基准测试中超越了 LLaVA-1.5-13B。通过 MoE-LLaVA,我们旨在为稀疏 LVLM 建立一个基线,并为未来开发更高效、更有效的多模态学习系统的研究提供有价值的见解。
代码地址: https://github.com/PKU-YuanGroup/MoE-LLaVA