作者: Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Sandeep Subramanian, Sophia Yang, Szymon Antoniak, Teven Le Scao, Théophile Gervet, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed
摘要: 本文介绍了 Mixtral 8x7B,一个稀疏专家混合(Sparse Mixture of Experts, SMoE)语言模型。Mixtral 的架构与 Mistral 7B 相同,区别在于其每一层由 8 个前馈块(即专家)组成。对于每个词元,在每一层,一个路由器网络会选择两个专家来处理当前状态并组合它们的输出。尽管每个词元只“看到”两个专家,但所选的专家在每个时间步可以不同。因此,每个词元可以访问 470 亿个参数,但在推理时只使用 130 亿个活跃参数。Mixtral 在 32k 词元的上下文长度上训练,在所有评估的基准测试中,其表现优于或匹配 Llama 2 70B 和 GPT-3.5。特别是在数学、代码生成和多语言基准测试上,Mixtral 大幅优于 Llama 2 70B。本文还提供了一个经过微调以遵循指令的模型——Mixtral 8x7B - Instruct,该模型在人类评估基准上超越了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 和 Llama 2 70B - chat 模型。基础模型和指令模型均在 Apache 2.0 许可下发布。
主题/分类: 机器学习 (cs.LG); 计算与语言 (cs.CL)
提交日期: 2024年1月8日