Qwen2 Technical Report
An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zhihao Fan(共 58 位作者)
本文介绍了 Qwen2 系列模型,这是对大型语言模型(LLM)和多模态大模型的最新补充。我们发布了一套全面的基础模型和指令微调语言模型,参数规模从 0.5 到 720 亿不等,涵盖了密集模型和混合专家模型(MoE)。Qwen2 在多个基准测试中超越了大多数先前的开源模型(包括其前代 Qwen1.5),并在语言理解、生成、多语言能力、编程、数学和推理方面展现出与闭源模型竞争的性能。
旗舰模型 Qwen2-72B 表现出色:作为基础语言模型,在 MMLU 上取得 84.2 分,GPQA 上 37.9 分,HumanEval 上 64.6 分,GSM8K 上 89.5 分,BBH 上 82.4 分。指令微调版本 Qwen2-72B-Instruct 在 MT-Bench 上达到 9.1 分,Arena-Hard 上 48.1 分,LiveCodeBench 上 35.7 分。此外,Qwen2 展现出强大的多语言能力,精通约 30 种语言,包括英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,彰显了其通用性和全球影响力。
为了促进社区创新和可访问性,我们已在 Hugging Face 和 ModelScope 上公开了 Qwen2 模型权重,并在 GitHub 上提供了示例代码等补充材料。这些平台还包括量化、微调和部署的资源,便于广泛的应用和研究工作。
25 页,1 张图