标题: Qwen2 Technical Report
作者: An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Zeyu Cui, Zhenru Zhang, Zhihao Fan
提交日期: 2024年7月15日
摘要:
本报告介绍了Qwen2系列模型,这是我们最新的大语言模型和大规模多模态模型系列。我们发布了一套全面的基础模型和指令微调模型,参数规模覆盖0.5B到72B,包含稠密模型和混合专家模型。Qwen2在语言理解、生成、多语言能力、代码、数学和推理等多个基准测试中,超越了大多数先前的开源模型(包括其前身Qwen1.5),并展现出与闭源模型相竞争的性能。
旗舰模型Qwen2-72B作为基础语言模型,展现了卓越的性能:在MMLU上得分为84.2,GPQA上为37.9,HumanEval上为64.6,GSM8K上为89.5,BBH上为82.4。其指令微调变体Qwen2-72B-Instruct在MT-Bench上得分为9.1,Arena-Hard上为48.1,LiveCodeBench上为35.7。此外,Qwen2展示了强大的多语言能力,精通约30种语言,包括英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,突显了其多功能性和全球适用性。
为促进社区创新和可访问性,我们已将Qwen2模型权重在Hugging Face和ModelScope上开源,并在GitHub上提供了包含示例代码在内的补充材料。这些平台还包含了量化、微调和部署的资源,以促进广泛的应用和研究工作。
主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
备注: 25页,1张图