标题:Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
作者:Marah Abdin, Jyoti Aneja, Hany Awadalla, Ahmed Awadallah, Ammar Ahmad Awan, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Jianmin Bao, Harkirat Behl, Alon Benhaim, Misha Bilenko, Johan Bjorck, Sébastien Bubeck, Martin Cai, Qin Cai, Vishrav Chaudhary, Dong Chen, Dongdong Chen, Weizhu Chen, Yen-Chun Chen, Yi-Ling Chen, Hao Cheng, Parul Chopra, Xiyang Dai, Matthew Dixon, Ronen Eldan, Victor Fragoso, Jianfeng Gao, Mei Gao, Min Gao, Amit Garg, Allie Del Giorno, Abhishek Goswami, Suriya Gunasekar, Emman Haider, Junheng Hao, Russell J. Hewett, Wenxiang Hu, Jamie Huynh, Dan Iter, Sam Ade Jacobs, Mojan Javaheripi, Xin Jin, Nikos Karampatziakis, Piero Kauffmann, Mahoud Khademi, Dongwoo Kim, Young Jin Kim, Lev Kurilenko, James R. Lee, Yin Tat Lee, Yuanzhi Li, Yunsheng Li, Chen Liang, Lars Liden, Xihui Lin, Zeqi Lin, Ce Liu, Liyuan Liu, Mengchen Liu, Weishung Liu, Xiaodong Liu, Chong Luo, Piyush Madan, Ali Mahmoudzadeh, David Majercak, Matt Mazzola, Caio César Teodoro Mendes, Arindam Mitra, Hardik Modi, Anh Nguyen, Brandon Norick, Barun Patra, Daniel Perez-Becker, Thomas Portet, Reid Pryzant, Heyang Qin, Marko Radmilac, Liliang Ren, Gustavo de Rosa, Corby Rosset, Sambudha Roy, Olatunji Ruwase, Olli Saarikivi, Amin Saied, Adil Salim, Michael Santacroce, Shital Shah, Ning Shang, Hiteshi Sharma, Yelong Shen, Swadheen Shukla, Xia Song, Masahiro Tanaka, Andrea Tupini, Praneetha Vaddamanu, Chunyu Wang, Guanhua Wang, Lijuan Wang 等 (共129位作者)
摘要:
本文介绍了 phi-3-mini,这是一个拥有 38 亿参数、在 3.3 万亿 tokens 上训练的语言模型。尽管其规模小到足以部署在手机上,但其整体性能(通过学术基准和内部测试衡量)可与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美(例如,phi-3-mini 在 MMLU 上达到 69%,在 MT-bench 上达到 8.38 分)。我们的训练数据集是 phi-2 所用数据集的扩展版本,由经过严格过滤的公开网络数据和合成数据组成。该模型还针对鲁棒性、安全性和聊天格式进行了进一步的对齐。我们还提供了参数缩放的结果,包括在 4.8 万亿 tokens 上训练的 70 亿和 140 亿参数模型,分别称为 phi-3-small 和 phi-3-medium,它们的能力显著超过 phi-3-mini(例如,在 MMLU 上分别达到 75% 和 78%,在 MT-bench 上分别达到 8.7 和 8.9 分)。为了增强多语言、多模态和长上下文能力,我们引入了 phi-3.5 系列中的三个模型:phi-3.5-mini、phi-3.5-MoE 和 phi-3.5-Vision。其中,phi-3.5-MoE 是一个 16 x 3.8B 的混合专家模型,拥有 66 亿活跃参数,在语言推理、数学和代码任务上的性能优于 Llama 3.1 和 Mixtral 系列等类似规模的其他开源模型,并与 Gemini-1.5-Flash 和 GPT-4o-mini 相当。同时,phi-3.5-Vision 是一个源自 phi-3.5-mini 的 42 亿参数模型,擅长推理任务,能够熟练处理单图像和文本提示,以及多图像和文本提示。
主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
提交/修订日期:
- 提交于 2024年4月22日 (v1)
- 最后修订于 2024年8月30日 (v4)