作者:Marah Abdin, Sam Ade Jacobs, Ammar Ahmad Awan, Jyoti Aneja, Ahmed Awadallah, Hany Awadalla, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Harkirat Behl, Alon Benhaim, Misha Bilenko, Johan Bjorck, Sébastien Bubeck, Martin Cai, Caio César Teodoro Mendes, Weizhu Chen, Vishrav Chaudhary, Parul Chopra, Allie Del Giorno, Gustavo de Rosa, Matthew Dixon, Ronen Eldan, Dan Iter, Abhishek Goswami, Suriya Gunasekar, Emman Haider, Junheng Hao, Russell J. Hewett, Jamie Huynh, Mojan Javaheripi, Xin Jin, Piero Kauffmann, Nikos Karampatziakis, Dongwoo Kim, Mahoud Khademi, Lev Kurilenko, James R. Lee, Yin Tat Lee, Yuanzhi Li, Chen Liang, Weishung Liu, Eric Lin, Zeqi Lin, Piyush Madan, Arindam Mitra, Hardik Modi, Anh Nguyen, Brandon Norick, Barun Patra, Daniel Perez-Becker, Thomas Portet, Reid Pryzant, Heyang Qin, Marko Radmilac, Corby Rosset, Sambudha Roy, Olli Saarikivi, Amin Saied, Adil Salim, Michael Santacroce, Shital Shah, Ning Shang, Hiteshi Sharma, Xia Song, Olatunji Ruwase, Xin Wang, Rachel Ward, Guanhua Wang, Philipp Witte, Michael Wyatt, Can Xu, Jiahang Xu, Sonali Yadav, Fan Yang, Ziyi Yang, Donghan Yu, Chengruidong Zhang, Cyril Zhang, Jianwen Zhang, Li Lyna Zhang, Yi Zhang, Yunan Zhang, Xiren Zhou
主题:Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
摘要:
本文介绍了 phi-3-mini,一个拥有 38 亿参数的语言模型,在 3.3 万亿 tokens 上训练而成。该模型的整体性能——根据学术基准测试和内部测试衡量——可与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美(例如,phi-3-mini 在 MMLU 上达到 69%,在 MT-bench 上达到 8.38),同时其规模足够小,可以部署在手机上。其创新之处完全在于训练所用的数据集,这是 phi-2 所用数据集的放大版本,由经过严格过滤的网络数据和合成数据组成。该模型还进一步针对鲁棒性、安全性和对话格式进行了对齐。本文还提供了一些初始的参数扩展实验结果,包括在 4.8T tokens 上训练的 7B 和 14B 模型,分别称为 phi-3-small 和 phi-3-medium。这两个模型的能力均显著强于 phi-3-mini(例如,它们在 MMLU 上分别达到 75% 和 78%,在 MT-bench 上分别达到 8.7 和 8.9)。
论文信息:
- 提交日期:2024年4月22日(此版本为 v1,最新版本为 v4,更新于2024年8月30日)
- 页数:12页
- arXiv ID:2404.14219