OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2404.14219v2

RLAIF-V:基于 AI 反馈的视觉语言模型对齐方法

 
  intuition ·  2026-05-10 11:01:23 · 13 次点击  · 0 条评论  

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

作者

Marah Abdin, Sam Ade Jacobs, Ammar Ahmad Awan, Jyoti Aneja, Ahmed Awadallah, Hany Awadalla, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Harkirat Behl, Alon Benhaim, Misha Bilenko, Johan Bjorck, Sébastien Bubeck, Martin Cai, Caio César Teodoro Mendes, Weizhu Chen, Vishrav Chaudhary, Parul Chopra, Allie Del Giorno, Gustavo de Rosa, Matthew Dixon, Ronen Eldan, Dan Iter, Amit Garg, Abhishek Goswami, Suriya Gunasekar, Emman Haider, Junheng Hao, Russell J. Hewett, Jamie Huynh, Mojan Javaheripi, Xin Jin, Piero Kauffmann, Nikos Karampatziakis, Dongwoo Kim, Mahoud Khademi, Lev Kurilenko, James R. Lee, Yin Tat Lee, Yuanzhi Li, Chen Liang, Weishung Liu, Eric Lin, Zeqi Lin, Piyush Madan, Arindam Mitra, Hardik Modi, Anh Nguyen, Brandon Norick, Barun Patra, Daniel Perez-Becker, Thomas Portet, Reid Pryzant, Heyang Qin, Marko Radmilac, Corby Rosset, Sambudha Roy, Olatunji Ruwase, Olli Saarikivi, Amin Saied, Adil Salim, Michael Santacroce, Shital Shah, Ning Shang, Hiteshi Sharma, Xia Song, Masahiro Tanaka, Xin Wang, Rachel Ward, Guanhua Wang, Philipp Witte, Michael Wyatt, Can Xu, Jiahang Xu, Sonali Yadav, Fan Yang, Ziyi Yang, Donghan Yu, Chengruidong Zhang, Cyril Zhang, Jianwen Zhang, Li Lyna Zhang, Yi Zhang, Yue Zhang, Yunan Zhang, Xiren Zhou

摘要

本文介绍了 phi-3-mini,一个拥有 38 亿参数、在 3.3 万亿 token 上训练的语言模型。尽管该模型小到可以部署在手机上,但其整体性能(通过学术基准和内部测试衡量)可与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美(例如,phi-3-mini 在 MMLU 上达到 69%,在 MT-bench 上达到 8.38)。其创新完全在于训练数据集——这是 phi-2 所用数据集的放大版本,由经过严格过滤的网络数据和合成数据组成。该模型还针对鲁棒性、安全性和聊天格式进行了进一步的对齐。此外,本文还提供了一些初始的参数缩放实验结果,包括在 4.8 万亿 token 上训练的 7B 和 14B 模型,分别称为 phi-3-small 和 phi-3-medium,两者的能力均显著强于 phi-3-mini(例如,在 MMLU 上分别达到 75% 和 78%,在 MT-bench 上分别达到 8.7 和 8.9)。

主题/分类

  • 主要学科:Computation and Language (cs.CL)
  • 相关学科:Artificial Intelligence (cs.AI)

其他信息

  • 提交日期:2024年4月22日(v1),修订于2024年4月23日(v2)
  • 页数:12页
  • arXiv ID:2404.14219
13 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 42 ms
Developed with Cursor