作者: 01.AI, Alex Young, Bei Chen, Chao Li, Chengen Huang, Ge Zhang, Guanwei Zhang, Guoyin Wang, Heng Li, Jiangcheng Zhu, Jianqun Chen, Jing Chang, Kaidong Yu, Peng Liu, Qiang Liu, Shawn Yue, Senbin Yang, Shiming Yang, Wen Xie, Wenhao Huang, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Pengcheng Nie, Yanpeng Li, Yuchi Xu, Yudong Liu, Yue Wang, Yuxuan Cai, Zhenyu Gu, Zhiyuan Liu, Zonghong Dai
提交/修订日期: 2024年3月7日提交,2025年1月21日修订 (v3)
摘要:
本文介绍了 Yi 模型系列,这是一系列展现出强大多维能力的语言和多模态模型。Yi 模型系列基于 6B 和 34B 的预训练语言模型,并进一步扩展为对话模型、200K 长上下文模型、深度扩展模型以及视觉-语言模型。我们的基础模型在 MMLU 等广泛基准测试中表现出色,而经过微调的对话模型在 AlpacaEval 和 Chatbot Arena 等主要评估平台上获得了很高的人类偏好率。基于可扩展的超算基础设施和经典的 Transformer 架构,我们将 Yi 模型的优异性能主要归功于数据工程带来的高质量数据。在预训练阶段,我们通过级联数据去重和质量过滤流程,构建了包含 3.1 万亿词元的英文和中文语料库。在微调阶段,我们对一个小规模(少于 1 万条)的指令数据集进行了多轮迭代打磨,确保每一条数据都经过机器学习工程师的直接验证。对于视觉-语言模型,我们将对话语言模型与视觉 Transformer 编码器结合,训练模型将视觉表征对齐到语言模型的语义空间。我们通过轻量级的持续预训练将上下文长度扩展到 200K,并展示了强大的“大海捞针”检索性能。我们还证明了通过持续预训练扩展预训练检查点的深度可以进一步提升性能。我们相信,基于当前的结果,继续使用经过彻底优化的数据来扩大模型参数量,将催生出更强大的前沿模型。
主题/分类: 计算与语言 (cs.CL); 人工智能 (cs.AI)