OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2407.13623

MARS:基于多智能体协作与竞赛的复杂逻辑推理框架

 
  bronze ·  2025-12-15 05:24:00 · 10 次点击  · 0 条评论  

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

作者: Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong

提交/修订日期: 2024年7月18日提交,2024年11月1日修订(v3)

主题/分类: 计算与语言 (cs.CL); 人工智能 (cs.AI)

会议: NeurIPS 2024

摘要

关于大语言模型(LLMs)缩放规律的研究主要集中于模型参数量和训练数据规模,而忽略了词汇表大小(vocabulary size)的作用。本文研究了词汇表大小如何影响LLM的缩放规律。我们训练了参数量从3300万到30亿的模型,使用高达5000亿字符的数据和多种词汇表配置。

我们提出了三种互补的方法来预测计算最优的词汇表大小:等计算量(IsoFLOPs)分析、导数估计和损失函数的参数拟合。这些方法得出了相同的结论:最优词汇表大小取决于计算预算,更大的模型需要更大的词汇表。然而,大多数现有LLM使用的词汇表大小不足。例如,我们预测Llama2-70B的最优词汇表大小应至少为216K,是其实际词汇表(32K)的7倍。

我们通过在不同计算量(FLOPs)预算下训练30亿参数的模型,对我们的预测进行了实证验证。采用我们预测的最优词汇表大小,其下游任务性能始终优于常用的词汇表大小。例如,在相同的2.3e21 FLOPs计算量下,将词汇表大小从常规的32K增加到43K,可以将ARC-Challenge数据集上的性能从29.1提升到32.0。

我们的工作强调了在高效预训练中需要联合考虑分词(tokenization)和模型缩放的重要性。

代码与演示: 可在 https://github.com/sail-sg/scaling-with-vocab 和 https://hf.co/spaces/sail/scaling-with-vocab-demo 获取。

10 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 50 ms
Developed with Cursor