MARS：基于多智能体协作与竞赛的复杂逻辑推理框架

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

作者： Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong

提交/修订日期： 2024年7月18日提交，2024年11月1日修订（v3）

主题/分类： 计算与语言 (cs.CL); 人工智能 (cs.AI)

会议： NeurIPS 2024

摘要

关于大语言模型（LLMs）缩放规律的研究主要集中于模型参数量和训练数据规模，而忽略了词汇表大小（vocabulary size）的作用。本文研究了词汇表大小如何影响LLM的缩放规律。我们训练了参数量从3300万到30亿的模型，使用高达5000亿字符的数据和多种词汇表配置。

我们提出了三种互补的方法来预测计算最优的词汇表大小：等计算量（IsoFLOPs）分析、导数估计和损失函数的参数拟合。这些方法得出了相同的结论：最优词汇表大小取决于计算预算，更大的模型需要更大的词汇表。然而，大多数现有LLM使用的词汇表大小不足。例如，我们预测Llama2-70B的最优词汇表大小应至少为216K，是其实际词汇表（32K）的7倍。

我们通过在不同计算量（FLOPs）预算下训练30亿参数的模型，对我们的预测进行了实证验证。采用我们预测的最优词汇表大小，其下游任务性能始终优于常用的词汇表大小。例如，在相同的2.3e21 FLOPs计算量下，将词汇表大小从常规的32K增加到43K，可以将ARC-Challenge数据集上的性能从29.1提升到32.0。

我们的工作强调了在高效预训练中需要联合考虑分词（tokenization）和模型缩放的重要性。

代码与演示： 可在 https://github.com/sail-sg/scaling-with-vocab 和 https://hf.co/spaces/sail/scaling-with-vocab-demo 获取。

论文地址：https://arxiv.org/abs/2407.13623

28 次点击 ∙ 0 人收藏

登录后收藏

0 条回复