Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srinivasan Iyer
本文提出了 Byte Latent Transformer (BLT),一种新的字节级大语言模型架构,首次在规模上与基于 token 化的 LLM 性能相匹配,同时在推理效率和鲁棒性方面有显著提升。BLT 将字节编码为动态大小的 patch,并将其作为主要计算单元。Patch 根据下一个字节的熵进行分割,在数据复杂度增加时分配更多的计算和模型容量。本文展示了首个针对字节级模型的 FLOP 控制缩放研究,模型参数规模达 8B,训练字节数达 4T。结果表明,在无固定词表的情况下,基于原始字节训练的模型可以实现规模化。由于在数据可预测时动态选择长 patch,训练和推理效率均得到提升,同时在推理和长尾泛化方面也有定性改进。总体而言,在固定推理成本下,BLT 通过同时增大 patch 和模型大小,展现出比基于 token 化的模型更好的扩展性。