作者: Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu
提交/修订日期: 2024年1月4日提交,2024年6月4日修订 (v2)
摘要:
本文介绍了TinyLlama,这是一个紧凑的11亿参数语言模型,在大约1万亿个token上进行了约3个epoch的预训练。TinyLlama基于Llama 2的架构和分词器,并利用了开源社区贡献的各种先进技术(例如FlashAttention和Lit-GPT),从而实现了更好的计算效率。尽管其规模相对较小,TinyLlama在一系列下游任务中表现出了卓越的性能,显著优于现有同等规模的开源语言模型。我们的模型检查点和代码已在GitHub上公开提供:https://github.com/jzhang38/TinyLlama。
主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
备注: 技术报告