OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2401.02385

TinyLlama:面向高效部署的开源小型语言模型预训练

 
  chrome ·  2026-03-21 11:01:25 · 1 次点击  · 0 条评论  

TinyLlama: 一个开源的小型语言模型

作者: Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu

提交/修订日期: 2024年1月4日提交,2024年6月4日修订 (v2)

摘要:
本文介绍了TinyLlama,这是一个紧凑的11亿参数语言模型,在大约1万亿个token上进行了约3个epoch的预训练。TinyLlama基于Llama 2的架构和分词器,并利用了开源社区贡献的各种先进技术(例如FlashAttention和Lit-GPT),从而实现了更好的计算效率。尽管其规模相对较小,TinyLlama在一系列下游任务中表现出了卓越的性能,显著优于现有同等规模的开源语言模型。我们的模型检查点和代码已在GitHub上公开提供:https://github.com/jzhang38/TinyLlama。

主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)

备注: 技术报告

1 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 12 ms
Developed with Cursor