作者: Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample
提交日期: 2023年2月27日
摘要:
我们介绍了LLaMA,一个包含从70亿到650亿参数的基础语言模型集合。我们在数万亿个token上训练我们的模型,并证明仅使用公开可用的数据集,无需依赖专有和难以获取的数据集,就有可能训练出最先进的模型。具体而言,LLaMA-13B在大多数基准测试中优于GPT-3(175B),而LLaMA-65B则与最佳模型Chinchilla-70B和PaLM-540B相竞争。我们将所有模型向研究社区开源。
主题分类: 计算与语言 (cs.CL)