LLaMA：高效开放式大语言模型

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

作者: Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample

提交日期: 2023年2月27日

摘要:
我们介绍了LLaMA，一个包含从70亿到650亿参数的基础语言模型集合。我们在数万亿个token上训练我们的模型，并证明仅使用公开可用的数据集，无需依赖专有和难以获取的数据集，就有可能训练出最先进的模型。具体而言，LLaMA-13B在大多数基准测试中优于GPT-3（175B），而LLaMA-65B则与最佳模型Chinchilla-70B和PaLM-540B相竞争。我们将所有模型向研究社区开源。

主题分类: 计算与语言 (cs.CL)

论文地址：https://arxiv.org/abs/2302.13971

32 次点击 ∙ 0 人收藏

登录后收藏

0 条回复