作者: Ronen Eldan, Yuanzhi Li
提交/修订日期: 2023年5月12日提交,2023年5月24日修订 (v2)
摘要:
语言模型是自然语言处理的强大工具,但当它们规模较小时,往往难以生成连贯流畅的文本。例如,拥有约1.25亿参数的模型(如GPT-Neo small或GPT-2 small),即使经过大量训练,也几乎无法生成超出几个单词的连贯一致的英语文本。这引发了一个问题:生成连贯英语文本的能力是否只出现在更大规模(数亿参数或更多)和更复杂架构(具有多层全局注意力)的模型中。
在这项工作中,我们引入了TinyStories,这是一个由GPT-3.5和GPT-4生成的短篇故事合成数据集,其中只包含典型3至4岁儿童通常能理解的词汇。我们证明,TinyStories可用于训练和评估比现有最先进模型小得多(总参数低于1000万)或架构简单得多(仅有一个Transformer块)的语言模型。这些模型仍然能够生成流畅、一致、包含多个段落的多样化故事,语法近乎完美,并展现出推理能力。
我们还引入了一种新的语言模型评估范式:我们提出了一个框架,使用GPT-4来为这些模型生成的内容评分,就像这些故事是由学生撰写并由(人类)教师评分一样。这种新范式克服了标准基准测试的缺陷(后者通常要求模型输出具有非常固定的结构),并且为模型提供了多维度的评分,针对不同能力(如语法、创造力和一致性)给出分数。
我们希望TinyStories能够促进语言模型的开发、分析和研究,特别是在低资源或特定领域,并有助于揭示语言模型语言能力的涌现。
主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
- 机器学习 (cs.LG)
arXiv标识符: arXiv:2305.07759