TinyStories: 语言模型能有多小，仍能说出连贯的英语？

作者： Ronen Eldan, Yuanzhi Li

提交/修订日期： 2023年5月12日提交，2023年5月24日修订 (v2)

摘要：
语言模型是自然语言处理的强大工具，但当它们规模较小时，往往难以生成连贯流畅的文本。例如，拥有约1.25亿参数的模型（如GPT-Neo small或GPT-2 small），即使经过大量训练，也几乎无法生成超出几个单词的连贯一致的英语文本。这引发了一个问题：生成连贯英语文本的能力是否只出现在更大规模（数亿参数或更多）和更复杂架构（具有多层全局注意力）的模型中。

在这项工作中，我们引入了TinyStories，这是一个由GPT-3.5和GPT-4生成的短篇故事合成数据集，其中只包含典型3至4岁儿童通常能理解的词汇。我们证明，TinyStories可用于训练和评估比现有最先进模型小得多（总参数低于1000万）或架构简单得多（仅有一个Transformer块）的语言模型。这些模型仍然能够生成流畅、一致、包含多个段落的多样化故事，语法近乎完美，并展现出推理能力。

我们还引入了一种新的语言模型评估范式：我们提出了一个框架，使用GPT-4来为这些模型生成的内容评分，就像这些故事是由学生撰写并由（人类）教师评分一样。这种新范式克服了标准基准测试的缺陷（后者通常要求模型输出具有非常固定的结构），并且为模型提供了多维度的评分，针对不同能力（如语法、创造力和一致性）给出分数。

我们希望TinyStories能够促进语言模型的开发、分析和研究，特别是在低资源或特定领域，并有助于揭示语言模型语言能力的涌现。

主题/分类：
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
- 机器学习 (cs.LG)

arXiv标识符： arXiv:2305.07759

论文地址：https://arxiv.org/abs/2305.07759

6 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

TinyStories：用极简故事语料研究小模型的语言学习能力

TinyStories: 语言模型能有多小，仍能说出连贯的英语？