TinyStories: 语言模型需要多小才能说出连贯的英语？

作者: Ronen Eldan, Yuanzhi Li

提交日期: 2023年5月12日 (v1)，2023年5月24日修订 (v2)

摘要:
语言模型（LMs）是强大的自然语言处理工具，但当模型规模较小时，它们通常难以生成连贯且流畅的文本。例如，拥有约1.25亿参数的模型（如GPT-Neo小型版或GPT-2小型版）即使经过大量训练，也几乎无法生成超过几个单词的连贯且一致的英语文本。这引发了一个问题：生成连贯英语文本的能力是否只出现在更大规模（数亿参数或更多）和更复杂架构（具有多层全局注意力）的模型中。

在本研究中，我们引入了TinyStories，这是一个由GPT-3.5和GPT-4生成的短篇故事合成数据集，其中仅包含3至4岁儿童通常理解的词汇。我们证明，TinyStories可用于训练和评估比现有最先进模型小得多（总参数低于1000万）或架构简单得多（仅有一个Transformer块）的语言模型。这些模型仍然能够生成流畅、一致、包含多个段落、多样化、语法近乎完美并展现出推理能力的故事。

我们还引入了一种新的语言模型评估范式：我们提出了一个框架，使用GPT-4来对模型生成的内容进行评分，就像这些内容是学生写的故事并由（人类）教师评分一样。这种新范式克服了标准基准测试的缺陷（后者通常要求模型输出结构非常固定），并且为模型提供了多维度的分数，针对不同能力（如语法、创造力和一致性）进行评分。

我们希望TinyStories能够促进语言模型的开发、分析和研究，特别是在资源有限或专业领域，并揭示语言模型语言能力的涌现过程。

主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
- 机器学习 (cs.LG)

arXiv标识符: arXiv:2305.07759 [cs.CL]

论文地址：https://arxiv.org/abs/2305.07759v2

14 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

TinyStories：用极简高质量语料研究小模型语言学习

TinyStories: 语言模型需要多小才能说出连贯的英语？