OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2305.07759

TinyStories:用极简故事语料研究小模型的语言学习能力

 
  empire ·  2026-04-15 11:01:25 · 6 次点击  · 0 条评论  

TinyStories: 语言模型能有多小,仍能说出连贯的英语?

作者: Ronen Eldan, Yuanzhi Li

提交/修订日期: 2023年5月12日提交,2023年5月24日修订 (v2)

摘要:
语言模型是自然语言处理的强大工具,但当它们规模较小时,往往难以生成连贯流畅的文本。例如,拥有约1.25亿参数的模型(如GPT-Neo small或GPT-2 small),即使经过大量训练,也几乎无法生成超出几个单词的连贯一致的英语文本。这引发了一个问题:生成连贯英语文本的能力是否只出现在更大规模(数亿参数或更多)和更复杂架构(具有多层全局注意力)的模型中。

在这项工作中,我们引入了TinyStories,这是一个由GPT-3.5和GPT-4生成的短篇故事合成数据集,其中只包含典型3至4岁儿童通常能理解的词汇。我们证明,TinyStories可用于训练和评估比现有最先进模型小得多(总参数低于1000万)或架构简单得多(仅有一个Transformer块)的语言模型。这些模型仍然能够生成流畅、一致、包含多个段落的多样化故事,语法近乎完美,并展现出推理能力。

我们还引入了一种新的语言模型评估范式:我们提出了一个框架,使用GPT-4来为这些模型生成的内容评分,就像这些故事是由学生撰写并由(人类)教师评分一样。这种新范式克服了标准基准测试的缺陷(后者通常要求模型输出具有非常固定的结构),并且为模型提供了多维度的评分,针对不同能力(如语法、创造力和一致性)给出分数。

我们希望TinyStories能够促进语言模型的开发、分析和研究,特别是在低资源或特定领域,并有助于揭示语言模型语言能力的涌现。

主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
- 机器学习 (cs.LG)

arXiv标识符: arXiv:2305.07759

6 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 45 ms
Developed with Cursor