OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2305.07759v2

TinyStories:用极简高质量语料研究小模型语言学习

 
  three ·  2026-04-23 11:01:30 · 14 次点击  · 0 条评论  

TinyStories: 语言模型需要多小才能说出连贯的英语?

作者: Ronen Eldan, Yuanzhi Li

提交日期: 2023年5月12日 (v1),2023年5月24日修订 (v2)

摘要:
语言模型(LMs)是强大的自然语言处理工具,但当模型规模较小时,它们通常难以生成连贯且流畅的文本。例如,拥有约1.25亿参数的模型(如GPT-Neo小型版或GPT-2小型版)即使经过大量训练,也几乎无法生成超过几个单词的连贯且一致的英语文本。这引发了一个问题:生成连贯英语文本的能力是否只出现在更大规模(数亿参数或更多)和更复杂架构(具有多层全局注意力)的模型中。

在本研究中,我们引入了TinyStories,这是一个由GPT-3.5和GPT-4生成的短篇故事合成数据集,其中仅包含3至4岁儿童通常理解的词汇。我们证明,TinyStories可用于训练和评估比现有最先进模型小得多(总参数低于1000万)或架构简单得多(仅有一个Transformer块)的语言模型。这些模型仍然能够生成流畅、一致、包含多个段落、多样化、语法近乎完美并展现出推理能力的故事。

我们还引入了一种新的语言模型评估范式:我们提出了一个框架,使用GPT-4来对模型生成的内容进行评分,就像这些内容是学生写的故事并由(人类)教师评分一样。这种新范式克服了标准基准测试的缺陷(后者通常要求模型输出结构非常固定),并且为模型提供了多维度的分数,针对不同能力(如语法、创造力和一致性)进行评分。

我们希望TinyStories能够促进语言模型的开发、分析和研究,特别是在资源有限或专业领域,并揭示语言模型语言能力的涌现过程。

主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
- 机器学习 (cs.LG)

arXiv标识符: arXiv:2305.07759 [cs.CL]

14 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 20 ms
Developed with Cursor