数据集简介
该数据集由 AllenAI 发布,是一个大规模、公开可访问的文本语料库,主要用于训练大型语言模型。
主要用途
- 语言模型预训练:为大型语言模型(LLM)提供海量、多样化的训练数据。
- 文本生成与理解研究:支持文本生成、问答、摘要等自然语言处理任务的研究与开发。
数据类型/模态
- 模态:纯文本数据。
- 特点:数据经过清洗和混合处理,旨在提供高质量、多样化的语言样本。
规模与统计信息
- 数据量:约 1000 亿个词元(Token),规模庞大。
- 访问性:完全公开,无需特殊权限即可下载。
- 受欢迎程度:下载量较高,表明其在研究社区中被广泛使用。