EleutherAI/pile 数据集简介
Pile 是一个由 EleutherAI 组织创建的大规模、高质量文本数据集,专门用于训练大型语言模型。
主要用途
该数据集的核心目的是为 GPT-3 级别及以上的大型语言模型提供预训练数据,旨在提升模型在广泛任务上的理解和生成能力。
数据类型与特点
- 模态类型:纯文本。
- 数据特性:数据集由 22 个高质量、多样化的子集构成,涵盖了学术文献、网页内容、书籍、代码、对话记录等多种文本类型。其设计强调内容的多样性和质量,以减少模型训练中的偏见,并提升其在专业领域(如科学、法律、医学)的知识水平。
规模与统计
- 数据集总体量约为 825 GB。
- 包含超过 2.1 亿个文档。
使用场景
- 大型语言模型预训练:是训练如 GPT-Neo、GPT-J 等开源大模型的基础数据。
- 语言模型研究:适用于研究模型缩放定律、评估数据多样性对模型性能的影响等。
- 领域适应性研究:由于其包含多个专业领域文本,可用于研究模型在特定领域的知识迁移与适应能力。