OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  EleutherAI

EleutherAI/pile

 
  EleutherAI  ·  2023-05-03 15:58:14  ·  22 次点击  ·  0 条评论  

EleutherAI/pile 数据集简介

Pile 是一个由 EleutherAI 组织创建的大规模、高质量文本数据集,专门用于训练大型语言模型。

主要用途

该数据集的核心目的是为 GPT-3 级别及以上的大型语言模型提供预训练数据,旨在提升模型在广泛任务上的理解和生成能力。

数据类型与特点

  • 模态类型:纯文本。
  • 数据特性:数据集由 22 个高质量、多样化的子集构成,涵盖了学术文献、网页内容、书籍、代码、对话记录等多种文本类型。其设计强调内容的多样性和质量,以减少模型训练中的偏见,并提升其在专业领域(如科学、法律、医学)的知识水平。

规模与统计

  • 数据集总体量约为 825 GB。
  • 包含超过 2.1 亿个文档。

使用场景

  • 大型语言模型预训练:是训练如 GPT-Neo、GPT-J 等开源大模型的基础数据。
  • 语言模型研究:适用于研究模型缩放定律、评估数据多样性对模型性能的影响等。
  • 领域适应性研究:由于其包含多个专业领域文本,可用于研究模型在特定领域的知识迁移与适应能力。
22 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 16 ms
Developed with Cursor