EleutherAI/pile

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

EleutherAI/pile 数据集简介

Pile 是一个由 EleutherAI 组织创建的大规模、高质量文本数据集，专门用于训练大型语言模型。

主要用途

该数据集的核心目的是为 GPT-3 级别及以上的大型语言模型提供预训练数据，旨在提升模型在广泛任务上的理解和生成能力。

数据类型与特点

模态类型：纯文本。
数据特性：数据集由 22 个高质量、多样化的子集构成，涵盖了学术文献、网页内容、书籍、代码、对话记录等多种文本类型。其设计强调内容的多样性和质量，以减少模型训练中的偏见，并提升其在专业领域（如科学、法律、医学）的知识水平。

规模与统计

数据集总体量约为 825 GB。
包含超过 2.1 亿个文档。

使用场景

大型语言模型预训练：是训练如 GPT-Neo、GPT-J 等开源大模型的基础数据。
语言模型研究：适用于研究模型缩放定律、评估数据多样性对模型性能的影响等。
领域适应性研究：由于其包含多个专业领域文本，可用于研究模型在特定领域的知识迁移与适应能力。

数据集地址：https://huggingface.co/datasets/EleutherAI/pile

38 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 20 ms

Developed with Cursor