Skywork/SkyPile-150B

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

SkyPile-150B 数据集简介

SkyPile-150B 是一个由 Skywork 团队构建的大规模文本数据集，主要用于训练大型语言模型（LLM）。该数据集旨在为模型预训练提供高质量、多样化的文本语料。

主要用途

大型语言模型预训练：为训练百亿参数级别或更大规模的通用语言模型提供基础数据。
研究基准：可作为评估不同数据清洗、预处理或模型训练策略的基准数据集。

数据类型与规模

模态：纯文本（Text）。
数据格式：JSON。
数据规模：包含超过 176 万 个文档样本，总数据量达到 1500 亿 词元（Token）级别，属于超大规模语料库。

数据特点与场景

规模巨大：150B 词元的规模使其适用于训练当前最先进的大参数语言模型。
来源多样：数据经过精心收集和清洗，涵盖了网络文本、书籍、学术论文等多种来源，以确保内容的丰富性和语言质量的可靠性。
易于获取：数据集在 Hugging Face 平台公开可用（非门控状态），下载量已超过 4400 次，社区认可度较高（获得近 400 次点赞）。

数据集地址：https://huggingface.co/datasets/Skywork/SkyPile-150B

33 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 12 ms

Developed with Cursor