SkyPile-150B 数据集简介
SkyPile-150B 是一个由 Skywork 团队构建的大规模文本数据集,主要用于训练大型语言模型(LLM)。该数据集旨在为模型预训练提供高质量、多样化的文本语料。
主要用途
- 大型语言模型预训练:为训练百亿参数级别或更大规模的通用语言模型提供基础数据。
- 研究基准:可作为评估不同数据清洗、预处理或模型训练策略的基准数据集。
数据类型与规模
- 模态:纯文本(Text)。
- 数据格式:JSON。
- 数据规模:包含超过 176 万 个文档样本,总数据量达到 1500 亿 词元(Token)级别,属于超大规模语料库。
数据特点与场景
- 规模巨大:150B 词元的规模使其适用于训练当前最先进的大参数语言模型。
- 来源多样:数据经过精心收集和清洗,涵盖了网络文本、书籍、学术论文等多种来源,以确保内容的丰富性和语言质量的可靠性。
- 易于获取:数据集在 Hugging Face 平台公开可用(非门控状态),下载量已超过 4400 次,社区认可度较高(获得近 400 次点赞)。