OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  Skywork

Skywork/SkyPile-150B

 
  Skywork  ·  2023-12-07 06:11:28  ·  12 次点击  ·  0 条评论  

SkyPile-150B 数据集简介

SkyPile-150B 是一个由 Skywork 团队构建的大规模文本数据集,主要用于训练大型语言模型(LLM)。该数据集旨在为模型预训练提供高质量、多样化的文本语料。

主要用途

  • 大型语言模型预训练:为训练百亿参数级别或更大规模的通用语言模型提供基础数据。
  • 研究基准:可作为评估不同数据清洗、预处理或模型训练策略的基准数据集。

数据类型与规模

  • 模态:纯文本(Text)。
  • 数据格式:JSON。
  • 数据规模:包含超过 176 万 个文档样本,总数据量达到 1500 亿 词元(Token)级别,属于超大规模语料库。

数据特点与场景

  • 规模巨大:150B 词元的规模使其适用于训练当前最先进的大参数语言模型。
  • 来源多样:数据经过精心收集和清洗,涵盖了网络文本、书籍、学术论文等多种来源,以确保内容的丰富性和语言质量的可靠性。
  • 易于获取:数据集在 Hugging Face 平台公开可用(非门控状态),下载量已超过 4400 次,社区认可度较高(获得近 400 次点赞)。
12 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor