OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  Ai2

allenai/dolma3_longmino_mix-100B-1125

 
  Ai2  ·  2026-02-24 02:07:54  ·  27 次点击  ·  0 条评论  

数据集简介

该数据集由 AllenAI 发布,是一个大规模、公开可访问的文本语料库,主要用于训练大型语言模型。

主要用途

  • 语言模型预训练:为大型语言模型(LLM)提供海量、多样化的训练数据。
  • 文本生成与理解研究:支持文本生成、问答、摘要等自然语言处理任务的研究与开发。

数据类型/模态

  • 模态:纯文本数据。
  • 特点:数据经过清洗和混合处理,旨在提供高质量、多样化的语言样本。

规模与统计信息

  • 数据量:约 1000 亿个词元(Token),规模庞大。
  • 访问性:完全公开,无需特殊权限即可下载。
  • 受欢迎程度:下载量较高,表明其在研究社区中被广泛使用。
27 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 11 ms
Developed with Cursor