OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  Ai2

allenai/dolma3_dolmino_mix-100B-1025

 
  Ai2  ·  2026-01-05 16:25:35  ·  21 次点击  ·  0 条评论  

数据集简介
由 AllenAI 发布的 Dolma3 Dolmino Mix 数据集,是一个大规模、纯文本的语料库,旨在支持语言模型的训练与研究。

主要用途
适用于大规模语言模型的预训练、文本生成任务研究以及自然语言处理领域的实验。

数据类型/模态
- 模态:纯文本(text)
- 格式:未指定特定格式,但可通过数据集服务器访问部分视图。

规模与统计
- 样本数量:约 1,409 万行(14,091,980 行)
- 下载量:超过 1.4 万次
- 访问权限:公开(非私有、非门控)

使用场景
- 语言模型预训练与微调
- 文本分析与生成任务
- 学术研究与工业级模型开发

21 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 28 ms
Developed with Cursor