allenai/dolma3_mix-6T-1025-7B

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

数据集简介
由 AllenAI 发布的 Dolma3 混合数据集，包含约 6 万亿个 token，适用于训练大规模语言模型。

主要用途
用于预训练或继续训练大型语言模型（如 7B 参数规模），提供高质量、多样化的文本语料。

数据类型/模态
纯文本数据，涵盖多种来源和领域，经过混合与处理。

规模与统计
- 数据量：约 6 万亿个 token
- 模型参数规模：7B（70亿参数）
- 下载量：超过 20 万次

使用场景
- 大规模语言模型的预训练
- 模型继续训练与微调的基础语料
- 研究多领域文本理解与生成

33 次点击 ∙ 0 人收藏

登录后收藏

0 条回复