数据集简介
由 AllenAI 发布的 Dolma3 Dolmino Mix 数据集,是一个大规模、纯文本的语料库,旨在支持语言模型的训练与研究。
主要用途
适用于大规模语言模型的预训练、文本生成任务研究以及自然语言处理领域的实验。
数据类型/模态
- 模态:纯文本(text)
- 格式:未指定特定格式,但可通过数据集服务器访问部分视图。
规模与统计
- 样本数量:约 1,409 万行(14,091,980 行)
- 下载量:超过 1.4 万次
- 访问权限:公开(非私有、非门控)
使用场景
- 语言模型预训练与微调
- 文本分析与生成任务
- 学术研究与工业级模型开发