allenai/dolma3_dolmino

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

数据集简介
由 AllenAI 发布的 Dolma3 Dolmino Mix 数据集，是一个大规模、纯文本的语料库，旨在支持语言模型的训练与研究。

主要用途
适用于大规模语言模型的预训练、文本生成任务研究以及自然语言处理领域的实验。

数据类型/模态
- 模态：纯文本（text）
- 格式：未指定特定格式，但可通过数据集服务器访问部分视图。

规模与统计
- 样本数量：约 1,409 万行（14,091,980 行）
- 下载量：超过 1.4 万次
- 访问权限：公开（非私有、非门控）

使用场景
- 语言模型预训练与微调
- 文本分析与生成任务
- 学术研究与工业级模型开发

72 次点击 ∙ 0 人收藏

登录后收藏

0 条回复