数据集简介
Dolma3 Pool 是由 AllenAI 发布的一个数据集,主要用于大规模语言模型预训练的数据池构建。
主要用途
- 为大型语言模型(LLM)的预训练提供高质量、多样化的文本数据源。
- 支持数据筛选、去重和混合,以优化训练数据的质量和多样性。
数据类型/模态
- 模态:纯文本(text)
- 数据格式未明确指定,但通常包含经过清洗和预处理的网络文本、学术文献等。
规模与统计
- 下载量:约 12.4 万次
- 点赞数:32
- 访问权限:公开(非私有,无需特殊权限)
使用场景
- 适用于研究人员和开发者构建或微调语言模型。
- 可作为多语言或领域特定数据集的补充来源。
- 适合用于数据预处理、质量评估和模型训练的实验。