数据集简介
Dolma 是由 AllenAI 发布的一个大规模、开放的多语言文本数据集,旨在支持语言模型预训练和研究。
主要用途
- 用于训练和评估大规模语言模型(LLMs)
- 支持多语言自然语言处理研究
- 可作为文本语料库用于各种 NLP 任务
数据类型/模态
规模与统计
- 数据量极大,包含数万亿 tokens
- 来源广泛,包括网页、学术文献、代码、书籍等
使用场景
- 语言模型预训练:为 GPT、BERT 等模型提供训练数据
- 多语言 NLP 研究:支持跨语言理解和生成任务
- 数据质量分析:研究网络文本的分布和质量
- 教育研究:分析教育相关文本内容
特点
- 开放许可:采用开放数据协议,允许研究和商业使用
- 经过严格的去重、过滤和质量控制
- 包含丰富的数据来源和类型
- 专门为 AI 研究社区设计