数据集简介
Ultra-FineWeb 是一个由 OpenBMB 发布的大规模文本数据集,主要用于训练和评估大型语言模型(LLM)。
主要用途
- 语言模型预训练:为大型语言模型提供高质量、多样化的训练数据。
- 模型评估基准:可用于评估模型在广泛文本理解与生成任务上的性能。
数据类型与规模
- 模态:纯文本
- 数据规模:约 12.9 亿行 文本数据,体量巨大。
- 访问权限:公开可访问(非门控数据集)。
数据特点
- 来源与质量:数据经过精细处理,旨在提供高质量、信息丰富的文本语料。
- 适用场景:适用于需要海量文本进行预训练的研究与开发项目,是构建和优化前沿语言模型的重要资源之一。