openbmb/Ultra-FineWeb

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

Ultra-FineWeb 是一个由 OpenBMB 发布的大规模文本数据集，主要用于训练和评估大型语言模型（LLM）。

主要用途

语言模型预训练：为大型语言模型提供高质量、多样化的训练数据。
模型评估基准：可用于评估模型在广泛文本理解与生成任务上的性能。

数据类型与规模

模态：纯文本
数据规模：约 12.9 亿行 文本数据，体量巨大。
访问权限：公开可访问（非门控数据集）。

数据特点

来源与质量：数据经过精细处理，旨在提供高质量、信息丰富的文本语料。
适用场景：适用于需要海量文本进行预训练的研究与开发项目，是构建和优化前沿语言模型的重要资源之一。

数据集地址：https://huggingface.co/datasets/openbmb/Ultra-FineWeb

59 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 11 ms

Developed with Cursor