allenai/dolma3_longmino_mix-50B-1025

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

由 AllenAI 发布的 Dolma3 Longmino Mix 数据集，是一个规模达 500 亿（50B）token 的混合语料库，主要用于大规模语言模型的预训练。

主要用途

语言模型预训练：为训练或微调大型语言模型（LLM）提供高质量、多样化的文本数据。
研究基准：可作为自然语言处理（NLP）领域研究的数据基准。

数据类型/模态

模态：纯文本数据。
特点：数据经过混合与筛选，旨在提升语料的多样性和质量。

规模与统计

数据量：包含约 500 亿个 token。
版本：版本标识为 1025，推测为 2025 年 10 月 25 日发布的版本。

使用场景

适用于需要海量文本进行预训练的学术研究或工业界项目。
适合用于构建或优化多语言、多领域的通用语言模型。

数据集地址：https://huggingface.co/datasets/allenai/dolma3_longmino_mix-50B-1025

67 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 13 ms

Developed with Cursor