allenai/dolma3_longmino_mix-100B-1125

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

该数据集由 AllenAI 发布，是一个大规模、公开可访问的文本语料库，主要用于训练大型语言模型。

主要用途

语言模型预训练：为大型语言模型（LLM）提供海量、多样化的训练数据。
文本生成与理解研究：支持文本生成、问答、摘要等自然语言处理任务的研究与开发。

数据类型/模态

模态：纯文本数据。
特点：数据经过清洗和混合处理，旨在提供高质量、多样化的语言样本。

规模与统计信息

数据量：约 1000 亿个词元（Token），规模庞大。
访问性：完全公开，无需特殊权限即可下载。
受欢迎程度：下载量较高，表明其在研究社区中被广泛使用。

数据集地址：https://huggingface.co/datasets/allenai/dolma3_longmino_mix-100B-1125

58 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 10 ms

Developed with Cursor