首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

NVIDIA Nemotron-Pretraining-SFT-v1 数据集

简介

这是一个由 NVIDIA 发布的大型文本数据集，主要用于语言模型的预训练和指令微调（Supervised Fine-Tuning, SFT）。

主要用途

语言模型预训练：为大型语言模型提供大规模的训练语料。
指令微调（SFT）：用于对预训练模型进行有监督的指令对齐微调，以提升模型遵循人类指令的能力。

数据特性

模态类型：纯文本。
数据规模：包含约 2.99 亿 条文本样本，数据量非常庞大。
数据格式：以 Parquet 格式存储，支持通过 datasets、dask、polars 等库高效读取和处理。

使用场景

训练或微调各类生成式语言模型。
研究大规模文本数据的处理与模型训练技术。
作为指令遵循模型（如聊天助手）开发的基础训练数据。

其他信息

访问方式：需要手动申请访问权限（gated: manual）。
来源：NVIDIA
数据集地址：nvidia/Nemotron-Pretraining-SFT-v1

数据集地址：https://huggingface.co/datasets/nvidia/Nemotron-Pretraining-SFT-v1

22 次点击 ∙ 0 人收藏

登录后收藏

文本处理

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 12 ms

Developed with Cursor