nvidia/Nemotron-Post-Training-Dataset-v1

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

NVIDIA 发布的 Nemotron 后训练数据集 v1 版本，主要用于大语言模型（LLM）的后训练阶段，旨在提升模型的通用能力和指令遵循性能。

主要用途

模型后训练：为已完成预训练的大语言模型提供高质量的后续训练数据。
能力增强：帮助模型学习更广泛的指令响应、对话和文本生成模式。

数据类型与模态

模态：纯文本
格式：Parquet 格式，便于高效存储与处理。

规模与统计

数据量：包含超过 2565 万条文本样本。
热度：下载量超过 4000 次，获得 173 次点赞。

使用场景

适用于需要进一步精调或对齐预训练语言模型的研究与开发工作，特别是在构建遵循指令、对话流畅的 AI 助手类应用时。

数据集地址：https://huggingface.co/datasets/nvidia/Nemotron-Post-Training-Dataset-v1

58 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 10 ms

Developed with Cursor