首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

NVIDIA Nemotron-Pretraining-Specialized-v1 数据集介绍

数据集简介

这是一个由 NVIDIA 发布的、专门用于模型预训练的大规模文本数据集。它包含了超过 6000 万行文本数据，旨在为大型语言模型的训练提供高质量的语料。

主要用途

该数据集主要用于大型语言模型的预训练，特别是为生成式 AI 模型提供基础训练数据。它适用于训练或微调具有专业领域知识的语言模型。

数据类型与模态

模态类型：纯文本
数据格式：Parquet
数据规模：包含约 6065 万行文本数据

特点与使用场景

大规模专业化语料：数据集规模庞大，专为预训练设计，有助于模型学习广泛的语义和知识。
易于处理：采用 Parquet 格式存储，兼容多种数据处理库（如 datasets, dask, polars, mlcroissant），便于高效加载和分析。
开源可用：数据集非私有且无需特殊权限即可访问，方便研究者和开发者使用。
应用场景：适用于训练基础语言模型、进行模型微调、语言理解研究以及任何需要大规模文本数据的机器学习项目。

数据集地址：https://huggingface.co/datasets/nvidia/Nemotron-Pretraining-Specialized-v1

59 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 12 ms

Developed with Cursor