数据集简介
NVIDIA Nemotron-CC-v2 是一个由 NVIDIA 发布的大规模文本数据集,主要用于训练大型语言模型。
主要用途
该数据集旨在为大规模语言模型的预训练提供高质量的文本语料,适用于构建和优化生成式 AI 模型。
数据类型与规模
- 模态类型:纯文本。
- 数据规模:数据总量极大,包含约 87.9 亿行文本数据。
- 存储格式:数据以 Parquet 格式存储,便于高效处理和分析。
使用场景
- 模型预训练:作为基础语料库,用于从头开始训练或继续预训练大型语言模型。
- 研究开发:适用于 AI 研究机构和企业进行自然语言处理、文本生成等相关领域的模型开发与实验。