数据集简介
NVIDIA 发布的 Nemotron-Pretraining-Code-v2 是一个专门用于代码预训练的大规模文本数据集。
主要用途
该数据集主要用于训练和微调代码生成、代码理解、代码补全等与编程相关的 AI 模型。
数据类型与模态
- 模态类型:文本
- 数据格式:Parquet
- 内容:包含大量源代码数据,适用于语言模型的预训练。
规模与统计信息
- 数据量:包含超过 8.35 亿 行文本数据。
- 热度:下载量超过 2100 次,获得 105 次点赞。
使用场景
- 代码大模型预训练:为构建专精于编程任务的 AI 模型提供海量训练数据。
- 代码智能研究:支持代码摘要、缺陷检测、跨语言代码翻译等研究方向。
- 开发者工具增强:可用于改进 IDE 的智能补全、代码建议等功能。