nvidia/Nemotron-Pretraining-Code-v2

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

NVIDIA 发布的 Nemotron-Pretraining-Code-v2 是一个专门用于代码预训练的大规模文本数据集。

主要用途

该数据集主要用于训练和微调代码生成、代码理解、代码补全等与编程相关的 AI 模型。

数据类型与模态

模态类型：文本
数据格式：Parquet
内容：包含大量源代码数据，适用于语言模型的预训练。

规模与统计信息

数据量：包含超过 8.35 亿 行文本数据。
热度：下载量超过 2100 次，获得 105 次点赞。

使用场景

代码大模型预训练：为构建专精于编程任务的 AI 模型提供海量训练数据。
代码智能研究：支持代码摘要、缺陷检测、跨语言代码翻译等研究方向。
开发者工具增强：可用于改进 IDE 的智能补全、代码建议等功能。

数据集地址：https://huggingface.co/datasets/nvidia/Nemotron-Pretraining-Code-v2

63 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 27 ms

Developed with Cursor