数据集简介
NVIDIA 发布的 OpenCodeInstruct 是一个大规模代码指令数据集,旨在训练和评估代码生成与理解模型。
主要用途
- 用于训练和微调代码生成模型(如代码补全、代码翻译、代码解释等)。
- 支持代码相关的指令遵循(instruction-following)任务,提升模型对编程指令的理解和执行能力。
数据类型/模态
- 模态:纯文本(text)
- 内容:包含代码片段与对应的自然语言指令,涵盖多种编程语言和编程任务。
规模与统计信息
- 数据量:约 497 万行(样本)
- 格式:Parquet
- 下载量:超过 3500 次
- 点赞数:59
使用场景
- 开发代码生成 AI 助手或编程工具。
- 研究代码大模型的指令微调与泛化能力。
- 构建代码相关的问答或自动化编程系统。