这是一个由 NVIDIA 发布的大规模代码预训练数据集,旨在为大型语言模型(LLM)提供高质量的代码数据进行预训练。
用于训练或微调能够理解和生成代码的 AI 模型,例如代码补全、代码生成、代码翻译或代码解释等任务。
该数据集适用于: * 模型预训练:作为基础训练数据,构建具有强大代码能力的通用或专用代码模型。 * 研究开发:用于代码智能、程序合成、AI 辅助编程等领域的研究与实验。 * 行业应用:为开发智能编程助手、自动化代码审查工具等提供数据支持。