CommitPack 是由 BigCode 团队发布的一个数据集,主要用于代码生成与编程相关的机器学习研究。
该数据集旨在支持代码补全、代码生成、代码理解等任务的模型训练与评估。
数据主要包含从版本控制系统(如 Git)中提取的代码提交(commits),通常包括提交前后的代码差异、提交信息等文本数据。
适用于训练和微调大型语言模型(特别是代码模型),以提升其在代码编辑、自动补全、bug修复等软件开发辅助任务上的性能。