数据集简介
该数据集是一个经过去重处理的大规模代码数据集,主要用于训练和评估代码生成、理解相关的机器学习模型。
主要用途
- 代码生成模型的训练与微调
- 代码补全、摘要、翻译等任务
- 代码质量分析与模式挖掘
数据类型/模态
- 模态类型:表格数据(tabular)与文本(text)
- 内容形式:以 Parquet 格式存储的结构化代码数据
规模与统计
- 数据量:约 2.37 亿行(236,655,813 行)
- 下载量:超过 1.5 万次
- 社区反馈:获 381 次点赞
使用场景
- 为大型语言模型(特别是代码专用模型)提供高质量训练数据
- 支持代码相关的学术研究与工业应用开发
- 可作为代码数据预处理和去重方法的基准数据集
特点说明
- 数据集经过专门去重处理,提升了数据质量与训练效率
- 采用 Parquet 格式,便于高效存储与读取
- 由 BigCode 社区维护,在代码 AI 领域具有较高认可度