数据集简介
由 BigCode 团队发布的代码数据集,是 The Stack 数据集的轻量版本,旨在为代码生成、理解和分析任务提供训练与评估资源。
主要用途
- 代码生成模型的训练与微调
- 代码理解与分析任务
- 编程语言处理研究
数据类型/模态
- 模态:表格数据(tabular)与文本(text)
- 格式:JSON
- 内容:主要包含源代码及相关元数据
规模与统计
- 数据量:30 万行(样本)
- 下载量:约 6,900 次
- 访问权限:自动门控(auto-gated)
使用场景
适用于需要中等规模代码数据的研究与开发,如构建代码补全工具、代码质量检测模型或编程教育应用。其轻量特性便于快速实验与原型开发。