数据集简介
The Stack 是一个由 BigCode 组织创建的大规模开源代码数据集,主要用于训练和评估代码生成模型。
主要用途
- 训练代码生成、补全和翻译的机器学习模型。
- 支持代码相关的自然语言处理研究。
- 为编程辅助工具提供数据基础。
数据类型/模态
- 模态:表格数据(tabular)与文本(text)。
- 内容:主要包含源代码文件及其元数据。
规模与统计信息
- 数据量:包含约 5.46 亿行数据。
- 存储格式:Parquet 格式。
- 下载量:超过 1.8 万次。
- 社区认可:获得近千次点赞。
使用场景
- 开发基于 AI 的代码助手(如 GitHub Copilot 类工具)。
- 研究代码的语义理解和生成。
- 构建代码质量分析或自动化编程系统。