The Stack v2 Dedup 数据集简介
概述
这是一个由 BigCode 组织发布的大规模、去重后的代码数据集。它是 The Stack v2 数据集的一个去重版本,旨在为代码生成、理解和分析任务提供高质量的训练数据。
主要用途
- 代码大语言模型训练:为训练如 CodeGen、StarCoder 等代码生成模型提供核心语料。
- 代码智能研究:支持代码补全、代码摘要、代码翻译、缺陷检测等研究。
- 软件开发辅助工具开发:为构建 IDE 插件、代码搜索引擎等工具提供数据基础。
数据类型与模态
- 主要模态:文本
- 数据格式:以表格形式存储的代码文本数据。
- 核心内容:包含海量经过清洗和去重的源代码文件,覆盖多种编程语言。
规模与统计
- 数据量极大:包含超过 23亿 行数据。
- 存储格式:数据以高效的 Parquet 格式提供,便于使用
datasets、dask、polars 等库进行分布式或快速处理。
特点与场景
- 高质量去重:经过专门处理,减少了代码重复,提升了数据集的整体质量,有助于模型学习更泛化的代码模式。
- 面向开发者与研究者:特别适合需要大规模、干净代码数据的人工智能研究团队和开发者。
- 工业级应用:其庞大的规模和去重特性,使其能够支持训练前沿的、实用的代码智能模型。