数据集简介
该数据集是 Google 发布的 CodeXGLUE 基准测试的一部分,专注于代码克隆检测任务。它基于 BigCloneBench 基准构建,用于训练和评估模型识别功能相似或重复的代码片段(即代码克隆)。
主要用途
- 代码克隆检测:判断两段代码是否在功能上相似或重复。
- 模型训练与评估:作为机器学习(特别是代码理解领域)模型的基准数据集。
数据类型/模态
- 模态:表格数据(tabular)与文本(text)的结合。
- 内容:包含代码片段对及其是否为克隆的标签。
规模与统计
- 数据量:约 173 万行数据。
- 格式:以 Parquet 格式存储,支持高效处理。
使用场景
- 代码去重与维护:帮助识别项目中的重复代码,提高代码质量。
- 学术研究:用于代码表示学习、克隆检测算法的研究与比较。
- 教育工具:作为教学示例,展示代码相似性分析的实际应用。