数据集简介
该数据集是 Google 发布的 CodeXGLUE 基准测试的一部分,专注于代码克隆检测任务。具体来说,它基于 POJ-104 数据集构建,旨在评估模型识别功能相似但实现方式不同的代码片段(即代码克隆)的能力。
主要用途
用于训练和评估代码克隆检测模型,是代码理解和软件工程领域的重要基准。
数据类型/模态
- 模态:文本
- 内容:编程代码片段(具体语言未在元数据中明确,但 POJ-104 通常包含 C/C++ 代码)。
规模与统计信息
- 数据量:53,000 行数据
- 格式:Parquet
- 下载量:188 次
- 点赞数:8
使用场景
- 代码克隆检测研究:开发能够自动识别重复或相似代码的算法。
- 模型基准测试:作为评估代码表示学习、代码相似性分析等模型性能的标准数据集。
- 软件质量维护:辅助发现代码库中的冗余代码,有助于重构和维护。