数据集简介
该数据集由 Google 发布,专注于代码缺陷检测任务,是 CodeXGLUE 基准测试的一部分。它旨在通过机器学习方法自动识别源代码中的缺陷(Bug)。
主要用途
用于训练和评估代码缺陷检测模型,支持软件质量保障、自动化代码审查等研究与应用。
数据类型/模态
- 模态类型:文本(源代码)
- 数据以 Parquet 格式存储,包含 27,318 行样本。
数据特性
- 数据集规模中等,适用于模型训练与基准测试。
- 作为 CodeXGLUE 的组成部分,常用于评估模型在代码理解与缺陷检测方面的能力。
使用场景
- 机器学习研究:代码缺陷检测、程序理解。
- 软件开发工具:集成到 IDE 或 CI/CD 流程中,辅助代码质量检查。