数据集简介
该数据集是 Google 发布的 CodeXGLUE 基准测试的一部分,专注于 代码补全(Code Completion) 任务,具体是 基于令牌(Token)级别的代码补全。
主要用途
用于训练和评估代码生成模型,特别是针对 预测代码中下一个令牌(Token) 的任务。这是代码智能和自动编程辅助的核心任务之一。
数据类型/模态
- 模态:文本(代码文本)
- 数据格式:Parquet
- 任务类型:序列预测(代码令牌补全)
规模与统计
- 数据量:包含约 178,391 行数据。
- 来源:数据来源于公开的代码库,经过处理以适用于令牌级补全任务。
使用场景
- 模型训练:训练深度学习模型(如Transformer)进行代码补全。
- 基准测试:作为评估代码生成模型在令牌预测任务上性能的标准基准。
- 研究开发:适用于代码智能、程序合成、AI辅助编程工具等相关领域的研究与开发。