数据集简介
Google 发布的 CodeXGLUE 子集,专注于文本到代码生成任务。该数据集旨在训练和评估模型将自然语言描述转换为对应代码的能力。
主要用途
- 代码生成:根据文本描述自动生成代码片段。
- 模型评估:作为代码生成模型的基准测试数据集。
数据类型与模态
- 模态:纯文本(包含自然语言描述和代码)。
- 格式:Parquet 格式,便于高效处理。
规模与统计
- 数据量:包含 104,000 行数据。
- 下载量:423 次(截至统计时)。
- 社区反馈:获得 30 个点赞。
使用场景
- 适用于代码智能、程序合成、AI 辅助编程等领域的研究与开发。
- 可用于训练和测试基于 Transformer 等架构的代码生成模型。