数据集简介
该数据集是 Google 发布的 CodeXGLUE 基准测试的一部分,专注于代码到代码的翻译任务。它旨在评估和训练模型在不同编程语言之间进行代码转换的能力。
主要用途
- 训练和评估跨语言代码翻译模型。
- 研究代码语义理解和跨语言转换技术。
- 可作为代码迁移、代码重构或多语言编程辅助工具的基准数据集。
数据类型/模态
- 模态:文本(源代码)。
- 数据形式为编程语言对(例如,Java 到 C#,C++ 到 Python 等),包含源语言代码片段和目标语言对应翻译。
规模与统计
- 数据量:包含 11,800 个样本(行)。
- 数据格式为 Parquet,便于高效处理。
使用场景
- 机器学习研究:用于训练代码翻译的序列到序列模型(如 Transformer)。
- 自动化工具开发:构建跨语言代码转换器或编程辅助工具。
- 基准测试:在 CodeXGLUE 框架下评估模型在代码翻译任务上的性能。