rStar-Coder 数据集简介
概述
rStar-Coder 是由微软(Microsoft)发布的一个大型代码数据集,主要用于训练和评估代码生成与理解模型。
主要用途
- 代码生成模型的训练与微调
- 代码补全、摘要、翻译等任务的基准测试
- 大语言模型在编程领域的应用研究
数据类型与模态
- 模态类型:纯文本(Text)
- 内容形式:源代码数据
规模与统计
- 数据行数:约 185.9 万 条
- 下载量:超过 1.8 万 次
- 社区点赞数:229
使用场景
- 研究人员和开发者可用于构建或改进代码智能工具
- 适合用于训练面向多种编程语言的代码大模型
- 可作为代码相关机器学习任务的基准数据集
技术特性
- 数据格式:Parquet
- 支持通过主流数据处理库(如 datasets、dask、polars)进行加载和处理
- 非门控(公开可访问)数据集