OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  Microsoft

microsoft/rStar-Coder

 
  Microsoft  ·  2025-07-20 06:11:10  ·  10 次点击  ·  0 条评论  

rStar-Coder 数据集简介

概述

rStar-Coder 是由微软(Microsoft)发布的一个大型代码数据集,主要用于训练和评估代码生成与理解模型。

主要用途

  • 代码生成模型的训练与微调
  • 代码补全、摘要、翻译等任务的基准测试
  • 大语言模型在编程领域的应用研究

数据类型与模态

  • 模态类型:纯文本(Text)
  • 内容形式:源代码数据

规模与统计

  • 数据行数:约 185.9 万
  • 下载量:超过 1.8 万
  • 社区点赞数:229

使用场景

  • 研究人员和开发者可用于构建或改进代码智能工具
  • 适合用于训练面向多种编程语言的代码大模型
  • 可作为代码相关机器学习任务的基准数据集

技术特性

  • 数据格式:Parquet
  • 支持通过主流数据处理库(如 datasets、dask、polars)进行加载和处理
  • 非门控(公开可访问)数据集
10 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 25 ms
Developed with Cursor