OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  BigCode

bigcode/the-stack-dedup

 
  BigCode  ·  2023-08-17 08:21:58  ·  19 次点击  ·  0 条评论  

数据集简介

该数据集是一个经过去重处理的大规模代码数据集,主要用于训练和评估代码生成、理解相关的机器学习模型。

主要用途

  • 代码生成模型的训练与微调
  • 代码补全、摘要、翻译等任务
  • 代码质量分析与模式挖掘

数据类型/模态

  • 模态类型:表格数据(tabular)与文本(text)
  • 内容形式:以 Parquet 格式存储的结构化代码数据

规模与统计

  • 数据量:约 2.37 亿行(236,655,813 行)
  • 下载量:超过 1.5 万次
  • 社区反馈:获 381 次点赞

使用场景

  • 为大型语言模型(特别是代码专用模型)提供高质量训练数据
  • 支持代码相关的学术研究与工业应用开发
  • 可作为代码数据预处理和去重方法的基准数据集

特点说明

  • 数据集经过专门去重处理,提升了数据质量与训练效率
  • 采用 Parquet 格式,便于高效存储与读取
  • 由 BigCode 社区维护,在代码 AI 领域具有较高认可度
19 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 12 ms
Developed with Cursor