bigcode/the-stack-dedup

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

该数据集是一个经过去重处理的大规模代码数据集，主要用于训练和评估代码生成、理解相关的机器学习模型。

主要用途

代码生成模型的训练与微调
代码补全、摘要、翻译等任务
代码质量分析与模式挖掘

数据类型/模态

模态类型：表格数据（tabular）与文本（text）
内容形式：以 Parquet 格式存储的结构化代码数据

规模与统计

数据量：约 2.37 亿行（236,655,813 行）
下载量：超过 1.5 万次
社区反馈：获 381 次点赞

使用场景

为大型语言模型（特别是代码专用模型）提供高质量训练数据
支持代码相关的学术研究与工业应用开发
可作为代码数据预处理和去重方法的基准数据集

特点说明

数据集经过专门去重处理，提升了数据质量与训练效率
采用 Parquet 格式，便于高效存储与读取
由 BigCode 社区维护，在代码 AI 领域具有较高认可度

数据集地址：https://huggingface.co/datasets/bigcode/the-stack-dedup

72 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 14 ms

Developed with Cursor