bigcode/the-stack-v2

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

The Stack v2 是由 BigCode 团队发布的大规模代码数据集，主要用于训练和评估代码生成模型。

主要用途

代码生成模型的训练与微调
代码补全、代码翻译等任务的基准测试
代码相关的大语言模型研究

数据类型/模态

主要模态：文本（代码）
数据格式：表格形式（Tabular），存储为 Parquet 文件
内容类型：涵盖多种编程语言的源代码

规模与统计

数据量：约 54.5 亿行（5.45 billion rows）
下载量：超过 7400 次
社区评价：获得 474 次点赞

使用场景

为代码大模型（如 StarCoder）提供预训练数据
支持多语言代码分析与生成研究
适用于需要大规模、高质量代码数据的机器学习项目

特点

数据经过筛选和去重，质量较高
支持通过 Hugging Face Datasets 等工具便捷访问
采用自动门控机制（gated: auto），平衡开放访问与责任使用

数据集地址：https://huggingface.co/datasets/bigcode/the-stack-v2

65 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 13 ms

Developed with Cursor