bigcode/the-stack-v2-train-full-ids

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

The Stack v2 训练集（完整ID版本）是由 BigCode 团队发布的大规模代码数据集，主要用于代码生成、代码理解等大语言模型的预训练。

主要用途

代码模型预训练：为训练代码生成、补全、翻译等任务的AI模型提供海量数据。
代码分析研究：支持代码质量评估、代码克隆检测、编程语言特性分析等研究。

数据类型/模态

主要模态：文本（代码文本）
数据格式：表格（Tabular），以 Parquet 格式存储
内容：包含大量开源代码文件，涵盖多种编程语言。

规模与统计

数据量：约 6052 万行数据
下载量：544 次
受欢迎度：获得 58 个点赞

使用场景

训练或微调专用于代码任务的生成式AI模型。
作为代码语料库，用于软件工程领域的实证研究。
构建代码检索或代码推荐系统的基础数据集。

数据集地址：https://huggingface.co/datasets/bigcode/the-stack-v2-train-full-ids

63 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 11 ms

Developed with Cursor