bigcode/the-stack-v2-train-smol-ids

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

这是 BigCode 项目发布的 The Stack v2 数据集的一个子集，专门用于训练代码生成模型。该版本经过优化，包含经过处理的代码标识符（smol-ids），旨在提升模型在代码理解和生成任务上的表现。

主要用途

训练和微调代码生成模型（如代码补全、代码翻译等）
研究代码语言模型的预训练与优化
支持大语言模型在编程领域的应用开发

数据类型/模态

主要模态：文本（代码）
数据格式：表格型（tabular），以 Parquet 格式存储
内容为经过处理的源代码文件，重点关注标识符的规范化表示

规模与统计

数据量：约 4013 万行（40,138,809 行）
下载量：1264 次
受欢迎程度：47 个点赞

使用场景

机器学习研究：用于训练专注于代码处理的 AI 模型
开发者工具：构建智能编程助手、代码自动补全工具
教育技术：支持编程教学和代码质量分析工具的开发

特点

数据经过预处理，标识符被简化（smol-ids），可能有助于模型更好地泛化
作为 The Stack v2 的一部分，涵盖多种编程语言和项目
采用高效的 Parquet 格式，便于大规模数据处理和分布式计算

数据集地址：https://huggingface.co/datasets/bigcode/the-stack-v2-train-smol-ids

71 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 15 ms

Developed with Cursor