首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

The Stack v2 Dedup 数据集简介

概述

这是一个由 BigCode 组织发布的大规模、去重后的代码数据集。它是 The Stack v2 数据集的一个去重版本，旨在为代码生成、理解和分析任务提供高质量的训练数据。

主要用途

代码大语言模型训练：为训练如 CodeGen、StarCoder 等代码生成模型提供核心语料。
代码智能研究：支持代码补全、代码摘要、代码翻译、缺陷检测等研究。
软件开发辅助工具开发：为构建 IDE 插件、代码搜索引擎等工具提供数据基础。

数据类型与模态

主要模态：文本
数据格式：以表格形式存储的代码文本数据。
核心内容：包含海量经过清洗和去重的源代码文件，覆盖多种编程语言。

规模与统计

数据量极大：包含超过 23亿 行数据。
存储格式：数据以高效的 Parquet 格式提供，便于使用 datasets、dask、polars 等库进行分布式或快速处理。

特点与场景

高质量去重：经过专门处理，减少了代码重复，提升了数据集的整体质量，有助于模型学习更泛化的代码模式。
面向开发者与研究者：特别适合需要大规模、干净代码数据的人工智能研究团队和开发者。
工业级应用：其庞大的规模和去重特性，使其能够支持训练前沿的、实用的代码智能模型。

数据集地址：https://huggingface.co/datasets/bigcode/the-stack-v2-dedup

69 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 16 ms

Developed with Cursor