数据集简介
这是一个由 HuggingFaceTB 创建的大型教育相关数据集,主要用于代码学习与编程教育场景。
主要用途
- 支持代码学习、编程教育相关的研究与应用开发。
- 可用于训练或微调代码生成、代码解释、编程问答等模型。
数据类型/模态
- 模态类型:表格数据 (Tabular) 与文本数据 (Text)
- 数据格式:Parquet 格式
- 支持库:datasets, dask, mlcroissant, polars
规模与统计
- 数据行数:约 1.67 亿行
- 下载量:2370 次
- 点赞数:64
使用场景
- 编程教育平台的内容生成与推荐
- 代码辅助工具的训练数据
- 教育领域的大语言模型微调