数据集简介
OpenAI HumanEval 是由 OpenAI 发布的一个代码生成评估数据集,主要用于测试和评估大语言模型在代码生成任务上的能力。
主要用途
该数据集的核心用途是作为代码生成模型的基准测试集,用于衡量模型根据自然语言描述(问题陈述)生成正确 Python 代码的能力。
数据类型/模态
- 模态:文本
- 内容:包含编程问题描述、函数签名、以及对应的单元测试用例。
规模与统计
- 数据量:包含 164 个独立的编程问题。
- 格式:数据集以 Parquet 格式提供。
使用场景
- 模型评估与基准测试:研究人员和开发者使用此数据集来客观比较不同代码生成模型(如 Codex、GPT 系列等)的性能。
- 模型训练与微调:可作为训练数据的一部分,用于提升模型理解编程问题并生成功能正确代码的能力。
- 代码智能研究:适用于代码合成、程序理解等相关领域的研究。