openai/openai_humaneval

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

OpenAI HumanEval 是由 OpenAI 发布的一个代码生成评估数据集，主要用于测试和评估大语言模型在代码生成任务上的能力。

主要用途

该数据集的核心用途是作为代码生成模型的基准测试集，用于衡量模型根据自然语言描述（问题陈述）生成正确 Python 代码的能力。

数据类型/模态

模态：文本
内容：包含编程问题描述、函数签名、以及对应的单元测试用例。

规模与统计

数据量：包含 164 个独立的编程问题。
格式：数据集以 Parquet 格式提供。

使用场景

模型评估与基准测试：研究人员和开发者使用此数据集来客观比较不同代码生成模型（如 Codex、GPT 系列等）的性能。
模型训练与微调：可作为训练数据的一部分，用于提升模型理解编程问题并生成功能正确代码的能力。
代码智能研究：适用于代码合成、程序理解等相关领域的研究。

数据集地址：https://huggingface.co/datasets/openai/openai_humaneval

40 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 22 ms

Developed with Cursor