OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  OpenAI

openai/openai_humaneval

 
  OpenAI  ·  2024-01-04 16:08:05  ·  23 次点击  ·  0 条评论  

数据集简介

OpenAI HumanEval 是由 OpenAI 发布的一个代码生成评估数据集,主要用于测试和评估大语言模型在代码生成任务上的能力。

主要用途

该数据集的核心用途是作为代码生成模型的基准测试集,用于衡量模型根据自然语言描述(问题陈述)生成正确 Python 代码的能力。

数据类型/模态

  • 模态:文本
  • 内容:包含编程问题描述、函数签名、以及对应的单元测试用例。

规模与统计

  • 数据量:包含 164 个独立的编程问题。
  • 格式:数据集以 Parquet 格式提供。

使用场景

  1. 模型评估与基准测试:研究人员和开发者使用此数据集来客观比较不同代码生成模型(如 Codex、GPT 系列等)的性能。
  2. 模型训练与微调:可作为训练数据的一部分,用于提升模型理解编程问题并生成功能正确代码的能力。
  3. 代码智能研究:适用于代码合成、程序理解等相关领域的研究。
23 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  Ping ·   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor