CommonGen 数据集简介
数据集概述
CommonGen 是一个由 AllenAI 发布的文本生成数据集,旨在挑战模型根据一组给定的概念生成连贯、符合常识的句子。
主要用途
该数据集主要用于训练和评估常识推理与可控文本生成模型。核心任务是:给定一组常见概念(例如:树、鸟、巢),模型需要生成一个合理且自然的句子,将这些概念逻辑地串联起来。
数据类型与模态
- 模态:纯文本
- 任务类型:概念到句子的生成任务
- 数据格式:Parquet
规模与统计
- 数据总量:72,904 条样本
- 下载量:超过 1.1k
- 社区认可度:30 个点赞
核心特点与场景
- 常识驱动:强调模型对日常概念间隐含关系的理解能力。
- 可控生成:输入是离散的概念集合,要求输出句子必须包含所有给定概念,测试模型的内容整合能力。
- 适用场景:
- 常识推理模型的基准测试。
- 可控文本生成、条件文本生成的研究。
- 评估模型的语言创造性和逻辑连贯性。