数据集简介
HallusionBench 是一个用于评估多模态大语言模型(MLLMs)在视觉推理任务中产生“幻觉”和“错觉”现象的基准测试集。
主要用途
该数据集旨在系统性地测试和量化多模态模型在结合图像与文本进行问答时,是否会产生与图像内容不符的答案(幻觉),或是否容易被图像中的视觉错觉所误导。
数据类型/模态
- 模态:图像与文本(多模态)
- 数据格式:包含图像文件及对应的文本问答对。
规模与统计
- 数据集包含 1129 个样本(行)。
- 在发布平台已获得 1663 次下载。
使用场景
- 模型评估:研究人员和开发者可用其评估多模态模型的视觉-语言对齐能力、鲁棒性和可靠性。
- 基准测试:作为衡量模型是否“看清并理解”图像的基准,推动减少模型幻觉的研究。
- 缺陷分析:帮助分析模型在复杂视觉场景或存在错觉的图像中失败的具体模式。