数据集简介
这是一个由OpenDataArena发布的多模态指令微调数据集,旨在通过大规模、高质量的图文对,训练或提升视觉语言模型(如Qwen-VL系列)的细粒度推理与思考能力。
主要用途
用于对视觉语言模型进行监督微调(SFT),特别侧重于增强模型在复杂多模态场景下的深度推理和分步思考能力。
数据类型与模态
- 模态:图像 + 文本
- 数据形式:高质量的图文指令-响应对,其中响应部分可能包含模型生成的、体现“思考过程”的详细推理链。
规模与统计
- 数据量:约58.6万条样本(585,744行)。
- 来源/方法:基于强大的视觉语言模型(Qwen3-VL-235B)生成,确保了数据在复杂推理任务上的深度和质量。
使用场景
- 模型训练:适用于训练或微调需要具备高级视觉理解和逻辑推理能力的多模态大模型。
- 能力评估:可作为评估模型在细粒度视觉推理、多步骤问题解答等任务上性能的基准数据。
- 研究领域:多模态人工智能、视觉问答(VQA)、视觉推理、可解释AI。