数据集简介
ShareGPT-4o-Image 是一个由 FreedomIntelligence 发布的大规模多模态对话数据集,主要用于训练和评估视觉-语言模型。
主要用途
该数据集旨在支持多模态大语言模型的指令微调与能力对齐,帮助模型理解和生成结合图像与文本的复杂对话。
数据类型/模态
- 主要模态:文本(对话格式)
- 关联模态:图像(根据数据集名称推断,数据集本身存储的是文本对话,但对话内容涉及对图像的描述、理解和基于图像的问答)
规模与统计信息
- 样本数量:92,256 条对话记录
- 数据格式:JSON
- 下载量:416+
- 社区热度:获赞 96
使用场景
- 多模态模型微调:为 GPT-4o、LLaVA 等视觉-语言模型提供高质量的指令遵循对话数据。
- 研究评估:作为基准数据集,用于评估模型在图像理解、视觉问答、多轮对话等方面的能力。
- 对话生成:训练模型生成与图像内容相关、自然且有用的回复。
核心特点
- 高质量对话:数据来源于 ShareGPT 社区,经过筛选和整理,对话质量较高。
- 视觉-语言对齐:文本对话围绕图像内容展开,强调跨模态理解与交互。
- 实用性强:直接适用于当前主流的视觉-语言模型训练流程。