数据集简介
Multimodal-Mind2Web 是一个多模态网页交互数据集,旨在支持基于视觉和文本的网页任务自动化与智能交互研究。
主要用途
用于训练和评估多模态智能体(如AI助手或机器人)在真实网站环境中完成复杂任务的能力,例如信息查找、表单填写、在线购物等网页操作。
数据类型/模态
- 模态类型:图像(网页截图)与文本(任务指令、网页元素信息)
- 数据格式:Parquet
规模与统计
- 数据总行数:14,193 条样本
- 下载量:2,337+
- 社区点赞数:89
使用场景
- 多模态智能体开发:训练能够理解网页视觉布局并执行文本指令的AI模型。
- 网页自动化研究:支持端到端的网页任务自动化,减少人工操作。
- 人机交互评估:作为基准测试数据集,评估模型在真实网页环境中的交互能力。
特点
- 数据来源于真实网站,覆盖多样化的交互任务。
- 同时提供视觉(截图)和文本(DOM元素、任务描述)信息,适合多模态建模。
- 开源可访问,无需特殊权限即可使用。