osunlp/Multimodal-Mind2Web

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

Multimodal-Mind2Web 是一个多模态网页交互数据集，旨在支持基于视觉和文本的网页任务自动化与智能交互研究。

主要用途

用于训练和评估多模态智能体（如AI助手或机器人）在真实网站环境中完成复杂任务的能力，例如信息查找、表单填写、在线购物等网页操作。

数据类型/模态

模态类型：图像（网页截图）与文本（任务指令、网页元素信息）
数据格式：Parquet

规模与统计

数据总行数：14,193 条样本
下载量：2,337+
社区点赞数：89

使用场景

多模态智能体开发：训练能够理解网页视觉布局并执行文本指令的AI模型。
网页自动化研究：支持端到端的网页任务自动化，减少人工操作。
人机交互评估：作为基准测试数据集，评估模型在真实网页环境中的交互能力。

特点

数据来源于真实网站，覆盖多样化的交互任务。
同时提供视觉（截图）和文本（DOM元素、任务描述）信息，适合多模态建模。
开源可访问，无需特殊权限即可使用。

数据集地址：https://huggingface.co/datasets/osunlp/Multimodal-Mind2Web

71 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 11 ms

Developed with Cursor