OmniWorld 是一个由 InternRobotics 发布的大规模多模态数据集,旨在为机器人学和人工智能研究提供丰富的视觉与文本数据。
该数据集主要用于训练和评估机器人感知、视觉-语言理解以及具身智能相关的模型。
数据集包含两种模态的数据: * 图像:视觉数据。 * 文本:与图像相关的文本描述或标签。
适用于需要大规模、高质量图像-文本对进行预训练或微调的研究,特别是在机器人环境理解、视觉问答、指令跟随等任务中。