LLEMMA：用于数学推理的高性能大语言模型

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

视频语言规划

作者: Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum, Leslie Kaelbling, Andy Zeng, Jonathan Tompson

提交日期: 2023年10月16日

摘要: 我们致力于利用在互联网规模数据上预训练的大型生成模型的最新进展，在生成的视频和语言空间中实现复杂长时程任务的视觉规划。为此，我们提出了视频语言规划（VLP）算法。该算法包含一个树搜索过程，其中我们训练（i）视觉语言模型同时作为策略和价值函数，以及（ii）文本到视频模型作为动力学模型。VLP以长时程任务指令和当前图像观察作为输入，输出一个长视频规划，该规划提供了详细的多模态（视频和语言）规范，描述了如何完成最终任务。VLP的计算规模可随计算预算的增加而扩展，更多的计算时间会带来更好的视频规划，并且能够跨不同的机器人领域合成长时程视频规划：从多物体重排，到多摄像头双臂灵巧操作。生成的视频规划可以通过目标条件策略转化为真实的机器人动作，该策略以生成视频的每个中间帧为条件。实验表明，与现有方法相比，VLP在模拟和真实机器人（跨越3个硬件平台）上都显著提高了长时程任务的成功率。

主题分类: 计算机视觉与模式识别 (cs.CV); 人工智能 (cs.AI); 机器学习 (cs.LG); 机器人学 (cs.RO)

arXiv标识符: arXiv:2310.10625

论文地址：https://arxiv.org/abs/2310.10625

49 次点击 ∙ 0 人收藏

登录后收藏

0 条回复