作者: Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn
提交/修订日期: 2024年6月13日提交,2024年9月5日修订 (v3)
摘要:
结合互联网规模的视觉-语言数据和多样化机器人演示进行预训练的大型策略模型,有潜力改变我们教授机器人新技能的方式:我们可以微调此类视觉-语言-动作模型,以获得用于视觉运动控制的鲁棒、可泛化的策略,而无需从头开始训练新行为。然而,VLA在机器人领域的广泛采用一直面临挑战,因为:1)现有的VLA大多是封闭的,公众无法访问;2)先前的工作未能探索如何高效地为新任务微调VLA,而这是实现应用的关键环节。为应对这些挑战,我们提出了OpenVLA,这是一个拥有70亿参数的开源VLA模型,基于97万个真实世界机器人演示的多样化集合进行训练。OpenVLA建立在Llama 2语言模型之上,并结合了一个融合了DINOv2和SigLIP预训练特征的视觉编码器。得益于增加的数据多样性和新的模型组件,OpenVLA在通用操作任务上表现出色,在29个任务和多种机器人平台上,其绝对任务成功率比RT-2-X(550亿参数)等封闭模型高出16.5%,而参数数量仅为后者的七分之一。我们进一步证明,可以有效地为新的场景微调OpenVLA,尤其是在涉及多个对象的多任务环境中表现出强大的泛化能力和语言接地能力,并且比Diffusion Policy等从头开始的模仿学习方法高出20.4%。我们还探索了计算效率;作为另一项贡献,我们展示了OpenVLA可以通过现代低秩自适应方法在消费级GPU上进行微调,并通过量化高效部署,而不会影响下游成功率。最后,我们发布了模型检查点、微调笔记本以及我们的PyTorch代码库,该代码库内置了对在Open X-Embodiment数据集上大规模训练VLA的支持。
主题/分类: 机器人学 (cs.RO); 机器学习 (cs.LG)