# RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
**作者:** Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, Brianna Zitkovich
**主题分类:** Robotics (cs.RO); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
**摘要:**
本文研究了如何将在大规模互联网数据上训练的视觉-语言模型直接整合到端到端的机器人控制中,以提升泛化能力并实现涌现语义推理。作者提出了一种简单通用的方法:将机器人的动作表示为文本 token,并像处理自然语言 token 一样将其直接加入模型的训练集,从而对先进的视觉-语言模型同时在机器人轨迹数据和互联网规模的视觉-语言任务(如视觉问答)上进行协同微调。该模型类别被称为视觉-语言-动作模型 (VLA),其实例化模型为 RT-2。通过大量评估(6000 次评估试验),该方法获得了高性能的机器人策略,并使 RT-2 从互联网规模训练中获得了多种涌现能力,包括:对新物体的泛化能力显著提升;能够解释机器人训练数据中未出现的指令(如将物体放在特定数字或图标上);能够根据用户指令进行初级推理(如捡起最小或最大的物体,或最接近另一物体的物体)。此外,加入思维链推理使 RT-2 能够执行多阶段语义推理,例如找出可用作临时锤子的物体(石头),或为疲惫的人选择最佳饮品(能量饮料)。
**论文标识:** arXiv:2307.15818
**提交日期:** 2023 年 7 月 28 日
**项目主页:** [https://robotics-transformer.github.io/](https://robotics-transformer.github.io/)