作者: Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus Greff, Andy Zeng, Igor Mordatch, Pete Florence
提交日期: 2023年3月6日
摘要:
大语言模型在一系列复杂任务上表现出色。然而,要在现实世界(例如机器人问题)中实现通用推理,则带来了“接地”(grounding)的挑战。我们提出了具身语言模型,以直接将现实世界的连续传感器模态纳入语言模型,从而建立词语与感知之间的链接。我们具身语言模型的输入是多模态句子,其中交错着视觉、连续状态估计和文本输入编码。我们以端到端的方式,结合一个预训练的大语言模型,对这些编码进行训练,以完成多种具身任务,包括顺序机器人操作规划、视觉问答和图像描述。我们的评估表明,PaLM-E——一个单一的、大型的具身多模态模型——能够处理多种具身推理任务,这些任务来自多种观察模态,并适用于多种具身形态。此外,它表现出正向迁移:模型受益于跨互联网规模的语言、视觉和视觉-语言领域的多样化联合训练。我们最大的模型 PaLM-E-562B 拥有 5620 亿参数,除了在机器人任务上进行训练外,还是一个视觉-语言通才,在 OK-VQA 上达到了最先进的性能,并且随着规模的增大,保留了通才语言能力。
主题/分类:
- 机器学习 (cs.LG)
- 人工智能 (cs.AI)
- 机器人学 (cs.RO)