在噪声大、互联网规模的数据集上进行预训练,已被广泛研究用于训练具有广泛通用能力的文本、图像及其他模态模型。然而,对于机器人、视频游戏和计算机使用等许多序列决策领域,公开可用的数据并不包含训练行为先验所需的标签。
本文将互联网规模预训练范式扩展到序列决策领域,通过半监督模仿学习使智能体通过观察在线未标记视频来学习行动。具体而言,作者证明:利用少量标注数据可以训练一个足够精确的逆动力学模型,从而为大量未标注的在线数据(本文中为人们玩Minecraft的在线视频)打上标签,进而训练出一个通用的行为先验。
尽管使用原生人类界面(鼠标和键盘,20Hz),该研究展示了这一行为先验具有非平凡的零样本能力,并且可以通过模仿学习和强化学习进行微调,以解决那些从零开始通过强化学习无法学习的困难探索任务。在许多任务中,该模型表现出人类级别的性能。该研究首次报道了能够合成钻石工具的计算机智能体——这对于熟练的人类玩家也需要超过20分钟(24,000个环境动作)的游戏过程才能完成。