Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos

基本信息

标题: Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos
作者: Bowen Baker, Ilge Akkaya, Peter Zhokhov, Joost Huizinga, Jie Tang, Adrien Ecoffet, Brandon Houghton, Raul Sampedro, Jeff Clune
提交日期: 2022年6月23日
分类: 计算机科学 > 机器学习 (cs.LG)；人工智能 (cs.AI)
arXiv ID: 2206.11795

摘要

在噪声大、互联网规模的数据集上进行预训练，已被广泛研究用于训练具有广泛通用能力的文本、图像及其他模态模型。然而，对于机器人、视频游戏和计算机使用等许多序列决策领域，公开可用的数据并不包含训练行为先验所需的标签。

本文将互联网规模预训练范式扩展到序列决策领域，通过半监督模仿学习使智能体通过观察在线未标记视频来学习行动。具体而言，作者证明：利用少量标注数据可以训练一个足够精确的逆动力学模型，从而为大量未标注的在线数据（本文中为人们玩Minecraft的在线视频）打上标签，进而训练出一个通用的行为先验。

尽管使用原生人类界面（鼠标和键盘，20Hz），该研究展示了这一行为先验具有非平凡的零样本能力，并且可以通过模仿学习和强化学习进行微调，以解决那些从零开始通过强化学习无法学习的困难探索任务。在许多任务中，该模型表现出人类级别的性能。该研究首次报道了能够合成钻石工具的计算机智能体——这对于熟练的人类玩家也需要超过20分钟（24,000个环境动作）的游戏过程才能完成。

论文地址：https://arxiv.org/abs/2206.11795

1 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

VPT：通过视频预训练学习可迁移的视觉策略表示

Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos

基本信息

摘要