OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2206.11795

VPT:通过视频预训练学习可迁移的视觉策略表示

 
  garden ·  2026-05-05 11:01:23 · 1 次点击  · 0 条评论  

Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos

基本信息

  • 标题: Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos
  • 作者: Bowen Baker, Ilge Akkaya, Peter Zhokhov, Joost Huizinga, Jie Tang, Adrien Ecoffet, Brandon Houghton, Raul Sampedro, Jeff Clune
  • 提交日期: 2022年6月23日
  • 分类: 计算机科学 > 机器学习 (cs.LG);人工智能 (cs.AI)
  • arXiv ID: 2206.11795

摘要

在噪声大、互联网规模的数据集上进行预训练,已被广泛研究用于训练具有广泛通用能力的文本、图像及其他模态模型。然而,对于机器人、视频游戏和计算机使用等许多序列决策领域,公开可用的数据并不包含训练行为先验所需的标签。

本文将互联网规模预训练范式扩展到序列决策领域,通过半监督模仿学习使智能体通过观察在线未标记视频来学习行动。具体而言,作者证明:利用少量标注数据可以训练一个足够精确的逆动力学模型,从而为大量未标注的在线数据(本文中为人们玩Minecraft的在线视频)打上标签,进而训练出一个通用的行为先验。

尽管使用原生人类界面(鼠标和键盘,20Hz),该研究展示了这一行为先验具有非平凡的零样本能力,并且可以通过模仿学习和强化学习进行微调,以解决那些从零开始通过强化学习无法学习的困难探索任务。在许多任务中,该模型表现出人类级别的性能。该研究首次报道了能够合成钻石工具的计算机智能体——这对于熟练的人类玩家也需要超过20分钟(24,000个环境动作)的游戏过程才能完成。

1 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 13 ms
Developed with Cursor