OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/1707.06347

PPO:近端策略优化算法

 
  mcp ·  2026-01-29 07:31:56 · 9 次点击  · 0 条评论  

近端策略优化算法 (Proximal Policy Optimization Algorithms)

作者: John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov

提交/修订日期: 2017年7月20日提交,2017年8月28日修订 (v2)

主题/分类: 计算机科学 > 机器学习 (cs.LG)

摘要:
我们提出了一类新的用于强化学习的策略梯度方法,这类方法交替进行:1) 通过与环境的交互采样数据;2) 使用随机梯度上升优化一个“替代”目标函数。标准的策略梯度方法对每个数据样本执行一次梯度更新,而我们提出了一个新的目标函数,该函数支持对小型批次数据进行多轮次更新。我们将这种新方法称为近端策略优化(PPO)。PPO 具有信任域策略优化(TRPO)的一些优点,但实现起来更简单、更通用,并且(根据经验)具有更好的样本复杂度。我们的实验在一系列基准任务上测试了 PPO,包括模拟机器人运动和 Atari 游戏,结果表明 PPO 优于其他在线策略梯度方法,并且在样本复杂度、实现简单性和运行时间之间取得了良好的平衡。

9 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 21 ms
Developed with Cursor