作者: John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov
提交/修订日期: 2017年7月20日提交,2017年8月28日修订 (v2)
主题/分类: 计算机科学 > 机器学习 (cs.LG)
摘要:
我们提出了一类新的用于强化学习的策略梯度方法,这类方法交替进行:1) 通过与环境的交互采样数据;2) 使用随机梯度上升优化一个“替代”目标函数。标准的策略梯度方法对每个数据样本执行一次梯度更新,而我们提出了一个新的目标函数,该函数支持对小型批次数据进行多轮次更新。我们将这种新方法称为近端策略优化(PPO)。PPO 具有信任域策略优化(TRPO)的一些优点,但实现起来更简单、更通用,并且(根据经验)具有更好的样本复杂度。我们的实验在一系列基准任务上测试了 PPO,包括模拟机器人运动和 Atari 游戏,结果表明 PPO 优于其他在线策略梯度方法,并且在样本复杂度、实现简单性和运行时间之间取得了良好的平衡。