近端策略优化算法 (Proximal Policy Optimization Algorithms)

作者： John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov

提交/修订日期： 2017年7月20日提交，2017年8月28日修订 (v2)

主题/分类： 计算机科学 > 机器学习 (cs.LG)

摘要：
我们提出了一类新的用于强化学习的策略梯度方法，这类方法交替进行：1) 通过与环境的交互采样数据；2) 使用随机梯度上升优化一个“替代”目标函数。标准的策略梯度方法对每个数据样本执行一次梯度更新，而我们提出了一个新的目标函数，该函数支持对小型批次数据进行多轮次更新。我们将这种新方法称为近端策略优化（PPO）。PPO 具有信任域策略优化（TRPO）的一些优点，但实现起来更简单、更通用，并且（根据经验）具有更好的样本复杂度。我们的实验在一系列基准任务上测试了 PPO，包括模拟机器人运动和 Atari 游戏，结果表明 PPO 优于其他在线策略梯度方法，并且在样本复杂度、实现简单性和运行时间之间取得了良好的平衡。

论文地址：https://arxiv.org/abs/1707.06347

27 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

PPO：近端策略优化算法

近端策略优化算法 (Proximal Policy Optimization Algorithms)