近端策略优化 PPO

一句话定义

PPO 通过裁剪目标函数限制策略更新幅度，提升训练稳定性。

问题设定

输入：旧策略 $\pi_{\theta_{old}}$ 与新策略 $\pi_\theta$。
输出：更新后的策略。
假设：策略可微且可采样。
边界：仍为 on-policy，样本效率有限。

数学表述

概率比率： $r_t(\theta) = \frac{\pi_\theta(a_t\mid s_t)}{\pi_{\theta_{old}}(a_t\mid s_t)}$ 裁剪目标： $L^{\text{clip}} = \mathbb{E}[\min(r_t A_t, \text{clip}(r_t, 1-\epsilon, 1+\epsilon) A_t)]$

算法解释

裁剪限制策略改变幅度，避免破坏性更新。

优化与实现细节

数值要点：优势归一化与多轮小批次更新。

关联与边界

对比 TRPO：PPO 更易实现但约束更弱。
边界：对超参数敏感。

失败模式

$\epsilon$ 设置不当导致学习停滞或不稳定。
Advantage 估计噪声大。

最小伪代码

Collect rollouts
Compute advantages
Optimize clipped objective

决策清单

需要稳定的 on-policy 方法
采样效率可接受
超参数已调节

个人备注

TODO