策略梯度 Policy Gradient

一句话定义

策略梯度直接优化策略参数以最大化期望回报。

问题设定

输入：可微策略 $\pi_\theta(a\mid s)$。
输出：策略参数 $\theta$。
假设：策略可采样并可微。
边界：梯度方差高。

数学表述

目标： \(J(\theta) = \mathbb{E}_{\pi_\theta}[G_t]\) 梯度： \(\nabla_\theta J(\theta) = \mathbb{E}\big[\nabla_\theta \log \pi_\theta(a_t\mid s_t) \; G_t\big]\)

算法解释

REINFORCE 使用回报作为权重。
可加入 baseline 降低方差。

优化与实现细节

数值要点：优势函数替代回报。

关联与边界

与 actor-critic 紧密相关。
边界：样本效率低。

失败模式

高方差导致不稳定。
探索不足。

最小伪代码

Collect trajectories
Compute returns
Update theta by policy gradient

决策清单

连续动作或随机策略需求
采用 baseline 降方差
样本预算充足

个人备注

TODO