策略梯度 Policy Gradient
一句话定义
策略梯度直接优化策略参数以最大化期望回报。
问题设定
- 输入:可微策略 $\pi_\theta(a\mid s)$。
- 输出:策略参数 $\theta$。
- 假设:策略可采样并可微。
- 边界:梯度方差高。
数学表述
目标: \(J(\theta) = \mathbb{E}_{\pi_\theta}[G_t]\) 梯度: \(\nabla_\theta J(\theta) = \mathbb{E}\big[\nabla_\theta \log \pi_\theta(a_t\mid s_t) \; G_t\big]\)
算法解释
- REINFORCE 使用回报作为权重。
- 可加入 baseline 降低方差。
优化与实现细节
- 数值要点:优势函数替代回报。
关联与边界
- 与 actor-critic 紧密相关。
- 边界:样本效率低。
失败模式
- 高方差导致不稳定。
- 探索不足。
最小伪代码
Collect trajectories
Compute returns
Update theta by policy gradient
决策清单
- 连续动作或随机策略需求
- 采用 baseline 降方差
- 样本预算充足
个人备注
TODO