演员-评论家 Actor-Critic

一句话定义

Actor-Critic 同时学习策略与价值函数，用价值作为低方差学习信号。

问题设定

输入：策略 $\pi_\theta$ 与价值函数 $V_\phi$。
输出：更新后的策略与价值。
假设：价值函数近似可用。
边界：价值估计偏差影响策略。

数学表述

优势函数： \(A_t = r_t + \gamma V_\phi(s_{t+1}) - V_\phi(s_t)\) 策略更新： \(\nabla_\theta J \approx \nabla_\theta \log \pi_\theta(a_t\mid s_t) A_t\)

算法解释

Critic 降低方差，Actor 更新策略。

优化与实现细节

数值要点：价值函数与策略同步更新易不稳定。

关联与边界

与 PPO/A2C/A3C 直接相关。
边界：critic 误差会污染梯度。

失败模式

价值函数崩溃导致策略退化。
同步更新不稳定。

最小伪代码

Collect transitions
Compute advantage A
Update actor and critic

决策清单

价值函数近似足够准确
同步更新策略稳定
监控 critic loss

个人备注

TODO