软演员-评论家 SAC

一句话定义

SAC 通过最大化回报与熵的加权和，实现高样本效率的离策略学习。

问题设定

输入：策略 $\pi_\theta$、Q 函数 $Q_\phi$。
输出：最大熵最优策略。
假设：连续动作空间。
边界：离策略训练需稳定的目标网络。

数学表述

最大熵目标： $J(\pi) = \sum_t \mathbb{E}[r_t + \alpha \mathcal{H}(\pi(\cdot\mid s_t))]$ 软 Q 更新： $Q(s,a) = r + \gamma \mathbb{E}_{a'\sim\pi}[Q(s',a') - \alpha \log \pi(a'\mid s')]$

算法解释

熵项鼓励探索并提升鲁棒性。

优化与实现细节

数值要点：温度 $\alpha$ 可自适应调整。

关联与边界

对比 DDPG：SAC 更稳定但计算量更大。
边界：离策略训练需经验回放。

失败模式

熵权重不当导致策略过度随机或过度确定。
Q 过估计导致不稳定。

最小伪代码

Sample replay
Update Q networks
Update policy with entropy term

决策清单

连续动作场景
需要高样本效率
温度参数可调

个人备注

TODO