稳定性问题 Stability Issues
一句话定义
稳定性问题指 RL 训练易发散、退化或高度敏感于超参数。
问题设定
- 输入:训练过程与超参数。
- 输出:稳定性诊断与缓解策略。
- 假设:函数逼近与自举引入不稳定。
- 边界:部分问题无法完全消除不稳定。
数学表述
不稳定通常表现为价值估计误差累积: \(\|Q_{t+1} - Q_t\| \gg 0\)
算法解释
- Bootstrapping + 函数逼近 + 离策略构成“致命三角”。
优化与实现细节
- 数值要点:目标网络、双重估计、正则化。
关联与边界
- 与离策略方法、函数逼近强相关。
- 边界:稳定性与样本效率常有权衡。
失败模式
- 训练崩溃或价值爆炸。
- 策略退化为随机。
最小伪代码
Monitor Q/return variance
Apply target networks and clipping
决策清单
- 识别三角风险
- 稳定化措施到位
- 监控发散指标
个人备注
TODO