Q 学习 Q Learning
一句话定义
Q 学习通过离策略 TD 更新逼近最优动作价值函数。
问题设定
- 输入:转移 $(s,a,r,s’)$。
- 输出:$Q(s,a)$。
- 假设:可探索足够覆盖状态-动作。
- 边界:函数逼近时可能不稳定。
数学表述
更新: \(Q(s,a) \leftarrow Q(s,a) + \alpha \big(r + \gamma \max_{a'} Q(s',a') - Q(s,a)\big)\)
算法解释
- 使用贪婪目标动作自举。
优化与实现细节
- 数值要点:探索策略($\epsilon$-greedy)。
关联与边界
- 对比 SARSA:SARSA 为在策略更新。
- 边界:离策略 + 函数逼近可能发散。
失败模式
- 过度贪婪导致欠探索。
- 近似误差引发发散。
最小伪代码
For each transition:
target = r + gamma * max_a' Q(s',a')
Q(s,a) = Q(s,a) + alpha * (target - Q(s,a))
决策清单
- 探索策略合理
- 状态-动作覆盖充分
- 函数逼近稳定性控制
个人备注
TODO