SARSA

一句话定义

SARSA 使用在策略采样更新动作价值函数。

问题设定

输入：转移 $(s,a,r,s’,a’)$。
输出：$Q(s,a)$。
假设：策略用于采样与更新一致。
边界：学习较保守。

数学表述

更新： \(Q(s,a) \leftarrow Q(s,a) + \alpha \big(r + \gamma Q(s',a') - Q(s,a)\big)\)

算法解释

与 Q-learning 相比更稳定但收敛慢。

优化与实现细节

数值要点：探索策略影响目标。

关联与边界

对比 Q-learning：SARSA 在策略，Q-learning 离策略。

失败模式

探索不足导致次优策略。
学习率不当导致不稳定。

最小伪代码

For each transition:
  target = r + gamma * Q(s',a')
  Q(s,a) = Q(s,a) + alpha * (target - Q(s,a))

决策清单

需要在策略更新
探索策略稳定
与 Q-learning 基线对比

个人备注

TODO