一句话定义

SARSA 使用在策略采样更新动作价值函数。

问题设定

  • 输入:转移 $(s,a,r,s’,a’)$。
  • 输出:$Q(s,a)$。
  • 假设:策略用于采样与更新一致。
  • 边界:学习较保守。

数学表述

更新: \(Q(s,a) \leftarrow Q(s,a) + \alpha \big(r + \gamma Q(s',a') - Q(s,a)\big)\)

算法解释

  • 与 Q-learning 相比更稳定但收敛慢。

优化与实现细节

  • 数值要点:探索策略影响目标。

关联与边界

  • 对比 Q-learning:SARSA 在策略,Q-learning 离策略。

失败模式

  • 探索不足导致次优策略。
  • 学习率不当导致不稳定。

最小伪代码

For each transition:
  target = r + gamma * Q(s',a')
  Q(s,a) = Q(s,a) + alpha * (target - Q(s,a))

决策清单

  • 需要在策略更新
  • 探索策略稳定
  • 与 Q-learning 基线对比

个人备注

TODO