一句话定义

蒙特卡洛方法通过完整回合样本估计回报并进行价值或策略评估。

问题设定

  • 输入:轨迹 $\tau = (s_0,a_0,r_0,\dots)$。
  • 输出:价值估计或策略。
  • 假设:可采样完整回合。
  • 边界:高方差,需足够样本。

数学表述

回报: \(G_t = \sum_{k=0}^{T-t-1} \gamma^k r_{t+k}\) 价值估计: \(V^\pi(s) \approx \frac{1}{N(s)} \sum_{i: s_i=s} G_i\)

算法解释

  • 无需模型,直接用回合样本估计期望。

优化与实现细节

  • 目标来源:样本均值近似期望。
  • 数值要点:首次访问/每次访问 MC;方差大。

关联与边界

  • 对比 TD:MC 使用完整回合,TD 用自举。
  • 边界:回合很长时效率低。

失败模式

  • 回合长度大导致估计不稳定。
  • 高方差导致收敛慢。

最小伪代码

Generate episodes
For each state in episode:
  Update V with return G

决策清单

  • 可采样完整回合
  • 方差可接受
  • 与 TD 对比

个人备注

TODO