蒙特卡洛 Monte Carlo

一句话定义

蒙特卡洛方法通过完整回合样本估计回报并进行价值或策略评估。

问题设定

输入：轨迹 $\tau = (s_0,a_0,r_0,\dots)$。
输出：价值估计或策略。
假设：可采样完整回合。
边界：高方差，需足够样本。

数学表述

回报： \(G_t = \sum_{k=0}^{T-t-1} \gamma^k r_{t+k}\) 价值估计： \(V^\pi(s) \approx \frac{1}{N(s)} \sum_{i: s_i=s} G_i\)

算法解释

无需模型，直接用回合样本估计期望。

优化与实现细节

目标来源：样本均值近似期望。
数值要点：首次访问/每次访问 MC；方差大。

关联与边界

对比 TD：MC 使用完整回合，TD 用自举。
边界：回合很长时效率低。

失败模式

回合长度大导致估计不稳定。
高方差导致收敛慢。

最小伪代码

Generate episodes
For each state in episode:
  Update V with return G

决策清单

可采样完整回合
方差可接受
与 TD 对比

个人备注

TODO