马尔可夫决策过程 MDP

一句话定义

MDP 用状态转移与奖励刻画序列决策问题，是强化学习的基本建模框架。

问题设定

输入：状态 $S$、动作 $A$、转移 $P(s’\mid s,a)$、奖励 $R(s,a)$。
输出：策略 $\pi(a\mid s)$。
假设：马尔可夫性成立。
边界：部分可观测需 POMDP。

数学表述

目标： \(\max_{\pi} \; \mathbb{E}_\pi\left[\sum_{t=0}^{\infty} \gamma^t r_t\right]\)

算法解释

状态满足马尔可夫性：未来仅依赖当前状态与动作。

优化与实现细节

目标来源：期望回报最大化。
数值要点：折扣因子 $\gamma$ 控制长期回报权重。

关联与边界

对比 POMDP：MDP 假设全可观测。
边界：状态建模不完整会降低可解性。

失败模式

状态定义不充分导致策略失效。
奖励稀疏导致学习困难。

最小伪代码

Define S, A, P, R, gamma
Optimize policy to maximize expected return

决策清单

状态定义满足马尔可夫性
奖励设计可学习
折扣因子合理

个人备注

TODO