MLE 与 MAP

一句话定义

MLE 最大化似然，MAP 最大化后验，后者等价于在 MLE 目标上加入先验正则。

问题设定

输入：观测数据 $\mathcal{D} = {x_i}_{i=1}^n$ 或 ${(x_i,y_i)}$。
输出：参数 $\theta$。
假设：数据由模型 $p(x\mid\theta)$ 或 $p(y\mid x,\theta)$ 生成。
边界：模型错设时两者都可能偏差。

数学表述

MLE： \(\hat{\theta}_{\text{MLE}} = \arg\max_{\theta} \; p(\mathcal{D} \mid \theta)\)

MAP： \(\hat{\theta}_{\text{MAP}} = \arg\max_{\theta} \; p(\mathcal{D} \mid \theta) p(\theta)\)

等价的最小化形式： \(\hat{\theta}_{\text{MAP}} = \arg\min_{\theta} \; -\log p(\mathcal{D} \mid \theta) - \log p(\theta)\)

算法解释

MLE 仅依赖数据。
MAP 将先验作为正则约束，缓解小样本过拟合。

优化与实现细节

目标来源：概率模型的似然与先验。
求解器：与模型相同（闭式/梯度/EM）。
数值要点：先验选取影响偏差与方差。

关联与边界

MAP 与正则化：高斯先验对应 $\ell_2$，拉普拉斯先验对应 $\ell_1$。
与贝叶斯推断：MAP 是后验点估计，不给出不确定性。
边界：先验错误时会系统性偏移。

失败模式

过强先验导致欠拟合。
似然模型错设导致估计偏差。

最小伪代码

Input: data D, likelihood p(D|theta), prior p(theta)
Optimize log p(D|theta) [+ log p(theta)]
Return theta

决策清单

先验是否有依据
样本量是否足够支持 MLE
是否需要不确定性（如需要应做完整贝叶斯）

个人备注

TODO