多层感知机 MLP
一句话定义
MLP 通过多层线性变换与非线性激活组合学习通用函数近似。
问题设定
- 输入:$x \in \mathbb{R}^d$。
- 输出:$\hat{y}$ 或表示向量。
- 假设:可通过多层非线性逼近目标函数。
- 边界:缺少显式结构先验,样本效率较低。
数学表述
前向: \(h^{(0)} = x, \quad h^{(l)} = \phi(W^{(l)} h^{(l-1)} + b^{(l)})\) 输出层按任务选择线性或 softmax。
算法解释
- 通过层级表示逐步抽取特征。
- 宽度/深度决定表达能力与优化难度。
优化与实现细节
- 目标来源:ERM/MLE。
- 数值要点:初始化与归一化对收敛关键。
关联与边界
- 对比 CNN:CNN 引入局部与共享参数先验。
- 对比 Transformer:Transformer 具备注意力机制与序列建模能力。
- 边界:高维结构化输入需特定架构。
失败模式
- 过拟合或欠拟合。
- 梯度消失/爆炸。
最小伪代码
Input: x
For l in 1..L:
h = phi(W_l h + b_l)
Return output
决策清单
- 数据无明显结构先验
- 模型容量与数据规模匹配
- 初始化与归一化合理
个人备注
TODO