归一化 Normalization
一句话定义
归一化通过标准化特征或激活分布来加速训练并稳定梯度。
问题设定
- 输入:激活或特征张量。
- 输出:归一化后的张量。
- 假设:分布偏移会降低训练稳定性。
- 边界:小 batch 或序列任务需特殊归一化。
数学表述
BatchNorm: \(\hat{x} = \frac{x-\mu_B}{\sqrt{\sigma_B^2+\epsilon}},\quad y = \gamma \hat{x} + \beta\) LayerNorm 在特征维度归一化。
算法解释
- 降低内部协变量偏移。
- 提供可学习缩放与偏移。
优化与实现细节
- 目标来源:稳定分布与梯度。
- 数值要点:训练/推理使用不同统计量;小 batch 适合 LayerNorm/GroupNorm。
关联与边界
- 与初始化互补。
- 边界:BN 在 RNN 中不稳定,常用 LN。
失败模式
- 小 batch 统计不稳定。
- 训练/推理统计不一致导致性能下降。
最小伪代码
Input: activations x
Compute mean/var
Normalize and scale
决策清单
- 选择合适归一化类型
- 训练/推理统计一致
- 兼容 batch size
个人备注
TODO