优化技巧 Optimization Tricks
一句话定义
优化技巧通过改进学习率、动量与调度策略提升收敛速度与稳定性。
问题设定
- 输入:优化器与学习率策略。
- 输出:更稳定的训练过程。
- 假设:梯度噪声与曲率会影响收敛。
- 边界:技巧依赖任务与模型规模。
数学表述
动量: \(v_{t+1} = \mu v_t + \nabla f(\theta_t), \quad \theta_{t+1} = \theta_t - \eta v_{t+1}\) 学习率调度(余弦): \(\eta_t = \eta_{min} + \frac{1}{2}(\eta_{max}-\eta_{min})(1+\cos(\pi t/T))\)
算法解释
- 动量加速一致方向、抑制震荡。
- 调度避免后期震荡。
优化与实现细节
- 数值要点:warmup、梯度裁剪、权重衰减区分 L2。
关联与边界
- 与优化器选择(SGD/Adam)直接相关。
- 边界:过多技巧叠加可能适得其反。
失败模式
- 学习率过大导致发散。
- 调度与 batch size 不匹配。
最小伪代码
Select optimizer and lr schedule
Train with warmup and decay
Monitor loss/gradients
决策清单
- 学习率范围已验证
- 调度策略适配训练时长
- 监控梯度稳定性
个人备注
TODO