一句话定义

优化技巧通过改进学习率、动量与调度策略提升收敛速度与稳定性。

问题设定

  • 输入:优化器与学习率策略。
  • 输出:更稳定的训练过程。
  • 假设:梯度噪声与曲率会影响收敛。
  • 边界:技巧依赖任务与模型规模。

数学表述

动量: \(v_{t+1} = \mu v_t + \nabla f(\theta_t), \quad \theta_{t+1} = \theta_t - \eta v_{t+1}\) 学习率调度(余弦): \(\eta_t = \eta_{min} + \frac{1}{2}(\eta_{max}-\eta_{min})(1+\cos(\pi t/T))\)

算法解释

  • 动量加速一致方向、抑制震荡。
  • 调度避免后期震荡。

优化与实现细节

  • 数值要点:warmup、梯度裁剪、权重衰减区分 L2。

关联与边界

  • 与优化器选择(SGD/Adam)直接相关。
  • 边界:过多技巧叠加可能适得其反。

失败模式

  • 学习率过大导致发散。
  • 调度与 batch size 不匹配。

最小伪代码

Select optimizer and lr schedule
Train with warmup and decay
Monitor loss/gradients

决策清单

  • 学习率范围已验证
  • 调度策略适配训练时长
  • 监控梯度稳定性

个人备注

TODO