一句话定义

激活函数引入非线性,使神经网络能表达非线性映射。

问题设定

  • 输入:线性变换输出 $z$。
  • 输出:激活 $a = \phi(z)$。
  • 假设:激活可导或可取次导。
  • 边界:不恰当激活导致训练不稳定。

数学表述

常见激活: \(\text{ReLU}(z)=\max(0,z),\quad \sigma(z)=\frac{1}{1+e^{-z}},\quad \tanh(z)\)

算法解释

  • 决定梯度流形与信号传播。
  • ReLU 缓解梯度消失但可能“死亡”。

优化与实现细节

  • 目标来源:非线性表示能力。
  • 选择:ReLU/LeakyReLU 用于深层,tanh/sigmoid 用于门控。
  • 数值要点:饱和区梯度小。

关联与边界

  • 与归一化、初始化强相关。
  • 边界:激活选择影响可训练性与表达。

失败模式

  • Sigmoid 饱和导致梯度消失。
  • ReLU 死亡导致通道失活。

最小伪代码

Input: z
Return phi(z)

决策清单

  • 深度与激活类型匹配
  • 梯度流动可接受
  • 与归一化/初始化协调

个人备注

TODO