变换器 Transformer
一句话定义
Transformer 通过自注意力机制建模序列依赖,支持并行计算与全局交互。
问题设定
- 输入:序列 ${x_t}$ 与位置编码。
- 输出:序列表示或预测。
- 假设:全局依赖重要。
- 边界:注意力复杂度为 $O(T^2)$。
数学表述
自注意力: \(\text{Attn}(Q,K,V)=\text{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right)V\)
算法解释
- 通过注意力直接建模任意位置关系。
- 多头注意力增强表达能力。
优化与实现细节
- 数值要点:使用 LayerNorm、残差、学习率 warmup。
- 复杂度:$O(T^2)$ 时间与内存。
关联与边界
- 对比 RNN:更强并行与长程依赖。
- 对比 CNN:全局建模但成本更高。
失败模式
- 长序列计算成本高。
- 小数据下易过拟合。
最小伪代码
Input: X
Compute Q,K,V
Apply attention
Stack layers
Return outputs
决策清单
- 序列长度可接受 O(T^2)
- 需要全局依赖建模
- 数据量足够
个人备注
TODO